LTX 2.3 带来开源 4K 视频与同步音频
Lightricks 发布了开源视频生成模型 LTX 2.3,能够在单次前向传递中输出最高 50 FPS 的原生 4K 视频,并附带同步的立体声音频。这是首个把高分辨率视频与音频生成合二为一的开源模型,且可在消费级硬件上运行。
Lightricks 官方对 LTX 2.3 的介绍
模型概况
LTX 2.3 是一个 220 亿参数的 DiT(扩散 Transformer),把视频与音频生成视为一个统一任务。它支持文生视频、图生视频、音生视频、视频生视频以及深度条件输入。给一个文本提示,就能得到带匹配声音的视频片段。没有独立的音频生成步骤,也无需事后同步。
模型支持 24、25、48 或 50 FPS,片段长度最高 20 秒。它能处理横向与原生竖向(9:16)比例,对面向社交平台的内容创作很重要。音频输出为 24 kHz 立体声。
与 LTX 2 的差异
相较前代,最大的改进是更锐利的细节与更好的动作。LTX 2 倾向于产出比较静态的画面,LTX 2.3 通过重建 VAE(变分自编码器)来增强纹理与运动表现。
提示理解也有显著升级。文本连接器扩大了 4 倍并加入门控注意力,意味着模型在整个生成过程中能更积极地引用提示的不同部分。如果你描述角色在做某动作的同时镜头如何运动,它能更好地兼顾两者。
其他改进还包括更干净的音频、更少的伪影;动作控制特性,如首/末帧引导;以及推、摇、对焦切换等运镜效果。
LTX 2.3 实际能产出什么的上手体验
性能
Lightricks 表示,模型在 H100 GPU 上比同类模型快 18 倍。在消费级硬件上,它能在大约 4 秒内生成一段 5 秒、24 FPS 的片段。对需要多次迭代、生成多个版本并挑选最佳结果的工作流而言,速度足够好用。
对游戏开发意味着什么
开放权重意味着你可以在本地运行 LTX 2.3,不必承担 API 成本和使用上限。对游戏开发者来说,这开启了多种用例:生成过场动画原型、在前期制作中创建预告片片段、生产宣传素材,或在投入完整制作前快速原型化电影化序列。
视频与音频一并生成的输出,对游戏预告片和过场动画尤其有用,否则你需要单独同步音频。能在一次生成中同时迭代视觉与音频基调,大大压缩了反馈循环。
模型在年收入低于 1000 万的条件下可免费使用。可通过 Lightricks API Playground、ComfyUI、PyTorch 及 Replicate 等第三方平台访问。