LTX 2.3 带来开源 4K 视频与同步音频

Lightricks 发布了开源视频生成模型 LTX 2.3，能够在单次前向传递中输出最高 50 FPS 的原生 4K 视频，并附带同步的立体声音频。这是首个把高分辨率视频与音频生成合二为一的开源模型，且可在消费级硬件上运行。

Lightricks 官方对 LTX 2.3 的介绍

模型概况

LTX 2.3 是一个 220 亿参数的 DiT（扩散 Transformer），把视频与音频生成视为一个统一任务。它支持文生视频、图生视频、音生视频、视频生视频以及深度条件输入。给一个文本提示，就能得到带匹配声音的视频片段。没有独立的音频生成步骤，也无需事后同步。

模型支持 24、25、48 或 50 FPS，片段长度最高 20 秒。它能处理横向与原生竖向（9:16）比例，对面向社交平台的内容创作很重要。音频输出为 24 kHz 立体声。

相较前代，最大的改进是更锐利的细节与更好的动作。LTX 2 倾向于产出比较静态的画面，LTX 2.3 通过重建 VAE（变分自编码器）来增强纹理与运动表现。

提示理解也有显著升级。文本连接器扩大了 4 倍并加入门控注意力，意味着模型在整个生成过程中能更积极地引用提示的不同部分。如果你描述角色在做某动作的同时镜头如何运动，它能更好地兼顾两者。

其他改进还包括更干净的音频、更少的伪影；动作控制特性，如首/末帧引导；以及推、摇、对焦切换等运镜效果。

LTX 2.3 实际能产出什么的上手体验

Lightricks 表示，模型在 H100 GPU 上比同类模型快 18 倍。在消费级硬件上，它能在大约 4 秒内生成一段 5 秒、24 FPS 的片段。对需要多次迭代、生成多个版本并挑选最佳结果的工作流而言，速度足够好用。

开放权重意味着你可以在本地运行 LTX 2.3，不必承担 API 成本和使用上限。对游戏开发者来说，这开启了多种用例：生成过场动画原型、在前期制作中创建预告片片段、生产宣传素材，或在投入完整制作前快速原型化电影化序列。

视频与音频一并生成的输出，对游戏预告片和过场动画尤其有用，否则你需要单独同步音频。能在一次生成中同时迭代视觉与音频基调，大大压缩了反馈循环。

模型在年收入低于 1000 万的条件下可免费使用。可通过 Lightricks API Playground、ComfyUI、PyTorch 及 Replicate 等第三方平台访问。