可灵 3.0 全球发布：4K 视频、原生音频、多镜头生成

继 2 月 4 日首次公布之后，快手已将可灵 3.0 推向全球。这次更新带来了原生 4K/HDR 输出、带唇形同步的音频、多镜头叙事生成，以及动作控制——能把一段视频里的动作提取出来，应用到完全不同的角色身上。

可灵 3.0 新能力概览

4K，带原生音频

可灵 3.0 在扩散过程中直接生成 4K（3840x2160）30 FPS 的视频。没有后处理的放大步骤。音频生成被整合进同一个前向计算里，包含带唇形同步的对白，支持英语、中文、日语、韩语、西班牙语五种语言。以前的版本需要单独的配音和音频对齐步骤。现在没了。

多镜头叙事序列

最突出的功能是多镜头生成。你可以在一次会话里生成最多 6 个相互衔接的镜头，模型会跨镜头保持角色一致性、光照和空间连续性。每个镜头最长 15 秒。

这是直接瞄准短篇叙事内容的功能。不必再分别生成单个片段然后想办法拼起来（还要应付各代之间不可避免的角色漂移），你只需描述一个序列，得到的就是看起来属于同一场景的若干镜头。

动作控制与迁移

可灵 3.0 可以从参考视频里提取动作，再应用到新角色上。你可以把一段舞蹈、打斗编排或某个特定手势从某条视频里取出来，映射到一个生成的角色上。模型还包含一支用于逐帧控制的动作刷，以及六轴相机控制，用来精确编排镜头。

提示词支持 @ 语法，让你用名字引用具体的角色或元素。如果你在某次生成里建立了一个角色，可以在后续提示词里把它召回来。

深入解析可灵 3.0 给 AI 视频带来的变化

七合一编辑器

可灵 3.0 附带了快手所称的"七合一多模态编辑器"。它把文生视频、图生视频、视频生视频、动作迁移、对口型、续帧、重拍整合到一个工作区里。目标是消除 AI 视频生产通常面对的零散工具链——以前你需要为生成、配音、调色、镜头组接分别准备不同工具。

横向对比

可灵 3.0 直接对标 OpenAI 的 Sora 2 Pro 和 Google 的 Veo 3.1。账面上，可灵在分辨率上占优（原生 4K，Sora 是 1080p），价格也更便宜（每秒 $0.07-0.14，Sora 是 $0.10-0.50）。可灵还提供慷慨的免费额度：每天 66 个积分，Sora 则没有。

Sora 2 在物理模拟上仍然领先，处理光线折射、流体动力学和碰撞物理更让人信服。在并排对比里，它在基础视觉保真度上也得分更高。多数评测者的实用建议是两者都用，针对每个具体镜头挑出更好的那一份输出。

对游戏开发者来说，可灵 3.0 的多镜头生成和动作迁移是最有意思的两个功能。能够生成一组角色和光照跨镜头都对得上的电影感序列，可以直接用在预告片制作和过场动画的原型阶段。

可灵 3.0 全球发布：4K 视频、原生音频、多镜头生成 ​

4K，带原生音频 ​

多镜头叙事序列 ​

动作控制与迁移 ​

七合一编辑器 ​

横向对比 ​

参考资料 ​