可灵 3.0 全球发布:4K 视频、原生音频、多镜头生成
继 2 月 4 日首次公布之后,快手已将可灵 3.0 推向全球。这次更新带来了原生 4K/HDR 输出、带唇形同步的音频、多镜头叙事生成,以及动作控制——能把一段视频里的动作提取出来,应用到完全不同的角色身上。
可灵 3.0 新能力概览
4K,带原生音频
可灵 3.0 在扩散过程中直接生成 4K(3840x2160)30 FPS 的视频。没有后处理的放大步骤。音频生成被整合进同一个前向计算里,包含带唇形同步的对白,支持英语、中文、日语、韩语、西班牙语五种语言。以前的版本需要单独的配音和音频对齐步骤。现在没了。
多镜头叙事序列
最突出的功能是多镜头生成。你可以在一次会话里生成最多 6 个相互衔接的镜头,模型会跨镜头保持角色一致性、光照和空间连续性。每个镜头最长 15 秒。
这是直接瞄准短篇叙事内容的功能。不必再分别生成单个片段然后想办法拼起来(还要应付各代之间不可避免的角色漂移),你只需描述一个序列,得到的就是看起来属于同一场景的若干镜头。
动作控制与迁移
可灵 3.0 可以从参考视频里提取动作,再应用到新角色上。你可以把一段舞蹈、打斗编排或某个特定手势从某条视频里取出来,映射到一个生成的角色上。模型还包含一支用于逐帧控制的动作刷,以及六轴相机控制,用来精确编排镜头。
提示词支持 @ 语法,让你用名字引用具体的角色或元素。如果你在某次生成里建立了一个角色,可以在后续提示词里把它召回来。
深入解析可灵 3.0 给 AI 视频带来的变化
七合一编辑器
可灵 3.0 附带了快手所称的"七合一多模态编辑器"。它把文生视频、图生视频、视频生视频、动作迁移、对口型、续帧、重拍整合到一个工作区里。目标是消除 AI 视频生产通常面对的零散工具链——以前你需要为生成、配音、调色、镜头组接分别准备不同工具。
横向对比
可灵 3.0 直接对标 OpenAI 的 Sora 2 Pro 和 Google 的 Veo 3.1。账面上,可灵在分辨率上占优(原生 4K,Sora 是 1080p),价格也更便宜(每秒 $0.07-0.14,Sora 是 $0.10-0.50)。可灵还提供慷慨的免费额度:每天 66 个积分,Sora 则没有。
Sora 2 在物理模拟上仍然领先,处理光线折射、流体动力学和碰撞物理更让人信服。在并排对比里,它在基础视觉保真度上也得分更高。多数评测者的实用建议是两者都用,针对每个具体镜头挑出更好的那一份输出。
对游戏开发者来说,可灵 3.0 的多镜头生成和动作迁移是最有意思的两个功能。能够生成一组角色和光照跨镜头都对得上的电影感序列,可以直接用在预告片制作和过场动画的原型阶段。