支持参考图像的长视频生成模型
现在生成 10 秒钟的片段已经很简单了,每个主流模型都能做到。真正的问题是:你能否生成 5 分钟或 10 分钟的连贯视频,让角色在第一分钟和第八分钟看起来完全一致?让整个场景在数百帧中保持连贯?
这才是难题。而这个领域正在迅速变化。本指南收录了我们找到的每一个模型,要么能原生生成长视频,要么支持通过参考图像配合相应工作流来构建具有一致角色的长视频内容。我们将它们分成三个层级:能直接生成分钟级视频的模型、具备强参考图像支持并通过续接扩展使用的模型,以及你可以自部署运行的开源选项。
第 1 级:原生长视频生成(分钟级以上)
这些模型生成的视频以分钟为单位,而不是秒。它们从底层开始就为长序列的时间一致性而设计。
LongCat Video
美团于 2025 年末发布了 LongCat Video。它是一个 136 亿参数的扩散 Transformer,也是第一个可以稳定生成长达 15 分钟连贯视频的模型。
该模型在统一流水线中支持文本到视频、图像到视频和视频续接。在 I2V 模式下,输入图像会成为视频的第一帧本身。它不是可以放入任意场景的松散角色参考。模型从那张起始帧开始向前动画化,同时使用 "Cross-Chunk Latent Stitching"(跨块潜变量拼接)在整个生成过程中持续参考原始图像,防止色彩漂移,在长序列中保持视觉一致性。2026 年的更新版本增加了音频驱动的虚拟人物生成,并带唇形同步,可制作 5 分钟以上的口播头像视频。
底层上,LongCat 使用了由粗到细的生成方法,并通过 Block Sparse Attention(块稀疏注意力)处理超长序列。RLHF 调优提升了动作质量。它目前在视频质量基准上全球排名第三,仅次于 Google Veo 3 和 ShanghaiAI。
可用性: 在 MIT 协议下开源。通过 fal.ai API 提供,每生成 1 秒收费 0.04 美元(15 分钟 720p 视频 36 美元)。也可以通过 LongCat 自家平台按积分付费使用。
| 规格 | 数值 |
|---|---|
| 最长时长 | 约 15 分钟 |
| 分辨率 | 720p,30fps |
| 参数量 | 136 亿 |
| 参考图像 | 仅首帧(I2V 模式,非角色参考) |
| 许可证 | MIT |
| API 成本 | 约 0.04 美元/秒(fal.ai) |
Seaweed APT2
字节跳动的 Seaweed APT2 采用了不同的思路。它不是提前生成完整视频,而是以 24fps 自回归方式生成帧,单 H100 上每帧延迟仅 0.16 秒。结果是最长 5 分钟的稳定视频,并保持时间一致性。
技术核心是 Autoregressive Adversarial Post-Training(自回归对抗后训练,AAPT),把预训练的双向视频扩散模型转换为单向自回归生成器。每帧只需一次网络前向计算。这就是实时生成成为可能的原因。
让这个模型有趣的不只是原始时长,还有交互性。你可以在视频渲染时控制相机、通过姿势检测驱动角色动作、操作场景。把它看作不是"生成视频",而是"实时引导视频"。
可用性: 仅处于研究阶段。尚未公开发布。7B 基础模型(Seaweed-7B)已有论文发表,但 APT2 权重尚未发布。
| 规格 | 数值 |
|---|---|
| 最长时长 | 约 5 分钟 |
| 分辨率 | 736x416(单 GPU),最高 720p(8 GPU) |
| 参数量 | 80 亿 |
| 参考图像 | 通过 I2V 和交互式姿势控制 |
| 许可证 | 未发布 |
| 状态 | 研究预览 |
Helios
Helios 来自北京大学,基于 Wan 2.1 构建。它是一个 140 亿参数的模型,可以在单张 H100 上以 19.5 FPS 生成分钟级视频。关键创新是它处理长视频漂移的方式。它没有使用 self-forcing 或关键帧采样等常规反漂移技术,而是在训练阶段就模拟漂移,让模型学会自我修正。
它原生支持文本到视频、图像到视频和视频到视频任务。I2V 模式接受参考图像作为生成种子。
可用性: 在 Apache 2.0 协议下完全开源。2026 年 3 月发布。代码与权重在 GitHub 上(PKU-YuanGroup/Helios)。已集成到 Diffusers、SGLang 和 vLLM-Omni。HuggingFace Spaces 上有 Gradio 演示。
| 规格 | 数值 |
|---|---|
| 最长时长 | 分钟级(无固定上限) |
| 分辨率 | 720p |
| 参数量 | 140 亿 |
| 参考图像 | 支持(I2V 模式) |
| 许可证 | Apache 2.0 |
| 硬件 | 单张 H100 即可实时 |
SkyReels V2 / V3
Skywork 的 SkyReels 系列瞄准无限时长视频。V2 使用 AutoRegressive Diffusion-Forcing 架构,生成没有固定时长上限的视频。2026 年 1 月发布的 V3 在单个模型中统一了参考图像到视频、视频到视频扩展和音频引导虚拟人物生成。
V3 接受 1 至 4 张参考图像,在生成的视频中保留主体身份。视频到视频模式支持无缝单镜头续接和带电影感转场的多镜头切换。
可用性: 完全开源。参数规模从 13 亿到 140 亿。提供 540p 和 720p 分辨率。代码与权重在 GitHub 和 HuggingFace 上。
| 规格 | 数值 |
|---|---|
| 最长时长 | 无限(自回归) |
| 分辨率 | 540p、720p |
| 参数量 | 13 亿、50 亿、140 亿 |
| 参考图像 | 1-4 张(V3) |
| 许可证 | 开源 |
| 硬件 | 最低 RTX 4090,推荐 4-8 张 A100 |
第 2 级:短片段 + 强参考 + 扩展
这些模型生成 8-60 秒的片段,但提供强大的参考图像支持和视频扩展功能。要做长视频内容,你通过模型的续接或扩展接口把多个片段串联起来。角色一致性来自跨多次生成保留的参考图像。
这是当今大多数创作者用于一分钟以上内容的实际工作流。每个片段的质量通常比原生长视频模型更高。
Kling 3.0 Omni(快手)
Kling 拥有所有视频模型中最完整的参考图像系统。它把参考输入分成三个不同类别,每个类别用途各异:
参考图像(image_urls):最多 4 张,用于风格和外观引导。你在提示中用 @Image1、@Image2 等标记它们。这些影响整体外观、场景风格和环境,但不作为第一帧。
元素(elements):专门的角色/物体输入。每个元素需要一张 frontal_image_url(清晰的正面照片)加可选的 reference_image_urls(其他角度)。在提示里以 @Element1、@Element2 引用。模型提取角色身份并将其放入你描述的任意场景中。这是冒险电影风格内容的关键功能:上传角色照片,然后描述他们穿越森林、与龙搏斗,或者任何你想要的画面。
起始/结束帧(start_image_url、end_image_url):把特定图像固定为第一帧或最后一帧。这是字面意义上的帧,不是风格引导。
三类输入合计最多 7 张参考输入(同时使用参考视频时降为 4 张)。一个像 "@Element1 and @Element2 are having dinner at this table on @Image1" 这样的提示,可以把角色和场景参考组合起来。
对于长视频内容,Kling 提供两条路径。多镜头模式在一次调用中生成最多 6 个场景,每个场景有自己的提示和时长(每个 3-15 秒)。角色元素会自动贯穿所有镜头保持一致。扩展 API 从已完成视频的结尾继续生成,通过链式扩展可达到约 3 分钟。V2V 编辑模式以现有视频(3-10 秒)为输入,使用元素参考和文本提示进行变换,保留源视频的相机运动和角色站位,同时根据你的参考重新设定角色和环境。这让 Kling 特别适合提升已有素材的质量,包括低保真度的 3D 渲染。
Kling 3.0 Omni 在单个模型中统一了文本到视频、图像到视频、参考到视频以及视频编辑,原生支持音频生成和唇形同步。
可用性: 通过快手的商业 API、fal.ai(0.084-0.112 美元/秒)和 Replicate 提供。网页界面在 klingai.com。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 3-15 秒 |
| 扩展时长 | 约 3 分钟(通过链式扩展) |
| 分辨率 | 720p(标准),1080p(专业) |
| 参考图像 | 最多 4 张(@Image 风格参考) |
| 元素 | 最多 4 个(@Element 角色参考,含正面与角度) |
| 总参考数 | 合计最多 7 个(含视频参考时为 4 个) |
| 多镜头 | 支持(故事板最多 6 个镜头) |
| 音频 | 原生同步音频 + 唇形同步 |
| 视频编辑 | 支持(文本引导的现有视频编辑) |
| API | 快手、fal.ai、Replicate |
Grok Imagine(xAI)
xAI 在 2026 年初推出了 Grok Imagine 的 Reference-to-Video(参考到视频)模式,支持 1-7 张参考图像。文档明确将其与图像到视频区分开来:「与图像到视频不同(源图像成为起始帧),参考图像影响视频中出现的内容,但不锁定第一帧。」
你在提示中用 <IMAGE_1>、<IMAGE_2> 等标记图像。像 "the model from <IMAGE_1> walks onto the runway wearing the shirt from <IMAGE_2>" 这样的提示,把人物参考和服装参考结合起来。模型能处理虚拟试穿、产品植入和跨场景的角色一致叙事。
一个约束:在同一请求中不能同时使用参考图像和图像到视频。要么是首帧模式,要么是参考模式,二者不能兼得。
Grok Imagine 还有一个视频扩展接口,能在现有视频末尾添加新片段。duration 参数只控制新增部分。你可以链式扩展构建更长的内容。
可用性: xAI API(2026 年 1 月推出)、fal.ai 和 Replicate。Python SDK、JavaScript/AI SDK 和 REST API。720p 带音频 0.05 美元/秒。也对 X Premium 订阅者开放。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 1-15 秒 |
| 扩展时长 | 可通过扩展 API 链式延长 |
| 分辨率 | 480p、720p |
| 参考图像 | 1-7 张(真参考,非首帧) |
| 提示标签 | <IMAGE_1>、<IMAGE_2> 等 |
| 音频 | 支持(720p) |
| 视频编辑 | 支持(文本引导) |
| API | xAI API、fal.ai、Replicate |
| API 成本 | 0.05 美元/秒(720p 含音频) |
Seedance 2.0(字节跳动)
字节跳动的 Seedance 2.0 在所有模型中接受最多的参考输入:同时最多 12 个文件,包括最多 9 张图像、3 个视频和 3 个音频文件。该模型支持原生音视频生成,带音素级唇形同步,覆盖 8 种以上语言。
单张图像可达 30MB 大小。参考视频时长 2-15 秒。模型使用这些参考来引导角色外观、场景风格和动作。
可用性: 字节跳动官方 API(通过火山引擎,2026 年 2 月推出)以及第三方 API 服务商。API 输出 480p-720p,通过平台可达 2K 院线分辨率。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 4-15 秒 |
| 分辨率 | 最高 2K(院线) |
| 参考图像 | 最多 9 张图像 + 3 个视频 + 3 个音频(合计 12 个) |
| 音频 | 原生支持唇形同步(8 种以上语言) |
| API | 字节跳动/火山引擎、第三方服务商 |
Runway Gen-4.5
Runway Gen-4.5 在 Artificial Analysis 文本到视频榜单上以 1247 ELO 位列第一,超过 Veo 3 和 Sora 2 Pro。该模型为文本到视频生成 2-10 秒片段,并通过多镜头序列支持长达 1 分钟的角色一致长视频。
图像到视频于 2026 年 1 月加入,支持所有宽高比的参考图像。模型在扩散架构内集成了神经辐射场和高斯泼溅,因此具备 3D 几何理解能力,而不仅仅是像素级预测。这意味着更好的物体持续性和物理上可信的运动。
可用性: 商业 API 与网页界面。提供 Node 和 Python 的 SDK。也在 Replicate 上提供。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 2-10 秒 |
| 长视频模式 | 最多约 1 分钟 |
| 分辨率 | 最高 1080p |
| 参考图像 | 每次生成 0-1 张 |
| 音频 | 原生音频生成 |
| 多镜头 | 支持 |
| API | 支持(Runway、Replicate) |
Google Veo 3.1
Google 的 Veo 3.1 原生生成 4、6 或 8 秒的片段。「Extend Video」功能(目前处于预览阶段)通过串联片段达到约 1-2.5 分钟,不过更长序列的连贯性可能下降。
「Ingredients to Video」功能接受最多 3 张参考图像作为输入。你可以提供需要动画化的角色、背景以及材质纹理。使用参考图像时,模型更贴近你的视觉参考,减少随机改动。一个限制:参考图像模式只能在 8 秒时长选项下使用。
截至 2026 年 1 月,Veo 3.1 在 Vertex AI 上为参考生成增加了竖屏视频(9:16)和 4K 升采样。
可用性: Google Vertex AI API、Gemini API 和 Google Flow。需要 Google Cloud 账户。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 4、6 或 8 秒 |
| 扩展时长 | 约 1-2.5 分钟 |
| 分辨率 | 最高 4K(带升采样) |
| 参考图像 | 最多 3 张(「Ingredients to Video」) |
| 音频 | 同步对白与音乐 |
| API | Vertex AI、Gemini API |
OpenAI Sora 2 / Sora 2 Pro
Sora 2 Pro 生成长达 20 秒的片段。Characters API 采用与 Kling 或 Grok 不同的思路:你不是上传静态图像,而是把 API 指向一段视频片段(带 1-3 秒的时间戳范围)来创建一个 character_id。Sora 分析视频帧,提取面部结构、身体比例、服装风格和其他识别特征。该 character_id 会无限期保留,可在未来无限次生成中复用。
每次生成最多可引用 2 个上传的角色。截至 2026 年 3 月,角色参考也支持物体和动物,不仅仅是人。视频扩展使用完整的初始片段作为续接的上下文。
角色系统需要视频输入(不是静态图像)来创建角色。如果你只有照片,需要先生成一段短视频,然后从中提取角色。
可用性: OpenAI API,含 Batch API 支持,可用于生产工作流。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 最长 20 秒 |
| 分辨率 | 最高 1920x1080 |
| 角色参考 | 每次生成最多 2 个(持久的 character_id) |
| 角色输入 | 视频片段(1-3 秒时间戳范围),非静态图像 |
| 音频 | 同步 |
| 扩展 | 支持(完整片段作为上下文) |
| API | OpenAI API + Batch API |
MiniMax Hailuo 02
Hailuo 02 在 Artificial Analysis 基准上全球排名第二,超过 Veo 3。它生成 10 秒、原生 1080p 的片段,物理模拟在业内领先。模型能处理体操、杂技等极端动作而不崩坏。
它支持图像到视频生成,通过面部识别和身体追踪保持强角色一致性。Noise-aware Compute Redistribution(噪声感知计算重分配)架构根据场景复杂度动态分配算力。
可用性: 商业 API。通过 MiniMax 平台、fal.ai 和 Replicate 提供。每个视频 0.28 美元。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 最长 10 秒 |
| 分辨率 | 原生 1080p |
| 参考图像 | 支持(I2V 模式) |
| 音频 | 非原生 |
| 物理 | 业内领先 |
| API | MiniMax、fal.ai、Replicate |
Luma Ray2
Ray2 以最高 1080p 生成 5-10 秒片段,支持 4K 升采样。Extend 功能可将视频续接至总长 30 秒。图像到视频接受参考图像作为起始或结束关键帧。
模型基于多模态架构训练,算力是 Ray1 的 10 倍。它能很好地处理写实内容,但 30 秒扩展上限限制了长视频用途。
可用性: Luma API 和网页界面。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 5-10 秒 |
| 扩展时长 | 最多 30 秒 |
| 分辨率 | 最高 4K(带升采样) |
| 参考图像 | 支持(起始/结束关键帧) |
| API | Luma API |
Pika 2.5
Pika 采用基于关键帧的方法(Pikaframes)。上传 2-5 个关键帧(关键时刻的参考图像),模型在它们之间生成平滑过渡。总时长可达 20-25 秒。
Pikascenes 接受最多 10 张参考图像,把它们合成到单个视频中。模型通过图像识别自动判断每张参考的角色(角色、背景、道具)。
可用性: Pika 网页平台和 API。订阅方案从免费到 Pro。
| 规格 | 数值 |
|---|---|
| 原生片段时长 | 5-10 秒 |
| Pikaframes 时长 | 20-25 秒 |
| 分辨率 | 最高 1080p |
| 参考图像 | 最多 10 张(Pikascenes),2-5 个关键帧(Pikaframes) |
| API | 支持 |
第 3 级:自部署工作流的开源模型
这些模型生成的片段较短,但完全开放。你可以在自己的硬件上运行、微调,并构建无需 API 依赖的自定义扩展流水线。
Wan 2.1(阿里巴巴)
Wan 2.1 是若干其他模型(包括 Helios)的基础。Wan-VAE 架构可编解码任意长度的 1080p 视频,同时保留时间信息。模型提供 480p 和 720p 的 I2V 变体,以及在两张参考图像之间生成视频的首末帧到视频模型。
Wan-Edit 允许使用参考图像进行风格和内容迁移,同时保持特定结构或角色姿态。
| 规格 | 数值 |
|---|---|
| 参数量 | 13 亿、50 亿、140 亿 |
| I2V 模式 | I2V-480P、I2V-720P、FLF2V-720P |
| 许可证 | Apache 2.0 |
| 硬件 | 8GB+ VRAM(小型变体) |
| 平台 | Diffusers、ComfyUI |
HunyuanVideo(腾讯)
腾讯的 130 亿参数模型在 2025 年大部分时间里都是开源视频生成的领跑者。HunyuanVideo-I2V 使用 token replace 技术结合预训练 MLLM 来融合参考图像信息。2025 年 11 月发布的 HunyuanVideo-1.5 提升了效率。HunyuanCustom 实现了多模态驱动的自定义视频生成。
| 规格 | 数值 |
|---|---|
| 参数量 | 130 亿 |
| I2V | 支持(token replace 技术) |
| 许可证 | 开源 |
| 硬件 | 60GB+ VRAM(720p) |
| 变体 | Base、I2V、1.5、Avatar、Custom |
CogVideoX(清华/智谱 AI)
CogVideoX 使用 3D causal VAE 来缩短序列长度并防止闪烁。自适应 LayerNorm Transformer 提升了文本-视频对齐。提供 2B(Apache 2.0)和 5B(研究许可)两个变体,原生集成 Diffusers。
片段为 720x480 的 6-10 秒。时长短,但质量与算力比不错,可在 12GB GPU 上运行。
| 规格 | 数值 |
|---|---|
| 参数量 | 20 亿、50 亿 |
| I2V | 支持(CogVideoXImageToVideoPipeline) |
| 分辨率 | 720x480,8fps |
| 许可证 | Apache 2.0(2B),研究(5B) |
| 硬件 | 12GB VRAM |
首帧 vs 真参考:关键区分
不是所有「参考图像」支持都一样。理解差异对于选对模型至关重要。
首帧模型(LongCat、Helios、Hailuo、Luma Ray2、HunyuanVideo)把你的图像视为字面意义上的开场帧。模型从那个确切画面向前动画化。你不能上传角色头像,然后描述他们在不同场景里。图像就是场景。
真参考模型(Kling、Grok Imagine、Seedance、SkyReels V3)从你的图像中提取身份,把该角色/物体放入你描述的任意场景中。上传一个人的照片,然后提示「那个人在日落时走过森林」。角色出现在完全新的环境中,同时保持身份。这正是冒险电影那种多场景叙事内容所需要的。
角色 ID 模型(Sora 2 Pro)从视频片段而不是静态图像中提取身份。你创建一次持久的角色 ID,然后在无限次未来生成中复用。
风格/成分模型(Veo 3.1)使用参考图像影响视觉风格、纹理和整体外观,而不是提取具体的角色身份。适合在项目中保持视觉一致性,对单个角色的精确控制不如前几类。
10 分钟视频的真实工作流
以下是 2026 年 3 月这一时刻的真实情况。没有任何单一模型能一次性可靠地生成 10 分钟的高质量连贯视频。LongCat Video 最接近,声称可达 15 分钟,但在那种长度下质量和连贯性差异很大。Helios 和 SkyReels V2 分别能生成「分钟级」和「无限长度」视频,但输出需要细致的提示,往往要尝试多次。
大多数构建 5-15 分钟视频的创作者实际使用的工作流,综合了多种方法:
口播头像/虚拟人物内容: LongCat Video 2026 年的音频驱动模式或 SkyReels V3 的虚拟人物生成可产出 5 分钟以上一致的口播角色。这是最接近「按一个键,得到长视频」的方案。
多场景叙事内容(冒险电影风格): 使用 Kling 3.0、Grok Imagine 或 Seedance 2.0 配合真角色参考图像。每个镜头生成 10-15 秒。每次生成都使用相同的 @Element 或 <IMAGE> 引用,保持角色身份。通过多镜头模式(Kling 一次支持 6 个镜头)或扩展 API 串联镜头。Kling 是这种工作流中验证最充分的。Grok Imagine 明确将「参考模式」与「首帧模式」分开,是强有力的替代方案。Seedance 2.0 接受最多参考输入(12 个文件),但更新且验证较少。
跨多个片段的角色一致性: Sora 2 Pro 的持久 character_id 系统是超长项目最干净的方案。从一段短视频中提取一次角色,然后生成几十个引用该 ID 的片段。角色身份不会随时间退化,因为它被存储为持久 embedding,而不是每次从图像重新解析。
风格迁移内容: fal.ai 上的 Lucy Restyle 可处理长达 30 分钟的现有视频,应用 AI 风格变换并保留动作。如果你有源素材,这完全绕开了生成时长问题。源视频每秒 0.01 美元。
开源流水线: 在 Wan 2.1 或 Helios 上构建视频续接循环。生成一个片段,将最后一帧作为下一段的起始帧,重复。ComfyUI 工作流可自动化这个过程。多次迭代后一致性会下降,但免费可控。
核心挑战仍在:即使有真参考图像支持,角色漂移在数十个片段中累积。面部特征、头发、服装和肤色会逐渐变化。各种变通方案(高质量参考照片、一致提示、镜头批处理)必不可少。但像 Kling 和 Grok Imagine 这种把角色身份与场景构成分开的模型,让这个问题比纯首帧模型容易得多。
3D 脚手架方法:低保真渲染,高保真变换
有一种工作流正在流行,它几乎完全绕开了长视频生成的大部分问题。不是让 AI 模型从零生成 10 分钟视频,而是渲染一段低保真 3D 过场动画,确定相机走位、角色站位和时序,然后通过带参考图像和增强提示的视频到视频模型处理。3D 引擎处理结构,AI 处理美感。
这之所以可行,是因为 V2V 变换比完整生成是个更窄的问题。模型不需要发明相机运动、角色摆放或场景构成,只需要让现有素材看起来写实,并遵循你的视觉参考。这是个更可解的问题,并能扩展到你的 3D 引擎能渲染的任意长度。
为什么这样可行
你的 3D 引擎能提供 AI 视频模型仍然不擅长的一切:精确的相机控制、跨画面的精准角色位置、正确的物理交互,以及在数分钟素材中一致的时序。推拉变焦、跟拍镜头、角色按节奏入画出画——这些在 3D 引擎里都很简单,在文本提示生成中都不可靠。V2V 模型的唯一工作就是把材质、光照和纹理变换为写实输出,同时保留你已定义好的几何和动作。
角色一致性也变得更容易。你不是和 50 次独立 AI 生成的身份漂移作斗争,而是在每一帧都向模型展示同一个 3D 角色。参考图像告诉模型这个角色在最终输出中应该是什么样子。这比每次从零生成一致角色简单得多。
而且时长不再是约束。Lucy Restyle 一次调用可处理 30 分钟。ComfyUI 中的 Wan 2.1 可分块处理任意长度。你完全不再面对「如何生成 10 分钟」的问题,因为素材已经存在。
RealMaster(Meta / 特拉维夫大学)
RealMaster 是专门为这种工作流构建的研究系统。由 Meta Reality Labs 和特拉维夫大学于 2026 年 3 月发布,它将渲染后的 3D 视频转换为写实视频,同时与源视频保持完整的几何对齐。
该方法从 3D 渲染中提取边缘图来保留结构和运动,然后应用一个视频扩散模型(基于 VACE/Wan 架构)将其余部分变换为写实输出。轻量化的 IC-LoRA 适配器把流水线蒸馏到单次推理中,不需要锚帧,能处理中途出现的物体。
在 GTA-V 和 CARLA 模拟器序列上测试,RealMaster 显著优于通用视频编辑基线。它还能通过文本提示在写实化变换之上叠加天气效果(「让它下雨」、「让它下雪」)。该模型无需重新训练即可跨模拟器泛化。基于 GTA-V 数据训练的权重可在 CARLA 输出上工作,无需额外调整。
可用性: 仅研究。尚无公开权重或 API。
| 规格 | 数值 |
|---|---|
| 输入 | 渲染的 3D 视频(任意引擎) |
| 输出 | 保留几何和运动的写实视频 |
| 架构 | VACE/Wan 视频扩散主干上的 IC-LoRA |
| 条件 | 来自源渲染的边缘图 |
| 测试平台 | GTA-V、CARLA 模拟器 |
| 许可证 | 未发布(仅研究论文) |
今天可用的生产级 V2V 工具
Kling 3.0 V2V + 元素参考是最完整的生产选项。fal.ai 上的 Edit Video 和 Reference V2V 端点接受 3-10 秒的源视频片段,配合元素参考(@Element1、@Element2,带正面和多角度照片)以及增强提示。模型分析源视频中的运动轨迹和相机模式,然后用你指定的角色外观和视觉风格重新生成素材,同时保留原始站位和相机走位。最多 7 个参考输入。1080p 输出。把你的过场动画分成 10-15 秒块处理,所有块使用相同的元素参考来保持角色一致性。
Lucy Restyle 2 在单次 API 调用中处理最多 30 分钟的源视频,每秒输入 0.01 美元。它接受文本提示和可选的风格参考图像。没有 Kling 那样的逐角色元素参考,但对于完整长度 3D 渲染的整体电影感风格迁移,这是最简单也最便宜的方法。把你的完整渲染和描述目标外观的提示喂进去。输出 720p,跨数千帧保持时间一致性。
ComfyUI 中的 Wan 2.1 VACE 是开源路线。14B VACE 模型支持参考驱动的 V2V:输入源视频加风格参考图像,输出保留结构和运动的重新风格化版本。边缘图条件提高了结构保真度。你可以构建处理循环,使用一致的风格参考分块处理任意长度。免费,在你自己的硬件上本地运行。
Grok Imagine V2V 在参考模式下接受源视频加 1-7 张参考图像。720p 每秒 0.05 美元。参考模式和首帧模式的明确分开意味着你的参考引导角色外观,而不会覆盖源视频的结构。
你的 3D 渲染需要什么
渲染质量的底线很重要。光秃秃的线框图无法给 V2V 模型足够的信息。但你也不需要生产级的材质或光照。
正确的比例和几何。 角色模型需要大致正确的身体比例和面部结构,才能让参考图像正确映射。带有正确比例的基本人形几何就够了。火柴人不会产生可识别的角色。
基本的光照方向。 单一方向光确立场景的整体照明,能帮助模型理解预期的氛围。AI 会增强并添加细节,但它需要知道场景是明亮日光还是黑暗室内。
平滑的相机运动。 稳定、有意图的相机移动能很好地转换。不稳定或极快的运动可能让 V2V 模型困惑。让你的虚拟相机像真实相机一样工作。
平面着色而不是线框。 简单的平面着色或低多边形几何比线框或无纹理模型效果更好。即便是表面上的纯色,也能帮助模型理解材质边界。
成本与规模
通过不同工具处理 10 分钟过场动画:
| 工具 | 最大输入时长 | 10 分钟成本 | 分辨率 | 参考图像 |
|---|---|---|---|---|
| Kling O3 V2V | 10 秒片段 | 约 50-67 美元 | 1080p | 最多 7 张(元素 + 风格) |
| Lucy Restyle 2 | 30 分钟 | 6 美元 | 720p | 1 张(仅风格) |
| Grok Imagine V2V | 10 秒片段 | 约 30 美元 | 720p | 1-7 张 |
| Wan 2.1 VACE | 任意(分块) | 免费(本地 GPU) | 720p | 每块 1 张 |
Lucy Restyle 是整段处理最便宜的方案。Kling 在配合元素参考的角色特定增强方面最精确。Wan 2.1 如果你有硬件就是免费的(14B 模型 720p 约需 60GB VRAM,或 1.3B 变体 8GB 但质量较低)。
对比表
| 模型 | 最大原生时长 | 扩展时长 | 参考类型 | 最多参考数 | 分辨率 | API 可用 | 开源 |
|---|---|---|---|---|---|---|---|
| LongCat Video | 约 15 分钟 | 不适用 | 仅首帧 | 1 | 720p/30fps | 支持(fal.ai) | 支持(MIT) |
| Seaweed APT2 | 约 5 分钟 | 不适用 | I2V + 姿势 | 1 | 720p | 否 | 否 |
| Helios | 分钟级 | 不适用 | 首帧(I2V) | 1 | 720p | HF Spaces | 支持(Apache 2.0) |
| SkyReels V3 | 无限 | 不适用 | 真参考 | 1-4 | 720p | 否 | 支持 |
| Kling 3.0 | 15 秒 | 约 3 分钟 | 元素 + 风格参考 | 7 | 1080p | 支持 | 否 |
| Grok Imagine | 15 秒 | 可链式 | 真参考 | 7 | 720p | 支持 | 否 |
| Seedance 2.0 | 15 秒 | 不适用 | 多模态参考 | 12 | 2K | 支持 | 否 |
| Runway Gen-4.5 | 10 秒 | 约 1 分钟 | I2V(0-1) | 1 | 1080p | 支持 | 否 |
| Veo 3.1 | 8 秒 | 约 2.5 分钟 | 成分(风格) | 3 | 4K | 支持 | 否 |
| Sora 2 Pro | 20 秒 | 可链式 | 角色 ID(视频) | 2 | 1080p | 支持 | 否 |
| Hailuo 02 | 10 秒 | 不适用 | I2V(首帧) | 1 | 1080p | 支持 | 否 |
| Luma Ray2 | 10 秒 | 30 秒 | 首帧 | 1 | 4K | 支持 | 否 |
| Pika 2.5 | 10 秒 | 25 秒 | Pikascenes | 10 | 1080p | 支持 | 否 |
| Wan 2.1 | 短片段 | 通过续接 | I2V / FLF2V | 1-2 | 720p | 通过 fal.ai | 支持(Apache 2.0) |
| HunyuanVideo | 短片段 | 通过续接 | I2V(首帧) | 1 | 720p | 通过 fal.ai | 支持 |
| CogVideoX | 6-10 秒 | 通过续接 | I2V(首帧) | 1 | 720x480 | 通过 fal.ai | 支持 |
接下来会发生什么
2026 年的走向很清晰。LongCat Video 证明了开源模型中可以做到带一致性的分钟级生成。Helios 表明这可以实时发生。Seaweed APT2 演示了交互式长视频生成。而真参考模型(Kling、Grok、Seedance)证明了角色身份可以跨任意场景持续存在。
下一步是把这些能力结合起来:原生长视频生成 + 真角色参考支持。现在你只能二选一。当一个模型能在保持参考图像中角色身份的同时,跨数十次场景切换生成 5 分钟视频时,串联片段的工作流就会过时。
3D 脚手架方法提供了一条平行轨迹。随着 V2V 模型在结构保留和写实度上的提升,增强低保真 3D 渲染对完整生产越来越可行。Meta 的 RealMaster 已经在游戏引擎输出上实现了研究级的仿真到现实变换。当这种能力进入带参考图像支持的生产 API 时,任何具备基本 3D 技能的人都能制作出对相机、站位和角色摆放有完全控制的写实长视频,时长任意。
目前,实际答案取决于你的用例:
最佳多角色参考: Kling 3.0(最多 7 个参考,分元素 + 风格两套系统)或 Seedance 2.0(最多 12 个多模态输入)。
最佳参考到视频 API: Grok Imagine(API 干净,参考模式明确,0.05 美元/秒)或通过 fal.ai 的 Kling(0.084-0.112 美元/秒)。
跨多个片段的持久角色: Sora 2 Pro(角色 ID 系统,时间上无漂移)。
最佳开源: SkyReels V3(1-4 张真参考图像,无限时长)或 Helios(实时,Apache 2.0)。
最大原生时长: LongCat Video(约 15 分钟,但仅首帧)。
3D 渲染增强: Kling 3.0 V2V(逐角色元素参考,1080p)或 Lucy Restyle 2(30 分钟输入,0.01 美元/秒)。
延伸阅读
- 前沿开源生成 AI 模型 —— 视频、图像、3D、音频等开源生成式 AI 的实用指南
- 视频生成器 —— 我们的视频生成工具,由 Kling 3.0 Pro 驱动
- 如何从草图到动画 3D 角色 —— 用图像和视频生成做角色动画