Google I/O 2026:Gemini Omni 替代 Veo 4,并一举铺到全平台
Google I/O 今天开场就给出了所有人都在问的那个答案:是的,有新的视频模型;不,它不叫 Veo 4。这个模型叫 Gemini Omni,更名本身就是策略。谷歌正在把视频、音频、图像、文字的生成能力合并进一个统一模型,并集体并入 Gemini 这个品牌。Veo 与 Imagen 作为独立产品线,基本上被折叠了进去。
Demis Hassabis 在 I/O 2026 主旨演讲上发布 Gemini Omni
Gemini Omni 到底是什么
Omni 把文字、图像、音频、视频任意组合作为输入,输出基于 Gemini 世界知识的高质量视频。模型通过对话来编辑:上传一段片子,让它换个镜框、加个元素、改打光、给演员换套衣服。整条管线统一,意味着同一个模型在一次前向里同时完成生成、编辑和续写。
首日的分发铺得很猛。Gemini Omni Flash 已经在 Gemini App、Google Flow 和 YouTube Shorts 面向全球的 AI Plus、Pro、Ultra 订阅用户上线。这个铺面比谷歌历次 AI 视频发布都要大得多,也是对三周前 Sora 关停的正面回击。谷歌要确保 Sora 抛下的那群用户立刻有一个谷歌自己的去处。
与同行的对比
跟 Kling 3.0 比,Gemini Omni 的差异化在多模态输入。Kling 的强项是多镜头连贯与 4K 输出;Omni 的强项是可以自由地在多个模态间混用参考(一段语音 + 一张参考图 + 一句提示词 + 一段引导视频,混在一个产出里)。
统一模型这套思路也改变了编辑流程。Kling 和 Runway 把编辑当作另一道独立的模型 pass(通常更慢更贵),Omni 则在和生成同一次扩散过程里完成编辑。实际感受是迭代节奏更像文字聊天,而不是传统视频工具。
Pro 档定价没在主旨演讲台上公布,但 Flash 通过 Gemini App 推出,意味着大多数订阅用户能通过现有档位免费用。仅这一条,就足以把 AI 视频市场的一大块拉进谷歌的引力井。
独立媒体对最具冲击力的 Gemini Omni 演示的复盘
Gemini 3.5 Flash 与 Google Antigravity
对开发者而言,还有两条公告值得记下。Gemini 3.5 Flash 是新的中端模型,据称在代码与 agent 类基准上超过了 Gemini 3.1 Pro,同时保持 Flash 档的速度和价格。今天任何在调用 Gemini 的应用,迁移过去都是一次严格意义上的升级。
Google Antigravity 是谷歌的 agent-first 开发平台。它的卖点是:与其做能帮开发者写代码的工具,不如直接给开发者提供能在 Google 各产品面(Search、Workspace、Cloud,以及全新的 Gemini Spark 助手)行动的 agent。明摆着是对着 Anthropic 的 Claude computer use、以及 OpenAI 那一套 GPT agent 栈来的。
还有 Android XR 眼镜预览,确实有意思,但离影响游戏与创作者工作流还差一年。
这对 AI 视频市场意味着什么
今天有三件事发生位移。
第一,2024 和 2025 年定义这个领域的"多模型专长"格局(文字一个、图像一个、视频一个、音频一个),正被亲手定义这套格局的实验室之一明确终结。它能不能立住,取决于 Omni 在真实使用里跨模态的产出质量是否经得起检验,而不只是在 demo 里。
第二,分发护城河又拉宽了。Sora 死在没能足够快地凑到十亿用户。Omni 一开局就站在 Gemini App、Google Flow 和 YouTube Shorts——本来就是几十亿人做视频、看视频的地方。
第三,开源与价格优先的模型(Kling 0.07-0.14 美元/秒、LTX-2 开源权重、Wan2.2)反而被推到一个有意思的位置。如果谷歌的捆绑打法是"包含在你 20 美元/月的 Gemini 订阅里",那能竞争的就只剩两头:要么往上(带更深控制的专业工具),要么往下(自托管的开源方案)。
我们会先测什么
对所有在做创作者工具的人来说,眼下的首要问题是:Omni API 会不会在 I/O 开发者日上发布,价格和速率限制是什么。营销面(Gemini App、Flow、Shorts)锁在谷歌手里,API 是把 Omni 接到自家产品里的唯一通道。这些细节出来之后,我们会更新这篇文章。
对游戏工作室来说,最值得盯的是多镜头一致性。如果 Omni 能像 Kling 3.0 那样跨切镜保持角色一致,并且支持流程中可编辑的中途控制,那么用于"垂直切片预告片"的电影感原型成本就会大幅下降。