Pika Agents 上线:带脸、声音和记忆的实时视频对话
Pika Labs 今天发布了 Pika Agents,距离 Sora 关停只过去两天。这款产品是一次干脆的方向转弯——从"生成一段片子"转向"生成一个在场感"。每个 agent 都有脸、声音、性格,以及能跨 Slack、Telegram、Discord、X、Notion、Figma、Google Meet 持续保留的记忆。你把它塑造好之后,它就一直在那里,并学会你偏爱什么风格的想法和表达。
Pika Agents 上线首日能做什么的一次走查
引擎:PikaStream 1.0
实时视频对话由 PikaStream 1.0 驱动,这套模型 Pika 在 4 月 2 日先预告过。它能在单卡 H100 上生成 24 FPS、480p 的个性化视频,端到端语音到视频延迟约 1.5 秒。agent 会带着同步对口型、面部表情和 Pika 所说的"情绪合宜的肢体反应"作出回应。计费按 0.20 美元/分钟的流式视频。
更有意思的是接入模式。Pika 不去单独做一个 App,而是发布技能。Google Meet 技能让你把自己的"AI Self"作为参会者邀请进会议。agent 加入通话、聆听、并用视频回应。Zoom 和 FaceTime 是下一个。
跨平台持续保留的记忆
Pika 把 agent 卖成一个跟着你穿梭多个工具的同一实体。你在 Discord 训练好的 agent,到了 Notion 仍然记得你的上下文;它记得昨天的梗,也记得上周给它的 brief。对于重复性的创作工作(每周通讯封面、循环出现的品牌视频、那位你总是抓不准声音的代理客户),这种"持续保留"本身就是产品。
早期用户开始把 agent 训练在具体的循环任务上:分镜到动画、brief 到广告剪辑、连续剧式内容里始终一致的角色形象。agent 负责节奏,你来负责导演。
2026 年 Pika 全功能拆解,含 Agents 与 PikaStream
发布短片本身也是新闻
Pika 与制片公司 Ceiling Train 和导演 Josh Cohen 一起做了一支发布短片,整体氛围明确往"黑镜"方向靠:用户"诞下"自己的 AI Self,再放它们自由活动。短片在 X 上连续两天霸榜热门。这究竟是亮点还是警告,取决于你站在 AI agent 这场争论的哪一边。
这对游戏与创作者工作流意味着什么
对游戏工作室来说,持续保留的视频化 agent 显然适合 NPC 原型、配音指导和读本会。把 agent 丢进编剧组的 Discord,让它扮演一个还在打磨的角色,按设定里的声音说话。对创作者工作流来说,"单兵代理公司"这种玩法是真能跑起来:一个人,三个分别训练在三个客户上的 agent,同时在 Slack 和 Meet 里并行运转。
单位经济也比 Sora 那一套更耐放。PikaStream 一路 H100 串流 + 0.20 美元/分钟,在当前 GPU 价格下大体处于正毛利。护城河落在 agent 的人格数据上,而不是模型权重。
我们会先测什么
如果你是个小团队,性价比最高的实验大概就是 Google Meet 技能。把 agent 训练在你产品的定位上,让它作为"沉默参会者"加入下一次对外推介,再让它把那段对话总结回给你。这是 AI 会议记录员的老套路,但带着一张让对面也能看见、能反应的脸。
对更大的工作室来说,更有意思的测试是多 agent。同一个频道里两个 agent,分别训练在品牌的不同部分上,就一个创意决定互相辩论,由人类来主持。这是"在跨平台持久记忆出现之前不可能存在"的那种工作流形态。