首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Gemini Omni多轮编辑实测:AI视频终于能“记住人”了?

Gemini Omni多轮编辑实测:AI视频终于能“记住人”了?

作者头像
代码简单说
发布2026-06-16 13:24:51
发布2026-06-16 13:24:51
340
举报
文章被收录于专栏:代码简单说代码简单说

Gemini Omni多轮编辑实测:AI视频终于能“记住人”了?

AI视频生成、Gemini Omni、多轮编辑、角色一致性、Google I/O 2026、AI视频工作流、AI视频生成器、角色漂移、AI短视频、Veo3、Seedance、Sora替代

在这里插入图片描述
在这里插入图片描述

前几天凌晨,我刷到 Google I/O 2026 的 Gemini Omni 演示时,第一反应其实不是“震撼”,而是:

“终于有人开始解决 AI 视频最烦人的问题了。”

如果你做过 AI 视频内容,不管是广告、电商、短视频还是教程类内容,应该都遇到过这种情况:

  • 第一版角色很好看
  • 第二版镜头也不错
  • 第三版开始“换脸”
  • 第四版人物已经不是同一个人

尤其是连续修改提示词的时候。

你以为自己是在“编辑视频”,实际上更像在抽卡。

而 Gemini Omni 这次最核心的突破,并不是画质,也不是物理效果,而是:

AI 视频终于开始拥有“记忆”


在这里插入图片描述
在这里插入图片描述

为什么 AI 视频一直无法真正商业化?

过去几年,AI 视频领域最大的问题其实不是生成能力,而是:

无法保持角色一致性(Character Drift)

简单理解:

你让 AI 生成一个女孩。

第一次:

  • 长发
  • 白衣服
  • 五官精致

第二次你只修改背景:

“换成咖啡馆场景”

结果:

  • 发型变了
  • 脸型变了
  • 手部结构也变了

第三次再改镜头:

“改成侧面视角”

这时候人物甚至已经像另一个人。


为什么会这样?

因为大多数 AI 视频模型本质上都是:

“一次性生成器”

它们不是在原视频基础上“编辑”。

而是:

  • 读取旧提示词
  • 拼接新提示词
  • 整体重新生成

也就是说:

每次修改,其实都是重新抽奖。

所以才会出现:

  • 人脸漂移
  • 光影变化
  • 道具消失
  • 衣服变化
  • 镜头逻辑断裂

这也是为什么很多 AI 视频:

看 Demo 很惊艳。

但真正进入商业项目后,根本无法交付。


Gemini Omni 最大突破:状态化编辑(Stateful Editing)

Google 这次提出了一个非常关键的新概念:

Stateful Editor(状态化编辑器)

不是每轮重新生成。

而是:

“在上一轮结果基础上继续编辑”

这意味着:

  • 场景有记忆
  • 人物有持续身份
  • 镜头关系可以继承
  • 编辑是累积的

这是整个 AI 视频领域真正意义上的工作流升级。


Google I/O 上那个“小提琴手”为什么重要?

很多人只看到了:

“哦,换了背景。”

但真正做 AI 视频的人会立刻意识到:

这东西不一样。

Google 演示流程很简单:

第一轮

生成一个舞台上的小提琴手。


第二轮

提示词:

“把小提琴手移动到图像环境中”

结果:

  • 人没变
  • 姿态没变
  • 手势没变
  • 面部没变

只是背景变了。


第三轮

再修改:

“改成肩后镜头”

结果:

  • 镜头变了
  • 构图变了
  • 但人物还是同一个人

这才是重点。


以前 AI 视频为什么做不到?

因为以前的模型没有:

持久化场景状态

传统 AI 视频:

代码语言:javascript
复制
提示词 → 生成
新提示词 → 全部重算

而 Omni 更像:

代码语言:javascript
复制
场景状态A
→ 编辑
→ 场景状态B
→ 再编辑
→ 场景状态C

这两个架构差异非常大。

本质上:

Omni 开始接近真正的视频编辑器逻辑了

而不是“随机生成器”。


Gemini Omni 对比 Sora、Veo、Seedance

截至 2026 年中,目前几个主流模型大概是这个状态:

模型

多轮编辑

角色一致性

当前情况

Gemini Omni

真正状态化

中上

最新热点

Seedance 2.0

参考图一致性强

动画表现强

Veo 3.1

有限支持

一般

正被 Omni 替代

Sora 2

基本退出

不稳定

API停用中

目前业内普遍认为:

Omni 是第一个真正解决“多轮编辑”的模型

但注意。

不是完全解决“角色一致性”。


诚实评价:Omni 还没强到无敌

这一点很多营销号不会讲。

但真实情况是:

Omni 并没有彻底解决跨场景一致性

目前它更擅长:

单会话内连续编辑

比如:

  • 改背景
  • 改镜头
  • 改构图
  • 改动作

它都能维持主体稳定。

但如果你:

换场景

换灯光

换时间

换服装

角色还是可能漂移。

尤其:

  • 面部细节
  • 手部结构
  • 衣服纹理

还是会慢慢变化。


为什么这依然是巨大突破?

因为工作流变了。

以前:

代码语言:javascript
复制
生成
→ 不满意
→ 重生成
→ 又变脸
→ 放弃

现在:

代码语言:javascript
复制
生成
→ 精修
→ 再精修
→ 交付

这个差别非常大。

尤其对于:

  • 电商
  • 广告
  • 教育
  • 短剧
  • AI博主

影响会非常明显。


哪些行业会最先受益?

1. 电商

以前 AI 模特最大问题:

同一个模特无法稳定生成。

现在:

  • 同一模特
  • 多套衣服
  • 多场景
  • 多镜头

开始有商业可行性了。


2. AI教程

以前 AI 老师每一集都长不一样。

现在:

系列课程连续性终于能做了

这会极大推动:

  • AI教育
  • AI讲师
  • AI口播

的发展。


3. AI广告

品牌最怕:

“主视觉人物不统一”。

Omni 之后:

AI广告开始真正接近可交付状态。


4. 游戏行业

AI NPC 最大问题:

不同过场动画里人物会变化。

状态化编辑意味着:

NPC角色锁定开始可用了

这会影响:

  • AI剧情动画
  • AI过场CG
  • AI角色演出

更可怕的一点:AI伪造会更难识别

这其实是最值得警惕的地方。

以前很多 AI 视频一眼假:

  • 脸变
  • 手崩
  • 头发漂移

现在:

一致性正在修复这些破绽

也就是说:

未来 AI 视频会越来越像真实拍摄。

Google 也意识到了这个问题。

所以 Omni 视频会强制加入:

  • SynthID 水印
  • C2PA 内容凭证

用于验证来源。


对开发者来说,更重要的是另一件事

很多人还停留在:

“哪个模型最强?”

但现在真正的问题已经变成:

模型碎片化

因为:

  • Omni 擅长一致性
  • Seedance 擅长动画
  • 其他模型擅长物理
  • 有的模型音频更强

未来不会有:

“一个模型统治全部”

而会变成:

不同能力由不同模型领先

这意味着:

开发者真正应该做的是:

构建模型抽象层

而不是绑定某一家。


为什么现在做 AI 视频会非常痛苦?

因为每家都有:

  • 不同 SDK
  • 不同 API
  • 不同限流
  • 不同鉴权
  • 不同计费

接一个模型可能就得花一个 Sprint。

结果三个月后模型又过时。

这才是现在 AI 视频领域最大的工程问题。


Atlas Cloud 为什么会被关注?

因为它开始做:

AI模型统一接入层

核心逻辑其实很像:

代码语言:javascript
复制
以前:
一个模型 = 一套系统

现在:
多个模型 = 一个抽象层

这种方向未来很可能会成为行业标准。

因为 AI 视频领域迭代速度太快了。


最后总结

Gemini Omni 真正重要的地方,并不是:

“生成的视频更好看”。

而是:

AI 视频第一次开始具备“连续编辑能力”

这是一个非常关键的行业节点。

因为过去五年:

AI 视频始终卡在:

“无法稳定保持同一个角色”

而现在。

这个瓶颈终于开始被突破。

虽然还不完美。

但 AI 视频已经从:

代码语言:javascript
复制
随机抽卡工具

开始变成:

代码语言:javascript
复制
真正的视频编辑工具

这可能才是 Google I/O 2026 上,最容易被低估的技术突破。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2026-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Gemini Omni多轮编辑实测:AI视频终于能“记住人”了?
  • AI 视频终于开始拥有“记忆”
  • 为什么 AI 视频一直无法真正商业化?
    • 无法保持角色一致性(Character Drift)
  • 为什么会这样?
    • “一次性生成器”
  • Gemini Omni 最大突破:状态化编辑(Stateful Editing)
    • Stateful Editor(状态化编辑器)
    • “在上一轮结果基础上继续编辑”
  • Google I/O 上那个“小提琴手”为什么重要?
    • 第一轮
    • 第二轮
    • 第三轮
  • 以前 AI 视频为什么做不到?
    • 持久化场景状态
    • Omni 开始接近真正的视频编辑器逻辑了
  • Gemini Omni 对比 Sora、Veo、Seedance
    • Omni 是第一个真正解决“多轮编辑”的模型
  • 诚实评价:Omni 还没强到无敌
    • Omni 并没有彻底解决跨场景一致性
  • 单会话内连续编辑
    • 换场景
    • 换灯光
    • 换时间
    • 换服装
  • 为什么这依然是巨大突破?
  • 哪些行业会最先受益?
    • 1. 电商
    • 2. AI教程
    • 系列课程连续性终于能做了
    • 3. AI广告
    • 4. 游戏行业
    • NPC角色锁定开始可用了
  • 更可怕的一点:AI伪造会更难识别
    • 一致性正在修复这些破绽
  • 对开发者来说,更重要的是另一件事
  • 模型碎片化
    • “一个模型统治全部”
    • 不同能力由不同模型领先
  • 构建模型抽象层
  • 为什么现在做 AI 视频会非常痛苦?
  • Atlas Cloud 为什么会被关注?
    • AI模型统一接入层
  • 最后总结
  • AI 视频第一次开始具备“连续编辑能力”
    • “无法稳定保持同一个角色”
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档