JeecgBoot AI专题研究 | 拆解谷歌 I/O 2026 全模态模型 Gemini Omni——从任意输入直出视频,再用一句话反复改
一个暴论:做视频这件事,正在变成一句话的成本
先把结论放在最前面:视频制作,正在变成「一句话」就能搞定的事。
过去做一条像样的视频,意味着拍摄、布光、剪辑、调色、特效,一套流程下来要团队、要设备、要预算、要时间。而现在,你只要会打字、会说话,就能产出一段会动、有逻辑、能讲故事的视频——不需要任何专业背景,成本几乎被压到了零。这不是夸张的营销话术,而是谷歌 I/O 2026 上 Gemini Omni 摆在台面上的现实:人人都能随手做视频的时代,真的来了。
换句话说,门槛被彻底抹平了。曾经把无数人挡在视频创作门外的那些技术壁垒、设备成本、时间投入,正在被一个模型一次性清空。这才是 Omni 最该被看见的地方——它不只是又一个更强的生成模型,而是把「做视频」从一门专业手艺,降维成了一件人人随手可做的小事。
谈到 AI 视频,过去两年大家比的几乎都是同一件事:谁生成的画面更逼真、分辨率更高、时长更长。但如果你真正用这些工具做过东西就会发现,最折磨人的从来不是「生成」,而是「改」——你想把人物的衣服换个颜色、把镜头往左推一点、把白天改成傍晚,结果模型重新跑一遍,整段画面风格全变了,前后根本接不上。
谷歌这次在 I/O 2026 上抛出的 Gemini Omni,瞄准的恰恰是这个痛点。它的定位很有意思:不是又一个「文生视频」模型,而是把视频创作彻底变成一场可以来回对话的协作过程。官方给它起的外号也很直白——视频领域的 Nano Banana。
去年那个把图像编辑做到「人人可用」的 Nano Banana,让数百万人用一句话就修好了老照片、把草图变成设计稿。如今谷歌想把同样的体验搬到视频上——这才是 Omni 真正的野心所在。
Gemini Omni 到底是什么
一句话概括:它是一个能从任意输入创作内容的全模态模型,首发就支持视频输出。
这里有两个关键词值得拆开看。
第一个是「任意输入」。你喂给它的可以是图像、可以是音频、可以是一段视频,也可以是纯文本,甚至是这些东西的任意组合。Omni 会把它们融合成一个连贯的结果。比如一个典型的工作流可能是这样的:
- 丢进去一张风格参考图,告诉它「我要这种质感」;
- 附上一段音乐,作为画面的节奏提示;
- 再用自然语言描述想要的场景。
Omni 综合这三路输入,吐出一段既符合参考风格、又踩着音乐节拍的视频。这种「多路参考」的能力,是单纯文生视频模型给不了的灵活度。
第二个关键词是「推理 + 生成的融合」。Omni 把 Gemini 本身的推理能力和视频生成能力捏在了一起。它不只是在「画」一段看起来像那么回事的画面,而是调用了 Gemini 积累的历史、科学、数学知识,去构建一个逻辑自洽的场景。换句话说,它生成的视频是「想明白了再画」,而不是「凑出一堆好看的帧」。
真正的杀手锏:编辑可以一直「叠」下去
如果只看生成质量,Omni 未必能甩开 Sora、Veo 这些对手一大截。它真正拉开差距的地方,在于编辑的连贯性。
用过 Nano Banana 的人会有体会:你每改一次图,模型都记得上一次的结果,新的修改是叠加在旧图之上的,不会推倒重来。Omni 把这套机制带进了视频——
每一次编辑都建立在前一次的基础上,自动继承前序的上下文,场景始终保持一致。
这意味着你可以像跟一个剪辑师聊天一样,一步步把视频打磨出来:「把这个人物的外套改成红色」→「镜头再拉远一点」→「天色调暗,加点雨」……每一句指令都是一次微调,而不是一次重置。风格不会跳变,物体不会突然变形,整个过程是渐进式的。
对创作者来说,这是体验上的质变。过去做 AI 视频更像「抽卡」——反复生成、祈祷出一个能用的版本;现在更像「捏泥人」——在一个稳定的底子上反复雕琢。
它「懂」物理世界
Omni 还有一个容易被忽略、但其实很关键的能力:对物理规律的直觉。
谷歌强调,Omni 对重力、动能、流体动力学这些规律有内在认知。生成的内容会遵守现实世界的物理逻辑——水往低处流、东西往下掉、布料会随风摆动。这听起来理所当然,但恰恰是早期 AI 视频最容易翻车的地方(手指数量不对、物体穿模、液体违反重力)。
把「物理理解」和「世界知识」这两件事叠在一起,Omni 就跳出了「单纯追求画面逼真」的赛道,进入到「有意义的叙事」这一层。它生成的不只是好看的画面,而是一个站得住脚、说得通的世界。
「世界变换」:把现实改写成另一种美学
官方演示里最吸睛的,是 Omni 的「世界变换」能力——拿一段输入视频,整体改写它的美学风格、动作或特效,同时保住场景的结构和细节。几个示例很有代表性:
- 液态金属效果:人物触摸镜子的瞬间,镜面荡开一圈液态涟漪,手臂顺势变成镜面材质,像科幻电影里的特效镜头;
- 线条艺术风格:人物被瞬间转换成一幅精细的单色线条画,保留动作但抽离了写实质感;
- 毛毡玩偶效果:人物变成一只可爱的毛毡填充玩偶,配上大大的活动眼睛和眼镜,萌感拉满;
- 复古全息图:人物化作复古单色透明的 3D 线条全息影像,悬浮在同样风格的全息甲板中。
关键在于,这些变换不是简单套个滤镜——它在改变视觉风格的同时,依然维持了画面的物理合理性和前后连贯性。镜面会按真实的反射逻辑走,玩偶的动作会符合毛绒材质的质感。这种「换皮不换骨」的能力,对短视频特效、广告创意、影视预演来说,想象空间相当大。
实测上手:一句话生成一条视频到底有多简单
光说不练假把式,我们直接到 https://gemini.google.com 走一遍真实流程,看看「一句话做视频」到底是不是真的。
操作其实简单到没什么门槛:
- 打开 gemini.google.com 登录账号;
- 在底部输入框把模式切换到「视频」(输入框左下角那个「视频」标签),模型选 Flash;
- 直接用大白话描述你想要的视频,回车。
第一次我的指令就一句话:「帮我生成一个动漫效果的小人,介绍开源项目 jeecgboot 产品的视频,5 分钟内的视频」。发出去之后,Gemini 提示「正在生成视频,这可能需要几分钟时间」,剩下的就交给它了——不用脚本、不用关键帧、不用调参数。
几分钟后回来,提示「您的视频已准备就绪!」。出来的成品是一个青发动漫风格的科技小姐姐,身穿白大褂,对着一块满是柱状图、环形图、折线图的「Low-Code」数据看板比划讲解,背后是布满代码与光网的科技空间——和我描述的「动漫小人 + 介绍开源项目」基本对得上,质感甚至超出预期。
下面是从我实际生成的成片里节选的一段动图(GIF 无声,原片带中文语音)——可以直观感受下「一句话」出来的真实效果:
从输入一句话到拿到成品,全程没有任何专业操作,这正印证了开头那个判断:做视频,真的正在变成一句话的成本。
一个真实的小遗憾:中文还不太行
不过实测也不全是惊喜。第一条视频默认走的是英文旁白,于是我第二次把需求写得更明确:「请帮我制作一个时长不超过 5 分钟的动漫风格卡通人物视频,用于介绍开源项目 JeecgBoot 产品。注意语音使用中文」——专门强调了「语音使用中文」。
画面这次依旧在线,小人指着 Low-Code 看板侃侃而谈,观感不输专业 MG 动画。但中文语音确实是短板:发音、断句、语气都还透着一股「外国人说中文」的生硬味儿,离自然的中文配音还有明显差距。
所以给打算尝鲜的朋友提个醒:目前 Gemini Omni 的强项在画面与叙事,中文语音还在追赶阶段。 如果你的视频对中文配音质量要求高,现阶段更稳妥的做法是:用 Omni 出画面,中文旁白后期再单独配。这不影响它「一句话出片」的颠覆性,但确实是当下要心里有数的一个边界。
安全这块没含糊:每一帧都带「身份证」
能力越强,越要防滥用,这点谷歌想得很清楚。Gemini Omni(Flash 版本)在开发和部署的全过程都和内部安全团队深度合作,做了大量评估:自动化测试、人工红队演练、专项安全审查一个不落。
更实在的是水印机制。任何在 Gemini、Google Flow 或 YouTube 上用 Omni 创建或编辑的内容,都会自动带上两重标记:
- SynthID:谷歌的隐形数字水印,肉眼看不见但机器可识别,证明内容由 AI 生成;
- C2PA 内容凭证:行业通用的内容溯源标准,记录内容的来源与编辑历史。
有了这两层标记,平台和用户都能验证一段视频究竟是不是 AI 产物。在 AI 生成内容真假难辨的当下,这种「先打标、再放出」的做法,算是负责任的工程实践。
在哪儿能用上
好消息是不用等太久——Gemini Omni 目前已经落地在三个入口:
- Gemini 应用:日常对话式创作,门槛最低,打开就能用;
- Google Flow:面向专业的视频创作工作流;
- YouTube Shorts:短视频创作,直接面向内容分发平台。
从「对话工具」到「专业工作流」再到「内容分发平台」,谷歌把 Omni 铺到了创作链路的每一环,意图很明显:让它从生成到发布形成闭环。
写在最后:视频创作的范式正在切换
把 Omni 放到更大的背景里看,它代表的是一种交互范式的转变。
过去的 AI 视频工具,本质还是「下指令 → 等结果」的单向操作;而 Omni 想做的,是把它变成一段持续的、有记忆的对话——你说一句,它改一点,上下文一直在线,创作变成了人和模型来回打磨的协作。这跟代码领域里 AI 编程助手从「补全一行」进化到「理解整个项目、多轮对话改代码」,其实是同一个方向:从一次性生成,走向有状态的协作。
对低代码、AIGC 这些强调「降低创作门槛」的领域来说,这个信号尤其值得关注。当生成视频的成本和门槛被压到「会聊天就会做」的程度,内容生产的格局大概率会被重新洗牌。Gemini Omni 未必是终点,但它确实给视频创作划下了一道清晰的分界线——这一边是「抽卡式生成」,那一边是「对话式创作」。
参考来源: