谷歌I/O发布会最大的赢家，不是谷歌？

IP属地中国·北京 机器之心Pro 时间：2026-06-04 18:27:00

编辑｜杨文
5 月 20 日凌晨，谷歌 I/O 大会一口气推出了各种模型，其中就包括原生多模态大模型 Gemini Omni Flash。
该模型支持任意输入（视频、图像、音频、文本、草图等）来生成和编辑视频。
我们只需用自然语言下指令，就能对视频进行多次、连续修改，模型能够保持角色一致性、符合物理规律，并记住之前的上下文。

视频来自：X博主@venturetwins
视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
它对现实世界也有深度理解，不仅能理解重力、动能、流体力学等物理规律，还能结合历史、科学和文化背景进行深度的画面叙述。

例如，上传膝盖 MRI 图像后直接询问「如何治疗前交叉韧带撕裂」，模型便能给出专业解读。
视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
甚至我们可以借助自己的声音和形象创建数字分身，生成外观与声音都高度还原本人的内容。

视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
Gemini Omni 生成的所有视频均内嵌不可见的 SynthID 数字水印，可通过 Gemini 应用、Chrome 或谷歌搜索便捷验证。
目前，Gemini Omni Flash 已上线，全球付费用户可在 Gemini 应用和 Google Flow 中率先体验。
本周内，该功能还将免费内置到 YouTube Shorts 和 YouTube Create App，面向普通创作者开放。
开发者与企业客户则可在接下来几周内通过 Gemini API 正式接入。
网友实测：亮点与槽点同在
社交媒体上已有大量网友晒出测试结果，我们就来盘一盘。
沃顿商学院副教授 Ethan Mollick 拿到了早期访问权限，用一段颇具挑战性的提示词进行了压力测试：
Prompt：sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river otter who is distracted by their laptop while they are in a hot air balloon over NYC. in the next balloon over, william shakespeare fights a robot made of pizza.（一只穿着飞行员制服的海獭，在纽约上空的热气球里，向一只被笔记本电脑分心的河獭解释 Spirit Airlines 为何破产，而旁边的另一个热气球里，威廉・莎士比亚正在和一个用披萨做成的机器人打架。）

视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
我们可以看到，它生成的镜头切换丝滑，指令遵循度也较高。Ethan Mollick 评价道「一个真正聪明的模型能直接处理视频，创作空间大大扩展了」。

网友 @WolfRiccardo 用 Gemini Omni 做了一条偷拍被抓的假新闻，画面质感不错，光影处理自然，人物被当场抓包时的动作与表情也颇为真实，但最后一秒手机凭空消失，明显穿帮。

视频来自：X博主@WolfRiccardo
@a16z 合伙人 Justine Moore 则重点测试了模型的「世界知识」整合能力。比如上传一张当前站立位置的照片，直接询问该地的历史沿革，模型无需额外提示便能结合图像与已有知识库给出准确、详尽的回答。

视频来自：X博主@venturetwins
视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
创作者 @jerrod_lew 测试了模型的视频编辑能力，将同一段跑步素材无缝迁移到不同环境、服装与场景中，Gemini Omni flash 在大幅修改画面风格的同时，完整保留了原始动作的连贯性。

视频来自：X博主@jerrod_lew
网友 @LexnLin 尝试了多视角快速切换：在 10 秒的生成视频中，镜头在正面中景、低角度仰拍、侧脸特写、极近距离面部大特写、高空俯拍与远景全景之间流畅切换，非常酷炫、电影化。

视频来自：X博主@LexnLin
但是它也有大多数 AI 视频模型的通病，近景能做得比较精细，一旦镜头拉远，主角的脸部细节就糊在一起，看不清五官和纹理。

网友 @aimikoda 测试了 Gemini Omni flash 面部表情控制能力，生成了一段节拍同步肖像视频：一个戴白色棒球帽的短发女孩在节拍切换中依次呈现好奇、害羞、调皮、惊讶、梦幻、眨眼等 16 种精确表情，全部硬切在节拍上，非常精准且富有表现力。

视频来自：X博主@aimikoda
视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
当然，也有测试反映了明显的控制力不足。上传参考图后，模型未能有效按参考内容生成对应画面，对输入图像的还原度较弱。

视频来自：X博主@sergeantsref
另有用户吐槽 Gemini 的新使用限制太严格，仅生成 5 个视频便会耗尽配额，导致连 Pro 和 Flash 模式都不能用了，体验大打折扣。

视频来自：X博主@LexnLin
与 Seedance 2.0 正面交锋
Gemini Omni flash 发布后，互联网老哥们都关心一个问题：它与当下表现亮眼的 Seedance 2.0 相比究竟如何？
多位创作者用相同提示词进行了同台对比，结果颇为一边倒。
网友 @cipherwebthree 的对比测试中，Gemini Omni Flash 出现了明显的面部一致性问题，明星在出场瞬间出现换脸现象，一眼可辨。Seedance2.0 生成效果几乎无可挑剔，我瞪着眼来来回回看了 N 遍，也没找到穿帮的点。大家一起来找找茬，在评论区聊聊。

视频来自：X博主@cipherwebthree
视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
AI 创作者 @JSFILMZ0412 专门测试了打斗场景的生成效果，直言「谷歌宣传 Gemini Omni Flash 会改变游戏规则，但与 Seedance 2.0 并排对比后，根本不是一个量级，Seedance 完胜。希望 Veo 4 能来救场。」

视频来自：X博主@JSFILMZ0412
视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
网友 @AIWarper 进行了日漫风格对比，双方整体效果都不错，但 Seedance 2.0 生成的是 15 秒视频更具传统动漫的「on 2s」节奏感，即每秒 12 帧的经典日漫节奏，流畅之余保留了那种独特的轻微跳帧韵律。

视频来自：X博主@AIWarper
视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
而 Gemini Omni Flash 的 10 秒视频则更偏向 3D 质感，动画帧率风格不够纯正。
网友 @NACHOS2D_的对比更直观。
Gemini Omni Flash 生成的画面光影尚可，但武术动作迟缓无力，如慢镜头般拖沓，水花与物理效果模糊失真，整体有明显的 AI 感。

视频来自：X博主@NACHOS2D_
视频链接：https://mp.weixin.qq.com/s/u-DNm3dfb-luEeCIzI0GSg?click_id=49
Seedance 2.0 的动作则流畅有力、节奏连贯，拳脚速度与力道俱佳，水花飞溅等动态效果高度自然，配合快速切镜、特写与低角度镜头语言，打斗场景极具动作片质感。
综合来看，Gemini Omni Flash 在科普解说类视频的生成、视频编辑方面表现可圈可点，但在动态场景、人物一致性等维度上均与 Seedance 2.0 存在明显差距，整体表现略优于 Veo 3.1，但仍低于外界预期。
https://x.com/venturetwins/status/2056793856843366789?s=20
https://x.com/emollick/status/2056788122369712148?s=20
https://x.com/WolfRiccardo/status/2056812463350235220?s=20
https://x.com/jerrod_lew/status/2056865054130319828?s=20
https://x.com/LexnLin/status/2056837898796769791?s=20
https://x.com/aimikoda/status/2056861958247194897?s=20
https://x.com/sergeantsref/status/2056818170057679231?s=20
https://x.com/LexnLin/status/2056846325979693465?s=20
https://x.com/cipherwebthree/status/2057049421234483588
https://x.com/JSFILMZ0412/status/2056864860240011411?s=20
https://x.com/AIWarper/status/2056796127245316271?s=20
https://x.com/NACHOS2D_/status/2056774932520989091?s=20

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

独家｜阿里将推出千问办公，旗下三款智能体合并

“Scaling Law要把硬件加进来”，京东给物理AI算了另一笔账

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

全站最新

独家｜阿里将推出千问办公，旗下三款智能体合并

“Scaling Law要把硬件加进来”，京东给物理AI算了另一笔账

理想L6超充不伤电池？官方实测：50万公里后容量仍超80%

月之暗面回应马斯克：欢迎掰手腕

热门推荐

我国杂交水稻育种科研取得重要进展

独家｜阿里将推出千问办公，旗下三款智能体合并

“Scaling Law要把硬件加进来”，京东给物理AI算了另一笔账

三星Galaxy Unpacked 2026发布会前瞻：三款折叠屏新机与智能手表齐亮相

Adobe Project Indigo 1.1版上线：AI助力照片编辑，一键清除干扰元素轻松出片

谷歌Gemini三箭齐发，Flash降价提效、网络安全模型直指Anthropic，旗舰3.5 Pro仍难产

马斯克放言将超越Kimi，月之暗面回应：欢迎较量且信心更足

阿里云函数计算云沙箱7月31日起启用新计费模式降本增效满足多元需求

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

口子窖陷渠道重构阵痛，徽酒老三腹背受敌

起底酒店低价早餐券灰产：用差评换“霸王餐”，有商家卖出3万张获利数十万\n

66款AI硬件通过L3认证：华米OV耀全员入围，但没人突破L4天花板