Google I/O之后，AI的参照系变了

IP属地中国·北京 钛媒体APP 时间：2026-05-21 14:28:17

文 | 市象，作者 | 景行，编辑 | 古廿
当前，Coding 时代的行业共识已经确立。
“尽管我们上调了Token价格，客户接受度依然很高，需求持续旺盛，甚至当前供应仍无法完全满足需求，仍有大量客户在排队等待服务。”
上周2026财年Q4财报会议上，阿里巴巴CEO吴泳铭用一番发言，道出Coding蛋糕的庞大。
AI 终于从发布会走进了企业的生产预算，阿里解决了第一个问题：AI 有没有真实需求？
第二个问题来自Google：AI下一步会长成什么样？
北京时间5 月 20 日凌晨，Google I/O 2026如期开场。
这届大会的亮点，无疑是智能体与多模态能力的展示。在Gemini Omni Flash的发布中，Google对其有一段精确定义——支持任何模态的输入，生成任何模态的输出。

大会展示的视频输出只是一个开始，按照Google的规划，Omni有能力实现文图音视的全模态输出，并基于Gemini的世界模型能力，生成重力、动力更精确的物理效果。
对Google来说，Omni不再是一个视频模型，而是真正的超级内容创作入口，进而嵌入所有的创作者工作流程，创造一个比Coding想象空间更大的多模态应用市场。
相较编程，这是AI的真正富矿。从行业通用定价来看，每百万 tokens 的价格，视频模型要远高于图片和文本。这意味着，只要token调用量提升，视频将创造远超文本的API价值。
更重要的是，多模态正在迎来一个历史性的技术拐点。
对比早期文本模型+图像模型+视频模型的简单拼接模式，在2026年，以 Google Gemini Omni 为代表的统一基座全模态模型的出现，标志着行业即将进入一个全新的时代。
多模态，下一个Token拐点
OpenAI 首席执行官Sam Altman没想到的是，100万用户规模的成绩，发布初的ChatGPT要5天实现，GPT-4o图像生成只需要1个小时。
凭借高度还原的吉卜力画风，GPT-4o生图功能上线即爆红，OpenAI 不得不限制免费资格，并恳求用户不要再疯狂生图，让团队睡个好觉。
今年发布的图像生成模型Image 2，一小时全球新增用户破180万，再次打破GPT-4o纪录，一周时间内，全球活跃用户便超过1.2亿，带动ChatGPT Plus订阅量环比增长23%。
年初Google Nano Banana 2的发布，则实现了全球测试屠榜的盛况。产品将一张4K多细节图的生成时间，从分钟级压缩到秒级。
截至目前，Nano Banana系列累计生成图片已超过500亿张。媒体评价是，Google正在终结PS时代。
毫无疑问，颠覆级的多模态模型，拥有一锤定音的市场影响力。
在去年的Google I/O大会上，VEO 3一鸣惊人，切水果视频席卷了TikTok，仅用半年时间，生成视频总量就突破2.3亿条，有媒体撰文称，VEO 3挽救了谷歌的财报。
但更大的颠覆还在路上。
前几天有Reddit用户意外找到并分享了一则Gemini Omni的Demo，瞬间引爆了全球AI社区：
教师一边讲课，一边在黑板上写下公式，全程声音、画面、板书文字精确流畅，丝滑至极。
有X用户的评价是，视频模型的Nano Banana时刻要来了。
Gemini Omni的惊艳之处不仅于此，模型支持一键去除水印、替换物体并自适应光影，从演示效果看，其文字一致性、角色连贯性超越了过往所有视频模型。
跑出过火星文画面的AI用户都清楚，让AI做一个文字清晰准确的内容有多难，更不要说是数学公式，还是在课堂上边讲边写。
与VEO相比，Google Omni是真正意义上全模态输入、全模态输出的模型，支持用户通过任意模态内容混合输入，生成高质量的视频，同时支持对话编辑。
这意味着，Google Omni有能力将所有模态的分析与生成处理，在一个统一模型内部完成，而非调动多个系统后期整合。
按照Google的定义，Omni是Gemini主架构的进化，将Gemini从诞生起就具备的原生多模态能力，从输入端扩展到了输出端。
相比之下，VEO和Nano Banana并非独立产品，而是Omni身上的能力组件。
在现场演示中，Google高管展示了具体编辑场景——用户输入“把背景换成雪地”，模型就换掉视频环境；输入“改成从侧面跟拍的角度”，画面运镜就随之改变；输入“加上旁白”，视频就能生成解说及背景音乐。
自始至终，用户只要对话，就能像指挥员工一样修改视频，并精确到每一个细节，无需切换线程或重新上传。这就将VEO等上一代视频模型提示词生成、抽卡赌运气的模式完全改写。
DeepMind首席执行官德米斯·哈萨比斯则表示，未来Omni将能完成任意模态的输入及输出功能，入口覆盖Gemini应用、Google Flow和YouTube Shorts，更强的Omni版本会在后续推出。
背后Google的野心昭然若揭。它要做一个真正的世界模型，没有媒介限制，没有模态隔阂，AI 可以用任何人类能理解的方式，和世界进行交互，用一个模型定义AI的未来形态。
支撑这个野心的，正是全模态能力。
很多人没意识到，统一基座的全模态模型，其实在研发效率上更有优势。
在执行跨模态任务时，文本理解的提升，可以反哺图像和视频质量，让生成内容更符合逻辑；图像和视频的训练数据，又可以帮助模型更好地理解物理世界，提升文本推理和常识判断能力。
这是1+1>2的正向循环。也能解释为何杨立昆、李飞飞等大牛坚持认为，多模态世界模型才是AI的未来路径。
过去市场盯着Coding看，对多模态认知不足，这一思维范式正在被推翻。
摩根士丹利在近期研报中指出，Minimax的潜在价值被市场忽略，其ARR在2026年底将达到10亿美元。一个重要原因是，市场低估了多模态技术的商业价值，特别是大语言模型与多模态模型的相互促进。
这句话，点破了当前AI行业最大的视野盲区。
原生的五感全能战士？
看回国内市场，一轮技术驱动的增长正在酝酿中。
摩根士丹利指出，中国模型市场已经走到凸性爆发拐点，将复刻美国市场的超新星爆发速度。原因有二：一是模型能力已经接近甚至超越此前的美国头部产品，二是相比美国模型，中国模型定价普遍更有优势。
放眼国内市场，主要玩家的现阶段叙事逻辑高度趋同：争夺Claude平替这个生态位，再找独有优势，比如专攻长文本、专攻智能体、专攻推理，最后从订阅价格角度卷出优势，杀出红海。
但这并不是市场的全貌。
仍有玩家在技术路线上高度接近Gemini Omni的方向，有望率先在国内复刻这一生态位，就是Minimax。
最近高盛发文将字节、阿里、Minimax三家并列，依据是中国独立AI厂商中，Minimax独一无二的全面全模态布局，以及其行业领先的高性价比、高灵活性计算架构。

高盛：中国多模态模型持续进军全球，关注Hailuo 3
按照高盛的预测，M3与Hailuo 3模型发布，将成为Minimax的重要里程碑，其文本API业务毛利率将达到40%，多模态API业务毛利率达到60-70%，高于同行水平。
瑞银则将Minimax的目标价设定为1000港元，原因是随着多模态能力潜力释放，不同模态间的协同研发，将带动训练成本的压缩，以及模型能力的快速提升。
换言之，多模态研发给Minimax带来的远不止产品矩阵，还包含更精细、高效的工程框架。这将令企业模型进一步降低门槛，从开发者向普通用户扩展。
摩根大通则给到Minimax“超配”评级，理由是“技术实力、多模态商业化潜力、全球可扩展性的罕见组合”。
Minimax不仅是国内唯一同时具备“文本+图像+视频+音频+音乐”全栈能力的独立大模型厂商，而且文本、语音、视频生成能力全部排在全球第一梯队。
过去的市场中，全模态很容易被误解成“功能表”，文本、图片、视频、语音、音乐，五个格子都打勾，就叫全模态。
但事实上，全模态的真正价值，不在于“能做什么”，而在于“这些能力能不能彼此增强”。这是先天路线选择和后天补丁式升级的本质区别。
视频生成就是一个最好的例子。
文本模型说自己理解物理世界，很难验证。你让它写一篇关于苹果落地的文章，它能写得头头是道，但你永远不知道它是不是真的理解万有引力。
但视频生成不一样，一秒钟就能露馅。手的位置对不对？物体运动的轨迹符不符合物理规律？镜头切换是否连贯？文字是否清晰准确？音画是否同步？一个地方出错，用户立刻能看出来。
这是对大模型理解世界能力的终极考验。不仅要更强的空间理解能力，还要因果推理、长程一致性和多对象关系建模能力。并反过来提升文本、Agent和工具调用性能。
换言之，统一基座全模态模型不是五个独立模型的简单相加，而是一个有机的整体。
这正是Minimax的路线，从M系列大语言模型，到海螺视频模型、Music音频模型，这种全模态自研+全模态落地的完整性，在国内独立AI企业中属于独一份。
这种底层颠覆性的先天一体路线，使Minimax能在更低成本下实现更流畅的全感官智能。
摩根士丹利测算，通过基础设施优化，Minimax在8卡H800推理服务器上，每分钟可产生约1美元收入，成本低于0.3美元，而行业平均水平只有约0.5美元/分钟。
招股书中有一段数据，成立以来，Minimax只花了5亿美元，就站上全球多模态能力第一梯队，这个费用规模，只有OpenAI的约1%。
文本大模型M2发布时在全球权威评测Artificial Analysis中，拿下开源第一的成绩，其综合推理成本也只有0.53美元/百万Token，只有Claude 4.5 Sonnet的8%，推理速度则是后者的两倍。
同时，在全模态模型的技术路线，Minimax有能力让文、图、音、视频能力协同迭代，突破迭代效率、训练成本与模型性能的不可能三角。
去年发布的Minimax的视频模型，仅用约一个月时间，已帮助全球创作者累计生成视频超过6亿个；语音模型则凭借全球顶尖的超低延时，累计生成语音超过2亿小时。
换句话说，凭借稳居全球第一梯队的多模态模型能力，Minimax模型早已成为全球多模态领域的核心基础设施。
Pure-Play的增长拐点
对于投资者来说，现在最关心的问题是：谁将在全模态的爆发中，成为下一颗新星？
答案很可能是展现出稀缺性资产质地的Minimax，其即将吃到三重历史性的红利。
第一重红利，是阿里巴巴MaaS业绩已经验证过的——Token量价齐升的行业β红利。
阿里巴巴2026财年财报显示，其包含百炼MaaS平台在内的AI模型与应用服务ARR（年化经常性收入）已突破80亿元人民币，到年底将突破300亿元。
吴泳铭用发言证明，Agent市场供不应求，卖方市场特征显著。背后，市场逻辑已经完全扭转。
摩根大通指出，当前市场主战场已经从Token价格转向模型能力，在需求高度强劲的背景下，最优策略不是降价，而是提升模型能力。技术方向与迭代速度更快的玩家，将站出来引领市场。
第二重红利，是Google全模态基座模型路线催化的，多模态估值重估的行业α。
过去纯文本模型公司享受了AI 行情的绝大多数估值溢价，而全模态基座模型将颠覆这一认知——所有需要视觉、听觉、空间感知的场景如教育、传媒、工业、医学、消费都有其施展空间，其商业上限将远超纯文本。
伴随超强理解能力的全模态基座模型问世，全模态将迎来一轮估值拐点。
第三重是作为中国独立AI企业，Pure-Play的估值弹性红利。
大厂的AI业务往往被稀释在巨量营收里。阿里的MaaS收入占比仍在低位，字节的AI能力被分散在多条产品线中，市场的估值锚点很难精确对应到AI业务上。
但Minimax的模型能力就是主引擎，收入全靠模型本身，没有被任何其他业务稀释。这样的纯度差异，会显著放大增长曲线的斜率。
这意味着，当大模型行业爆发时，Minimax的业绩弹性也会更大。
换句话说，阿里巴巴证明了行业β成立，逻辑闭环；谷歌将推动全模态技术路线的α；而Minimax承接的，是中国AI独一份的又一重α。
而即将发布的模型升级，将是这场重估的冲锋号。
在2025年财报会议上，Minimax创始人兼CEO闫俊杰明确透露，今年上半年发布的M3及Hailuo 3相关模型，将迈入中长篇生产级内容的直接生成阶段，届时将把平台的Token需求量，再带上一至两个数量级。
摩根士丹利则表示，M3有望匹敌世界顶级模型性能，并展现多模态理解能力。
Hailuo 3则有望复刻Seedance2.0的生态位。高盛表示，海螺下一代模型将在音视频同步、编辑能力、多分镜生成领域实现质变，同时降低普通用户的制作门槛。
更重要的是，Hailuo 3将是 Minimax 全模态基座的一部分。这意味着，Hailuo 3的技术路径将是与文本、图像、音频能力无缝融合，实现更加复杂的多模态任务。
不久后，我们将看到中国在全模态基座模型方向上，最接近Google理念的新的尝试。
正因如此，顶尖投行普遍认为Minimax是当前AI行业最具投资价值的标的之一。作为国内唯一一家全模态的独立大模型厂商，不仅技术路线最接近 Google，同时增长潜力尚未完全释放。
当M3 和 Hailuo 3 的发布窗口日益临近——Minimax 的稀缺性正在从"技术叙事"变成"财务现实"。待行业重估验证、新一代模型发布后，市场的判断可能会完全不同。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里与荣耀共创面向手机场景的解决方案已落地Robot Phone

腾讯升级发布具身智能全栈方案，ADP 4.0海外版上线

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

阿里“AI编程第一”，智谱、Kimi答应吗？

B站连续三年亮相WAIC 月均超1.9亿用户消费AI内容

全站最新

阿里与荣耀共创面向手机场景的解决方案已落地Robot Phone

腾讯升级发布具身智能全栈方案，ADP 4.0海外版上线

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

热门推荐

阿里与荣耀共创面向手机场景的解决方案已落地Robot Phone

腾讯升级发布具身智能全栈方案，ADP 4.0海外版上线

机器人手机探路行业迎来多模态具身交互新时代

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

五菱星光L上市，思行：产品外观在所有的购车因素里排名第一

阿里“AI编程第一”，智谱、Kimi答应吗？

B站连续三年亮相WAIC 月均超1.9亿用户消费AI内容

华为MateBook Pro获国家级人工智能认证L3级首证

Kimi K3震荡美股，有望最快6个月内港股上市

实测Kimi K3：强得意外，慢得着急

吉利银河同款技术下放！领克20官宣搭载全球首款16合1电驱

造车新规矩落地！工信部要求车企自查零部件供应链一致性

一只猴卖20万！净利润飙涨超1300%，“猴茅”昭衍新药赚翻了

黄牛捏造张凌赫三地见面会疯狂售票阿维塔发布严正声明