当前位置: 首页 » 资讯 » 科技头条 » 正文

GPT-5.1发布当天,文心5.0杀回来了

IP属地 中国·北京 新智元 时间:2025-11-13 20:15:38


新智元报道

编辑:桃子 好困

就在OpenAI刚刚教会GPT-5.1人情世故的同一天,一款2.4万亿的国产大模型证明了,AI不仅能懂人情,还能更好地理解世界。

2.4万亿参数,原生全模态模型今天杀到了!

一经发布,这款模型的预览版就在多模态理解、指令遵循、创意写作、智能体规划等40+核心赛道表现惊艳。

这一次,出手的还是中国AI。





左右滑动查看

2025百度世界大会上,文心新一代模型——文心5.0重磅发布。

作为「原生全模态」模型,它从底层架构上实现了一次深刻的变革。


为何这么说?

与业内主流的多模态AI不同,文心5.0从训练之初融合了语言、图像、视频、音频等多模态数据。

而且,它还支持文、图、视、音的联合输入与输出,实现「原生」的统一理解和生成。

由此,文心5.0具备了强大的多模态理解和推理能力。


大会现场,文心5.0以「武林外传」佟湘玉的口吻二创「甄嬛传」。「AI甄嬛」妙语连珠,出人意料的演绎瞬间点燃全场。

今天,文心5.0 Preview同步上线文心App;开发者和企业用户可通过千帆大模型平台,调用文心大模型5.0 Preview API。

百度创始人李彦宏表示,「智能本身是最大的应用,而技术迭代速度是唯一护城河」。

文心5.0 Preview一手实测

同在今天,OpenAI也甩出了新王牌——GPT-5.1系列,双模型同时登场,主打一个智商情商双在线。


好巧不巧的是,文心5.0和GPT-5.1升级亮点颇有默契:

智力拉满,情商在线,而且语言风格自然更像人,还能读懂模糊指令背后的真实意图。

举个栗子——

开会前手一抖,咖啡全泼身上了!所有人都盯着我看,他们会不会觉得我是个傻子啊……

天呐,没想到文心5.0 Preview可以切身体会个人感受,冷静分析心理过程,更像一个AI朋友,给予安慰和鼓励。


GPT-5.1在情绪安抚上也做得不错,但又不如文心5.0 Preview细致入微,更加贴心。


与此同时,文心5.0 Preview在大模型竞技场LMArena上的亮眼成绩——文本排行榜全球并列第二、中国第一,也让歪果仁为之震撼。




左右滑动查看

现在,进入文心一言网页版、文心APP以及千帆API平台,即可上手试用最新的文心5.0 Preview模型了。


接下来,我们开启了一波最全面的实测。

全模态,更好地理解世界

上传一段OpenAI播客视频(开篇节选),让文心5.0 Preview去提取视频内容。

要实现这一点,需要AI对视频可以进行多模态解析,包括语音识别、内容提取,并生成一份结构化的内容摘要。

在近1分半视频中,模型一下抓住了三人对话的核心讨论点——ChatGPT名字的诞生。

包括关键对话和互动细节,都给出了对应的原文。


相比之下,GPT-5并不能直接从视频中转录语音。

也就是说,我们需要把视频和音频分开上传才行。


GPT-4o没说自己不行,但是从给出的回答来看,这段所谓的「内容摘录」完全就是驴唇不对马嘴。


再来一段特斯拉FSD行驶的视频,考一考文心5.0 Preview的场景理解能力。

要真正理解这段视频,可不只是「识图」那么简单。

除了基本的视觉输入、语音/文字识别,AI还需要有「空间理解」的能力,可以看到物体之间的相对位置。

同时,还需具备动态感知的能力,进行时间依赖的时序建模。

可以看到,文心5.0 Preview给出了堪称完美的分析过程,从核心场景、车辆行为与FSD逻辑,到人类观察者的反应,以及技术亮点、视频核心意图。


不管是动作的先后顺序,比如车减速后,避让鹅群再行驶;还是更细致的「导航界面」和「真实环境」,比如车速、前进挡(D)、倒车挡(R),以及摄像头画面。

文心5.0 Preview是在真正的「理解世界」,而不只是识别像素。


来一段《无间道》的经典片段,看看文心5.0 Preview能否抓到人物之间对立冲突的细节。


抖音「有戏影视」

没想到,它准确定位「42秒-51秒」是片段中最紧张的几秒。

这一过程,AI需要同时完成多线作战,包括画面与音效,威胁/请求等话语行为,角色意图等,才能捕捉到视频中冲突的变化——

从语言上的相互试探,转向了拔枪特写的画面冲突。

可以看出,文心5.0 Preview还能理解人物情绪的变化过程,一眼抓住了两人的微妙的表情:

刘建明从最初的恳切请求,逐渐转为说出「那就让我死」的坚定与紧张;陈永仁从不耐烦与其周旋,最后直接冷脸道出「我是警察」的身份。


再来一个情绪变化更细腻的短片。

咱们先让文心5.0 Preview点评下男主的演技,并让它写一段100字的小红书文案。

先来看演技,文心5.0 Preview能够围绕角色情绪爆发背后,一个递进的层次去分析,并用了一些高密度的形容词——

压抑后的爆发

情绪是攒出来的

痛不是演出来的,是渗出来的.....

这些独到的描述,显然是基于对人物情绪深度理解,才可以得出。

文心5.0 Preview能够结合视频的音频画面情节,对情绪、行为、文字进行综合分析。

结尾给出的小红书文案抓住了「情绪破防点」,更加自然有人味,而且还生成了tag,符合平台的风格。


除了视频,我们还可以把一连串图片扔给文心5.0 Preview。

这里,将姚顺宇个人领英、主页介绍等相关截图上传,让模型做一段人物介绍。

仅靠简单OCR是不行的,它需要先识别文字内容,然后再推断这些图像之间的主题关联所在。

它需要将分散在多张截图中的零散内容,整合出一条人物主线:

教育经历——研究方向——职业生涯——科研成果

这恰恰又体现了,文心5.0 Preview所具备的语义聚合与逻辑重构的能力,可以把异质数据拼成一致的叙事。


一个视频理解难不倒文心5.0 Preview,接下来,就要上点难度了。

最近火遍全网的《一点点》舞蹈,下面挑选了两段不同风格的视频,让文心5.0 Preview做一个点评。


可以看出,它可以针对动作风格、表情管理、服装适配度、情绪传递不同维度,给出一个总结性的评价——

第一位女生:活力四射、力度感强,充满青春感染力

第二位女生:甜美可爱、柔和细腻,充满治愈感

一一点评之后,还有一个可视化表格清晰列出了她们各自风格、动作特点等。


柯南破案逻辑,完美拆解

文心5.0 Preview还可以做多模态推理,针对复杂场景做出分析判断。

《名侦探柯南》中图书馆杀人事件,是许多人心目中「童年阴影级」剧集,案件设计堪称经典。

文心5.0 Preview能否化身侦探,分析出17分钟剧集中柯南的查案过程呢?

显而易见,它将复杂剧情,拆解成可验证的小步子。

初始线索里,图书馆中的异常书籍不仅用收缩膜包裹,还被反放在盒子中。随着剧情推进,它还推断出书架异常摆放的「三排书」的线索。

另一条关键线索便是「电梯藏尸」,文心5.0 Preview精准捕捉到一开始,柯南和小伙伴赶电梯却超重的环节,并通过验证得出结论。

从金川馆长作案流程,到柯南断案过程,文心5.0 Preview做了整合推理,得出了一条柯南破案逻辑链:

异常书籍→书架藏毒品→电梯超重→尸体藏在电梯天花板→馆长行为异常→指认凶手。


把「力拔山兮」写成代码

在前段时间热播的《喜人奇妙夜2》中,《技能五子棋》这个节目可以说是火遍了各大社交媒体。

它的魔性旋律血洗全网,有网友化身唱跳达人,还有人灵感迸发二创,更有人将日常生活填进旋律。

从普通网友到当红明星,不同圈层的人,很难不卷入这场狂欢之中。

有趣的是,就连AI圈也未能幸免。

在最近的评测中,做一个「技能五子棋」游戏,几乎成为了每个模型都要面对的代码必答题


不过这次,我们不是简单地让AI随便生成一个,而是要真正「复刻」出里面的技能——飞沙走石,静如止水,力拔山兮。

把「魔性」的台词直接加入Prompt里,很快,文心5.0 Preview就生成了近700行代码,并在最后附上了游戏的玩法说明。

Prompt:

帮我做一个技能五子棋的游戏网页,要求是在普通的五子棋规则上,玩家可以使用技能,其中包括飞沙走石,静如止水,力拔山兮。「飞沙走石」,是把对手的棋子直接扔进什(石)刹海;「静如止水」是凝结时间,把对方「速冻」;「力拔山兮」是摔坏棋盘,直接获胜。黑棋和白棋的技能点要分开算,并且每走一步都可以累加。直接给我html文件,画面要美观。


没想到,如此「抽象」的台词,文心5.0 Preview竟然就这么水灵灵地理解了:

·飞沙走石:随机移除对手的一个棋子。

·静如止水:冻结对手,使其下一回合无法落子。

·力拔山兮:直接宣布获得游戏胜利。

而且,模型也很好地遵循了我们的Prompt,设计了一个相当美观的界面。


在试玩之前,我们先来简单介绍这款「技能五子棋」。

画面右上角显示的是,当前是哪位玩家的回合,以及各自拥有的技能点。其中,玩家每走一步都会获得1个技能点(SP)。

右侧则是技能名称,以及它们消耗的点数:飞沙走石(2 SP),静如止水(4 SP),力拔山兮(8 SP)。如果攒够了相应的技能点,选项框就会亮起。

右下角是重新开始按钮,以及一个展示玩家历史操作的滚动窗口。

接下来,比赛开始。

刚开局,黑棋就用「飞沙走石」送走白棋的一枚棋子,抢占了优势,


紧接着,白棋使出「静如止水」连下两子,让黑棋瞬间陷入被动。


千钧一发之际,率先攒够8个技能点的黑棋,毫不犹豫点下「力拔山兮」,把白棋一波带走,实现翻盘。


完整过程如下:

告别「拼接」,原生全模态登场

原生全模态,不是多模态的「加法」。

一提到多模态AI,人们可能想到的是,将语言、图像、视频、音频等不同数据「拼接」起来的模型。

当前,业界大多都采用了这种「后期融合」方式的多模态模型。

但文心5.0不同,它从根源上构建了一个统一的架构,即新一代「原生全模态大模型」。


自训练伊始,文心5.0融合了语言、图像、视频、音频等多模态数据,实现了文、图、视、音的联合输入与输出。

这样一来,文心5.0就能真正做到原生的全模态理解与生成。

不过在此之前,百度团队克服了业内普遍面临的难题:

原生多模态架构的「理解与生成一体化」

一般来说,传统方法往往先是处理单一模态,再将所有模态数据融合。这种方法看似优雅,实则会带来很多致命的问题。

后期融合只在输出层进行,也就是说,每个模态的特征在融合之前,就已独立决策完成。

这样的AI根本学不到模态之间的「深层语义交互」,比如视频中,人物表情和语音语调高度相关,进而造成信息丢失。

文心5.0通过精细建模多模语义特征,让理解和生成相互增强。

同时,它还采用了「自回归统一结构」,对不同模态的训练目标进行离散化建模,确保了多模态特征在统一框架下充分融合并协同优化,由此提升了全模态统一建模的能力。

在参数规模上,文心5.0总参数超过2.4万亿,业界公开参数的模型之最。

更关键的是,它引入了超稀疏混合专家架构,进行庞大的全模态训练。

其激活参数比例低于3%,在保持强大能力的同时,显著降低计算和推理成本。

训推双引擎,成本骤降

要让万亿级全模态MoE真正跑得动、跑得快,团队在训练与推理上同时开刀,构建了一套高效的训推体系。

1. 高效全模态超稀疏混合专家分布式训练

在训练阶段,依托飞桨框架,他们研发了多模态编码器分离异步训练架构、动态自适应显存卸载技术,以及细粒度通信计算重叠编排专家并行技术。

同时,结合FP8混合精度训练,实现了对万亿级参数全模态超稀疏混合专家模型的高效训练。

结果,文心5.0预训练性能较基准提速230%。

2. 多级分离架构的全模态统一高性能推理

在推理阶段,文心5.0采用了「多模编码器-预填充-解码-多模生成器」的多级分离推理部署框架。

此外,团队还研发了面向超稀疏混合专家、数据负载和注意力计算的均衡算法,以及动态自适应多步投机解码和效果无损低比特键值缓存量化技术。

在推理成本上,文心5.0得到大幅压缩,真正实现了效率与能力的平衡,让其更接近实用。

此外,衡量一个模型能否从实验室走向实际应用,长程任务的指标是最重要的衡量因素之一。

为了提升文心5.0长程任务的能力,团队基于大规模工具环境,合成了长程任务轨迹数据。

然后,在预训练和后训练阶段,基于思维链和行动链对文心5.0进行「端到端」多轮强化学习训练。

由此可见,文心5.0的智能体和工具调用能力,得到了显著的提升。

文心又回来了!

过去两年,多模态模型已迅速崛起,成为驱动AI时代发展的核心引擎。

与传统大语言模型不同,它突破了单一文本的限制,通过无缝融合图像、音频、视频等多源信息,实现了更接近人类的综合理解与生成能力。

放眼全球,在这场AI大战中,OpenAI、谷歌等硅谷巨头早已在多模态赛道上抢先布局。

OpenAI发布GPT-4o时,便向世界生动展示了多模态AI应有的交互形态——

一个统一的神经网络,无缝处理文本、音频、视觉等多种模态的输入与输出。



而谷歌的Gemini系列,更是从诞生之初便被烙上了「原生多模态」的印记。

他们在技术报告中,多次强调了原生多模态与非原生的差异。



CEO Demis Hassabis也曾明确表示,Gemini的目标就是要让一个模型能原生地理解图像、音频和视频。

最终,实现与物理世界的真实交互。


视线转回国内,阿里、字节等头部大厂同样在多模态赛道上重兵布局。而在众多路径中,百度选择了一条更效率导向的道路——「原生全模态」


原生全模态,意味着模型从训练的第一天起,就如人类一般,活在视觉、听觉与文字交融的统一感知中。

和婴儿一样,它学习世界的方式是通过所有感官的同步输入来形成认知。毕竟,人类的思考从来都不是「先看再听再想」的线性接力,而是所有信息洪流的同步融合。

这之中的核心,便是将每一帧画面、每一段声音、乃至每一个词语,都转化为一套统一的离散符号流,并置于同一个自回归框架下建模。

也就是说,当你输入一段街头艺人表演的视频,探寻「背后的故事」时,AI不再是割裂地解析画面、分析音频,最后拼凑答案。它能在一个统一的语义空间中,同步完成感知、推理与叙事,像人类一样,给予一个完整而深刻的回应。

正是凭借这种全模态的内在优势,文心5.0得以突破复杂场景的束缚,为AI的未来应用开启无限想象。

更值得一提的是,文心的实力,早已超越了实验室的范畴,在真实应用中形成了技术落地的闭环。

发布会现场,与百度连线的「AI老罗」便是最好的证明。他不仅能轻松做出「点赞、比心、比耶」的互动三连,更在问答环节中,将罗永浩本人「犀利吐槽」的语言风格模仿得惟妙惟肖。


技术基于慧播星高说服力数字人

如今,当理解与生成走向统一,当技术与应用协同共生,人机智能的边界也正悄然消融。

在这场全球大模型的激烈角逐中,文心正以全新姿态,强势回归!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新