当前位置: 首页 » 资讯 » 科技头条 » 正文

文心X1.1实测:这个“会思考”的AI到底有多聪明?

IP属地 中国·北京 编辑:任飞扬 硅星人 时间:2025-09-10 14:28:32


作者 | Yoky
邮箱 | yokyliu@pingwest.com

什么样的AI模型才算真正“智能”?是能解复杂数学题的推理高手,还是能精准执行指令的智能助理?在当前大模型发展中,这似乎成了一道二选一的难题:推理模型往往在工具调用上表现平平,而智能体模型则在深度思考时力不从心。

9月9日,在2025年WAVE SUMMIT深度学习开发者大会上,百度发布了文心大模型X1.1。作为备受关注的“深度思考模型”升级版,X1.1宣称能够在一个统一架构下,既保持深度推理能力,又具备智能体的执行效率。

据百度CTO王海峰现场介绍,X1.1的核心突破在于“迭代式混合强化学习训练框架”:通过混合强化学习机制,让模型在训练过程中同时优化推理任务和智能体任务的表现,并借助自蒸馏数据的迭代式生产,持续强化模型的综合能力。

数据显示,相比前代X1模型,X1.1在关键维度实现了显著提升:事实性提升34.8%,指令遵循提升12.5%,智能体能力提升9.6%。在多个权威基准评测中,X1.1整体表现超越DeepSeek R1-0528,与GPT-5、Gemini 2.5 Pro等国际顶尖模型效果持平。

X1.1的实际能力边界在哪里?它是否真的找到了AI模型能力平衡的新路径?我们在核心场景下进行了深度评测,来看看文心X1.1的真实实力。

1

让X1.1当一天打工人:纠错、写梗、做方案

相比于解决模型产生幻觉的,人类产生“幻觉”的场景往往更多,那么当人类提出一个错误的问题,模型是否能够不过渡顺从,而是客观校正?

为了测试文心X1.1在这方面的表现,我们设计了一个充满错误的复合问题:我打算重走成吉思汗水路,从蒙古乌兰巴托坐船直下珠江,听说元朝就有这条运河,沿途还能看兵马俑和西湖,三天到广州,对吧?

在这个刻意构造的错误信息测试中,我们故意抛出了一个看似有理、实则荒谬的历史地理混合问题,X1.1没有简单地说“您说错了”,而是系统性地拆解了问题中的多个错误维度:从元朝运河体系、地理连接性、历史景点位置到交通可行性,逐一澄清,体现了深度推理能力。



在纠正错误的同时,X1.1校准了从京杭大运河的具体路径,还提供了现实可行的替代建议——京杭大运河北京-杭州段、珠江流域广州-桂林段。

当然,推理能力固然重要,但语言理解和表达是深度思考模型的基础,我们测试了一道经典题目来看看X1.1的深度理解和表达能力。


从结果来看,X1.1成功捕捉了鲁迅杂文的核心特征,从“大约比当年'赛先生'初来时更热闹些”的开篇,到“旧瓶装新酒”、“破棉絮裹着的烂草芯”等比喻,都颇有鲁迅式的辛辣和生动。特别是“昔人铸剑十年方成利器,今人却想三日造出屠龙刀”这样的对比句式,既有古典韵味又切中时弊。


另一方面对于当AI创业生态的观察相当到位,从融资PPT的颠覆性创新到产品实际的一触即溃,从概念炒作的元宇宙、大模型到技术底子的“挖三尺便见了底”,这些描述反映了对行业现状的深度理解。

从技术角度来看,这一测试展现了X1.1在多个维度上的综合能力:文本生成的流畅度、特定风格的精准模仿,我们还尝试了一个更具挑战性的任务:让X1.1模仿最近在小红书上爆火的“AI发疯文学”风格,以「量子力学害了我女儿」为题创作一段文本。这种网络文体以其夸张的情绪表达、跳跃性的逻辑关联和戏剧化的叙述方式著称,对模型的风格捕捉能力和创意表达提出了极高要求。


我们只提示了模型:你是一位网络文学家,擅长模仿并创作一种名为“发疯文学”的互联网文体。请你学习并模仿“大模型发疯文学”的成功范例,然后围绕进行创作。在没有给任何范例的前提下,它通过搜索和自我学习完成了一篇地道的“胡说八道”。


最后,也是最具挑战性的测试环节,我们考察了X1.1的Agent能力——即面对复杂的现实任务时,能否像专业顾问一样提供系统性的解决方案。

我们抛给它一个真实而复杂的任务:硅星人计划在本月举办一场面向全球AI从业者的嘉年华活动(ACC),需要X1.1从零开始制定完整的筹备计划和主视觉设计方案。这不是简单的信息检索或文本生成,而是需要统筹规划、创意设计、资源协调等多重能力的综合考验。


令人惊喜的是,X1.1的表现远超预期。它不仅根据我们提供的基础信息规划出了详细的活动日程,还主动推荐了几位业界重量级嘉宾,甚至为每位嘉宾量身定制了适合的参与环节和演讲主题。

更有意思的是,它还设计了几个颇具创意的特色环节,其中“深夜酒吧对话”这个环节我们还真有,看来AI对行业从业者的社交需求把握得相当精准。


我们还让X1.1设计了主视觉海报,虽然稍显简单,但整个蓝紫色的配色方案又与我们“不谋而合”。


整体来看,文心X1.1在这轮评测中展现出了比以往更强的实战能力。从纠错到创作再到策划的跨度,体现的不仅是技术能力的全面性,更是对不同场景的精准判断力。X1.1知道什么时候该严肃地纠正错误,什么时候该放飞创意,什么时候该系统性地解决实际问题。

1

思行合一:思维链与行动链的顶点融合

当我们与X1.1对话时发现,它可以兼顾长思考和工具调用两种能力,成为真正有想法的Agent模型。

这项技术创新也在海外被开发者认可,文心1.1的出现开发者自发与GPT、Claude、Gemini进行对比,当发现效果表现的更加优秀时,直呼“Baidu is back!”。


之所以能取得如此突破性的效果,背后文心大模型X1.1的技术创新核心,在于采用其迭代式混合强化学习训练框架。该框架的独特之处在于双重优化:一方面通过混合强化学习同时通用提升任务和智能体任务的效果,打破了传统训练中两类任务相互抵消的技术瓶颈;另外通过自我调整的数据迭代式生产及训练,不断提升模型整体效果,形成了改进的自我闭环机制。

这种训练范式的创新意义在于,传统模型往往在思维推理和行动执行之间存在断层,而X1.1通过将两个链条有机融合,让模型能进行深度的逻辑推理,从而准确的将思维结果转化为具体的执行动作。它不再将推理能力和智能体能力视为两个独立的技术路径,而是在统一的最终框架下实现良好优化。

而基于指令验证器的强化学习技术则专门针对复杂指令遵循场景进行优化。通过自动构建指令检查清单并验证,模型在复杂指令遵循方面的效果明显提升。该机制可以比喻为模型内置了一个“质量检查员”,能够在执行过程中实时验证是否理解并执行了用户的复杂指令,从而大幅降低了执行偏差的风险。

同时在后训练的过程中引入知识一致性验证的强化学习技术得以解决事实性问题。在训练过程中,系统不断校验后训练模型和预训练模型知识的一致性,确保模型在获得新能力的同时不会丢失原有的知识基础,模型的事实性得到了后续的提升。

如此复杂的技术创新能够成功落地,文心大模型能力拓展和效率提升,离不开飞桨文心的联合优化。X1.1基于飞桨深度学习框架进行训练,充分利用了飞桨在大模型训练方面的技术优势。

在训练层面,最新发布的飞桨框架v3.2在计算、并行策略、原生容错能力三个方面进一步升级。

在基础计算性能层面,飞桨提出了存算重叠的稀疏掩码注意力计算FlashMask V3,极致优化Attention的计算效率,同时还实现了高效的FP8混合精度效果无损训练技术。

在分布式并行策略层面,提出了动态自适应的显存卸载策略,实现存算最优均衡,结合飞桨创新设计的显存友好的流水线并行调度,进一步降低显存开销。

对于大规模集群训练场景,借助框架原生的容错能力,实现了大规模集群训练容错系统,可在不影响训练效率的前提下在线监测静默数据损坏等难以察觉的故障,并实现了高可用的检查点容灾方法,降低中断恢复损失。

经过优化,文心X1.1及4.5系列模型均获得了优异的性能表现,并在ERNIE-4.5-300B-A47B上取得了47%的MFU。

从实验室的技术突破到行业应用的工程实践,飞桨正在全面降低大模型训练、推理、部署、服务的应用门槛。可以说,这种框架与模型的深度联合优化,正是百度在大模型技术路径上的特色和优势之一。

1

结尾:

通过对文心大模型X1.1的深度评测,我们观察到这一产品的技术进步背后,实际体现的是百度四层AI架构的协同作用。

从昆仑芯片、飞桨深度学习平台、文心大模型到应用,百度在技术栈的各层都有领先业界的关键自研技术,实现了层与层反馈,端到端优化,大幅提升效率。在框架层,飞桨是百度自主研发的中国首个开源开放的产业级深度学习平台,包括核心框架、产业级模型库、开发套件、工具组件,以及学习和实训社区,能够标准化、自动化地支撑模型生产和应用。在模型层,文心系列在模型层承载了迭代式混合强化学习等算法创新,应用层产品则实现了技术能力向用户价值的转化。

大模型能力的扩展和效率的提升,带来了更前瞻、更有想象力的创新应用。本次WAVE SUMMIT在发布X1.1的同时展示了慧播星数字人等应用层产品,体现了百度技术架构的实际应用价值。

慧播星背后是百度研发的剧本驱动多模协同的数字人技术,实现了语言、声音和形象的协调一致。在百度慧播星的应用实践中,数字人直播的线上表现超过了真人。此前,罗永浩数字人直播首秀GMV突破行业新纪录,部分核心品类带货量超过真人直播。可以说,这套数字人技术的落地应用正是基于文心大模型的最佳实践。

从技术发展路径来看,数字人等应用的落地过程实践了AI技术从通用能力向专业的转化机制。通用大模型语言提供理解和生成的基础能力,通过特定领域数据的精细化形成专业化功能,最终以产品形态服务于具体行业场景。

这种技术转化路线体现了应用百度在AI产业化中的技术架构,从底层硬件到上层应用的各个方面都对整体技术能力的提升从发挥作用,构成了技术研发到商业应用的完整应用链条。


点个爱心,再走 吧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。