11月3日消息,“2025百度十大科技前沿发明”正式发布。今年发布的前沿发明涵盖大模型、深度学习框架、AI算力、智能体、AI搜索、数字人、无人驾驶等AI技术突破,展现百度AI应用加速走向效果涌现背后的底层创新实力。
百度首席技术官王海峰表示,当下人工智能已融入人们的生产生活,效果正在涌现。作为以技术立身的人工智能公司,百度始终站在AI创新前沿,人工智能全领域专利连续7年排名国内第一,生成式AI和大模型专利申请量中国第一、全球领先,深度学习专利申请量全球第一,高级别自动驾驶专利族全球领先。百度重视通过专利保护自主创新成果,也致力于推动成果转化,为产业,为社会创造价值,将AI的便利与价值带给每一个人。

百度首席技术官王海峰
当前,国家政策支持AI大模型广泛应用,深入实施“人工智能+”行动方案,人工智能迎来爆发式发展阶段,AI技术加速迭代,应用加速落地效果涌现。百度持续自主创新,攻关人工智能关键核心技术,积累自主知识产权,以前沿创新引领产业的发展趋势。
据介绍,百度发布的2025十大科技前沿发明,包括“自回归统一建模的原生多模态大模型”、 “大模型训练全流程高效容错技术”、 “剧本驱动的高说服力数字人技术“、“基于多智能体协同的AI搜索引擎”、“蒸汽机(文心专精)音视频一体化生成大模型技术”、“从芯片到集群的跨层级训推一体AI基建系统性技术”、“兼容端到端轨迹方案的自动驾驶横纵联合控制技术”、“信息流端到端内容理解与序列生成技术”、“飞桨科学计算高效求解技术”、“基于智能体的自进化应用生成技术”。
这些前沿发明是AI行业新技术趋势的重要反映,多模态、多智能体协同、大规模集群训练、高说服数字人等均是今年最前沿的技术方向。如“大模型训练全流程高效容错技术”攻克集群训练中故障定位与召回恢复两大关键难题,已成功应用于文心大模型系列的高效稳定训练,万卡集群任务训练有效率超98%,处于国际领先水平。“信息流端到端内容理解与序列生成技术”突破现有推荐系统中内容理解与分发模型相互割裂的局限,构建了“理解生成-分发反馈-再理解生成”的自增强闭环,已推动Feed业务大幅增长,并落地百度地图、电商等众多场景。据悉,该发明所在“心流”团队曾于9月获得今年百度最高奖。
十大科技前沿发明中,不少技术已支撑百度AI应用实现效果涌现。“剧本驱动的高说服力数字人技术”,推动数字人技术进入高质量、低成本、广应用的普惠时代,使数字人具备超拟真、高表现力、AI大脑自主决策、剧本智能创作等特性。该技术曾支撑近期爆火的罗永浩数字人直播首秀创下GMV5500万元行业纪录;“兼容端到端轨迹方案的自动驾驶横纵联合控制技术”支撑了Apollo领先的控制技术方案,大幅提升自动驾驶车辆的安全性和乘坐舒适性,助力萝卜快跑全球化落地。萝卜快跑已累计提供超1400万次出行服务,安全行驶里程超2亿公里;“蒸汽机(文心专精)音视频一体化生成大模型技术”支撑百度蒸汽机提供分钟级优质画质与大师级运镜控制能力,同时大幅降低视频生成成本,该技术已在搜索、文小言等业务采用,同时对外赋能,在影视创作、营销推广等场景展现应用潜力。
得益于十余年技术投入,百度在AI领域积累了丰硕创新成果。根据工信部电子知识产权中心、国家工业信息安全发展研究中心于2025年3月发布的《2024生成式人工智能全栈技术专利分析报告》,百度以大模型为核心的生成式人工智能专利申请量2950件、授权量1371件,领跑国内创新主体。百度积极推进人工智能的专利产业化,加速创新成果落地转化,为产业创造价值。近期,百度建设的人工智能(大模型)产业知识产权运营中心入选国家知识产权局首批产业知识产权运营中心名单,代表百度AI大模型技术实力与知识产权能力获双重认可。
据悉,以“效果涌现”为主题的百度世界2025将于11月13日在北京召开,百度将公布AI应用、大模型、智能云、无人驾驶等业务的最新进展。届时,不少“十大前沿发明”技术将在这些新发布中有更为具体的落地展示,同时也将见证这些前沿技术能力持续外溢后迎来效果涌现时刻。

百度2025十大科技前沿发明,具体如下:
1、自回归统一建模的原生多模态大模型
本发明是新一代文心大模型的核心技术,提出了业界首个能够同时支持语言、图像、视频、音频统一建模的多模态大模型技术框架,实现了多模态原生统一的融合建模,可同时支持任意模态的理解与生成;在此基础上构建了一种面向大模型的奖励系统,为多环境多任务场景提供高质量的强化学习奖励信号。基于本发明的新一代文心大模型,在各模态任务上较上一代模型均有显著提升,可支持更加广泛的应用场景,同时奖励系统显著提升了并发能力并降低响应时间,推动大模型能力的持续快速进化。
2、大模型训练全流程高效容错技术
本发明提出了大模型训练高效容错技术,构建了完备高效的软硬件故障自动召回定位恢复体系,创新性地提出基于大模型通信行为的全场景故障定位方法和零损失训练快照机制,攻克了集群训练中故障定位与召回恢复两大关键难题。同时,通过研制层次清晰、架构合理的容错接入体系及全流程测试框架,在大模型训练过程中实现了高效部署与验证,显著提升故障恢复效率,降低系统故障概率。该发明已成功应用于文心大模型系列的高效稳定训练,万卡集群任务的训练有效率超过98%,处于国际领先水平,显著提升资源利用效率,加速模型训练迭代。
3、剧本驱动的高说服力数字人技术
本发明构建了高说服力数字人方案,依托数字人视频生成大模型基座,设计了多模协同、高表现力、超长时长的数字人视频生产方案,涵盖可控视频生成技术、超拟真唇形驱动技术、剧本智能创作和AI大脑自主决策4个核心能力,突破大表情/大动作、音容话一致、人-物-场复杂交互等一系列业界难题。基于该发明的技术创新,推动数字人技术进入高质量、低成本、广应用的普惠时代,不仅使数字人表现超拟真,还具备了AI大脑,灵活调度助播、场控、运营等角色共同促进转化,真正实现了一个人就是一个营销团队。基于该技术打造的罗永浩数字人直播间,成为业界首个双数字人互动的直播,单场GMV超过5500万元,后验数据全面超真人。
4、基于多智能体协同的AI搜索引擎
该发明创新性地提出了一种AI搜索引擎技术,其核心框架 DeepSearch 以Master-Planner–Executor-Generator 四层智能体体系为技术底座,模拟人类信息处理的 “感知–规划–执行–生成”全流程,动态适配从单轮事实查询到复杂多阶段推理的全场景需求。AI搜索引擎,系统地融合显式任务规划、动态工具调用与实时反思机制,为新一代智能搜索提供了核心技术支撑。该发明已在百度文心助手中全流量落地,支撑文心助手复杂问题拆解、富媒体呈现、MCP调用、个性化满足、深度研究等多项关键能力,显著提升日活跃用户和用户留存;同时,该AI搜索引擎能力已对外开放赋能广大合作伙伴。
5、蒸汽机(文心专精)音视频一体化生成大模型技术
本发明是全球首个中文音视频一体化生成模型,通过多模态信息的精准同步与自然交互,支持分钟级多人有声音视频生成与交互;该发明由自回归扩散建模、有声一体化训练、高性能训推优化三大技术核心构成;通过极致的中文场景高质量数据清洗与结构化描述、训推一致性优化,调教支持长视频生成基座;搭载首创的Latent Multi Modal Planner技术重构生成逻辑,实现视频的全流程有声一体化生成;极致工程优化突破传统扩散模型限制,压缩视频成本,满足生成实时交互。该发明提供分钟级优质画质与大师级运镜控制,大幅降低影视创作、营销推广等场景的制作成本,提升效率。相关技术对内赋能商业内容生产、搜索妙笔、内容生态、feed短篇、文小言、AI助手等业务,推动百度AI视频生态繁荣;对外凭借其长视频实时交互生成能力,将AI视频从“单向生成”引入“双向共创”新阶段,引领视频生成领域创新方向。
6、从芯片到集群的跨层级训推一体AI基建系统性技术
本发明提出了从芯片到集群的跨层级协同优化、训推一体的 AI 基建系统性创新技术,计算架构上,首创 UltraServer 柜级超节点,兼容多卡;自研 XPU Link与PD分离架构,全栈优化软硬件协同;存储系统上,自适应元数据架构突破大规模管理瓶颈,专属KV Cache加速方案适配 AI业务;网络技术上,推理专属 2 跳可达架构+弹性 eRDMA,构建低时延传输通道;云原生能力上,全链路智能运维(异常自感知/诊断/恢复),AI网关增LLM智能路由。基于本发明成功构建起完备的AI基础设施技术体系,在计算方面,XPU Link带宽提升8倍,MoE单节点性能提升5-10倍;PD分离使 Decode/Prefill阶段的整体性能预计可分别提升95%和36%;在存储方面,支持千亿级文件,空间利用率超90%;网络时延压至4微秒;实现5000节点集群分钟级故障自愈。
7、兼容端到端轨迹方案的自动驾驶横纵联合控制技术
本发明提出了一种可兼容端到端轨迹方案的自动驾驶横纵联合控制技术,基于车辆的横纵耦合动力学,设计线性时变模型预测控制器,实现车辆运动的横、纵向联合协同控制,模型假设近似更少,对上游数据依赖更少,横纵向指令更加稳定,实现对传统方案的升级和超越。该发明可完美适配Apollo ADFM的端到端上游轨迹方案,大幅提升安全性和乘坐舒适性,对于低速横向晃动幅度可优化70%,100%消除弯道横向抽动的控制问题,使自动驾驶车辆的动态响应更加接近经验丰富的驾驶员的操作习惯,实现了真正意义上的拟人化控制,保证了Apollo控制技术的领先,有效支撑萝卜快跑全球化战略,助力萝卜快跑驶入香港、迪拜、阿布扎比等全球16座城市,截止8月,萝卜快跑累计提供超1400万次服务,安全行驶里程超2亿公里。
8、信息流端到端内容理解与序列生成技术
本发明突破了现有推荐系统中内容理解与分发模型相互割裂的局限,首创端到端多模态内容理解与序列生成技术,构建了“理解生成-分发反馈-再理解生成”的自增强闭环。通过全新的多模态语义对齐和动态Token统一量化技术,融合用户快慢反馈,将多模态知识对齐与生成式行为建模深度融合,实现Feed信息流系统从记忆检索,迈向深度理解生成推理的新阶段。该发明已应用于信息流推荐业务,完成了生成式信息流系统重构,全面提升了对内容资源的多模态理解能力与个性化生成效果,大幅推动Feed业务增长;并落地百度地图、电商、搜索等众多场景。
9、飞桨科学计算高效求解技术
本发明基于飞桨的科学计算核心技术,通过组合算子拆分、高阶自动微分、符号表达式的推理和神经网络编译器技术,实现了微分方程的高效求解,解决了科学计算场景高阶微分方程求解的难题。本发明的微分方程求解速度较传统方法提升2到4个数量级,比PyTorch提速115%,被国际知名微分方程求解库DeepXDE唯一推荐;已在飞桨框架中实现,集成于PaddleScience、PaddleCFD等产品,并实现产业化应用。本发明技术支持中科院力学所、大气物理所、苏州实验室等近20所高校与科研机构协同创新,应用于上海交通大学支撑其“AI for Science”科学数据开源开放平台建设;应用于中车集团“斫轮”大模型,研制出空气动力学仿真大模型“斫轮•风驰”,加速科学计算领域的创新发展。
10、基于智能体的自进化应用生成技术
本发明以大模型与强化学习为核心,构建了由“需求模型、代码模型、创意模型”组成的三重自进化学习架构,通过自然语言理解用户需求,经由代码模型实现高质量代码生成,并在用户反馈与强化学习机制下形成持续优化的数据飞轮。基于该发明技术的系统不仅能执行代码生成任务,更能在实践中自我学习、逐步提升智能水平,真正实现“越用越聪明”的AI开发助手;其多模型协同机制与端到端轨迹学习技术,打破了传统无代码平台的静态瓶颈,形成可持续演化的智能体编程体系。单应用从开发到上线,由传统的大约4人周、2万元缩减到小于1小时、低于50元,纯无代码生成应用已达到38万。(果青)





京公网安备 11011402013531号