当前位置: 首页 » 资讯 » 科技头条 » 正文

只用国产GPU训练的大模型性能飙升100%!国内唯一,更懂你

IP属地 中国·北京 新智元 时间:2025-11-07 00:13:55


新智元报道

编辑:编辑部

刚刚,唯一全国产算力训出的大模型重磅升级,推理效率飙升100%,数学能力国际领先。当全球巨头还在云端「卷」算法时,中国队则亮出了软硬一体这一截然不同的底牌。

时至今日,在中国主流大模型中,讯飞星火仍是「唯一」基于全国产算力训练的通用大模型。

而就在刚刚,他们在发布会上宣布,通用大模型国产算力训练的两座大山,被攻克了——

·长思维链强化学习训练效率

·MoE模型全链路训练效率

同时,全新深度推理大模型——讯飞星火X1.5,也正式发布!

基于MoE架构的星火X1.5,总参数293B,激活参数30B。

相较于上一代,推理效率直接暴涨100%。

根据多项国内外权威评测基准,星火X1.5的综合性能成功跻身全球顶级大模型行列。



此外,讯飞还全球首发了非自回归语音大模型架构——不仅效果提升了16%,而且推理成本也暴降了520%


从年初DeepSeek横空出世,到OpenAI的GPT-5,AI全球竞赛整整一年没有停下。

技术的迅猛发展和应用场景的不断拓展,推动了AI从探索阶段走向了实际落地的关键时刻。

如何落地,如何激发AI开发者无限创造力,如何让普通人也能共享AI时代的发展红利?

科大讯飞董事长刘庆峰给出了一个清晰的洞见,AI红利兑现的四大关键核心:自主可控、软硬一体、行业纵深和个性化。

AI进入物理世界的关键门票

AI的上半场是对话革命,是算法的狂欢。

在数据中心里,Token正在疯狂消耗,AI的能力在一年内增长了千倍上万倍。

这催生了无数AI大脑——它们在云端无所不知,能写诗、能编码、能通过法律和医学考试。

然而,当这些聪明的「大脑」试图走出数据中心,进入真实的物理世界时,它们突然变得「五感失灵」。

现实世界不是无菌实验室,它充满了混乱:

嘈杂的背景音(噪音)、十米开外的指令(远场)、模糊的口音、混乱的多人对话(多模态),以及每个用户独一无二的需求(个性化)。

纯软件的AI模型,在处理这些「物理世界的复杂信号」时,表现得一塌糊涂。

当行业在「纯软」的死胡同里打转时,科大讯飞选择的是一条能够让AI在真实世界应用落地的路。

他们在全国产平台上,将硬件能力和大模型深度对接,一步一个脚印地死磕AI进入物理世界的关键门票——软硬一体。


科大讯飞以智能语音起家,将这项能力长板硬件业务重塑为「未来AI的基石」。

人类想要感知物理世界,最重要的就是听、说、看,而AI算法再强也无法绕过声学与光学规律。

首先是「听」

讯飞原创的多型麦克风阵列,通过AI的测算和动态调节激活部件,实现了语音属性的解耦,信号的时空分离,不同位置声源的精准定位,自适应背景降噪,回声消除,以及说话人分离等技术。


在应用这项技术的讯飞智能办公本X5上,高噪远场识别效果,远超iPhone17 Pro。


然后是「说」

讯飞AI翻译耳机在高噪环境的测试表现,也显著优于AirPods 3。

在地铁、展会等嘈杂环境的识别准确率高达97.1%,并且还首创了多感融合AI降噪系统,通过软硬件的结合让降噪效果变得更好。

更加科幻,甚至称得上是黑魔法的是,讯飞的双屏翻译机2.0在开启强降噪之后,可以形成穹顶式的隔音墙,把1米以外的人声和噪声全部隔离。

当1024节现场演示这项功能时,就像阿西莫夫所说,领先时代的科技看起来都和魔法无异,这不就是网络小说里的经常看到的能力结界吗~


不仅如此,讯飞还打造了业界首个同传麦克风,不仅可以进行实时同传翻译,而且还可收听翻译语音,时延低于2s。


讯飞的AI+扬声器阵列技术,可以说实现立体空间声场重构和均衡。


用于智能座舱声场的iFLYSOUND,目前已经在19家车企量产落地。

音响效果可以媲美国家大剧院,而在盲测中,10万级别的国产车效果就超越了宝马740i,甚至可以媲美百万级的豪车迈巴赫S680。


在教育领域,讯飞依旧持续发力。

最新的AI黑板可以让教室里每个座位都是C位,在10米的距离上,声压差小于等于3分贝,每个角落都可以听清。

而且这款AI黑板还采用了全球首款圆偏类自然光护眼大屏,不论坐在教室中央,还是坐在两侧的同学都能获得同样的上课体验。


讯飞将软硬一体的原生AI硬件能力下放到AI学习机上,不仅将护眼功能拉满,还能通过AI算法纠正孩子学习时的坐姿。


此外就是「看」,讯飞的自研AI摄像头阵列产品能够实现目标的精准识别和跟随。


这些和AI紧密结合的硬件能力,并不是存在于单一的模块。

不论是展馆中的智能屏摄像头,还是AI学习机上监看作业本的摄像头,不论是随身的耳机,还是未来汽车中的音响,讯飞将AI能力和硬件原生地绑定在一起。

讯飞的硬件不是简单的外设,而是为AI量身定制的「超级感官」。

当未来具身智能真正走入社会,和人类共同生活,软硬一体支撑的多模态交互是AI融入真实世界的物理基础。


别再说AI冰冷,它比真人还贴心

如今,我们身边有很多虚拟AI形象,但它们始终无法融入到我们的生活之中。

这背后关键因素在于,传统AI虚拟人并不具备多模态交互的能力。

它就像一个「冰冷的机器」,无法感知人的情绪,无法拥有个人专属记忆,更难以建立真实的情感连接。

要真正做到多模态交互,还需要具备以下几个关键要素——

麦克风远场识别、3D世界感知、多人主动交互、类人举止反馈、视听觉融合理解、超拟人数字人、个性化记忆、情感语义。


只有以上所有技术,综合联动耦合,这样的AI数字人就可以进入更加深度应用的空间中。

这一次,发布会上,讯飞基于星火X1.5深度推理模型之上,首发个性化记忆能力。

通过多源记忆库信息检索和应用,它可以找到个人记忆,并进行识别、提取、更新。

现场演示中,两位讯飞伙伴一位歪果仁朋友Henry和与虚拟人「小飞」,开启了多轮「有记忆、有情感、有温度」的对话。

他们一走到屏幕前,小飞一眼识别到新朋友,并自动切换语种——英语和Henry无缝交流,得体自然。

在三人的交流过程中,AI并不会无意间插话,而是认真做一个旁听者。这就体现了,在多人对话中,AI理解场景的能力。

接下来,小伙伴们又和小飞交流起发布会展区的实况。让其推荐一个适合翻译交流产品,它立即给出了建议——双屏翻译2.0、AI翻译耳机,以及在展区的位置和购买方式。

小飞还可以为Henry推荐安徽著名景区黄山,打卡美食臭鳜鱼,甚至还可以帮忙预订酒店、门票。

不仅如此,诸如对话时暂停、挥手再见等手势,小飞也能秒懂并回应,堪比真人理解力。

它甚至拥有独特的人性化记忆。当小哥说要当Henry的司机,小飞非常关怀地问道:

「我记得你前几天不太舒服,出去玩没问题吧?」

小哥当场描述自己的症状后——这几天有点受凉,流清鼻涕,让小飞帮忙辨别应该喝哪种药时,小飞会依据症状分析得出:吃荆防颗粒。

顺带,它还贴心提醒他们,未来几天黄山天气多变,需要增添衣物。


更有趣的是,让小飞扮演「林黛玉」,并总结为Henry制定好的旅行计划。只见,从音色、到形态,简直有模有样。

其实,不止林黛玉,讯飞数字人还可以模拟各种声音

发布会上,他们首发了「百变声音复刻」,一句话即可上演角色宇宙,实现真实的超拟人交互。


演示中,输入一句话,可以创造一个温暖的女声音色,也可以是一个嗓音粗犷的大将军音色。

超拟人数字人之所以能够实现流畅的多模态对话,不仅依靠前端麦克风、摄像头等硬件协同。

更重要的是星火所支撑的多轮对话、语义理解与生成能力,再结合个性化音色等,这些技术做到了深度融合。

正因此,才能让当前「同质化」大模型,真正转变为每个人身边贴心、实用的学习与工作助手。


更懂你的AI,告别千篇一律

所以真正的AI,不是千篇一律的AI,而是可以让每个人站在AI肩膀之上,懂你所需的AI。

每个人应当借助AI,成就更好的自己。


那么,要成为一个更懂你的AI,需要具备什么样的条件?

它能够满足一个人的成长需求、工作需求、生活需求,以及情感需求。

它还要具备历史记忆、人格特征、多维理解、专有知识的能力。


涵盖面如此之广,听起来又很抽象,不如我们就把它放入实际场景中,去看看「懂你的AI」究竟是什么样的?

批改纠错,小时级闭环

以教育为例,如何真正做到「理解孩子」,关键在于为孩子的学业减负增效,释放更多时间。

这背后,核心在于「懂学情」。

如今,在智能评分、分布骤批改作业、错因分析三座高峰,讯飞AI能力不断提升,并持续保持行业领先水平。


他们首创的「三级错因体系」,覆盖了4000+错因标签,可以让AI错因诊断水平超越普通教师。


这不,大会现场,「数学老师」拿着待批改的试卷,生动还原了一场真实的教学场景——课程内容是:二次函数与一元二次方程、不等式。

她将一摞学生试卷,放入星火批阅机后,便开始了高效的作业的扫描。它能以1分钟,扫描一个班级的量。


没几分钟,扫描和批阅几乎同时完成。

以第一位同学周恬(化名)的数学作业为例,在解答题部分,AI可以「分步骤批改」,并给出了错因诊断,以及纠正方案。




左右滑动查看

与此同时,随着学情不断累积,它还能直出历次的「学情报告」。

每一次学情状况,都会在知识图谱上动态呈现,还可以就一个知识点继续挖掘,从根本上精准解决薄弱点。


以上只是一个学生的学情,放大到整个班级,批阅机还会为老师生成一份整体的报告。

AI汇总了学生的「共性错因」,让老师可以对知识点讲解的轻重有一个更好的把握。


在上课时,AI黑板右下角就会浮现「AI教师助手」,它会根据刚才的学情报告,为老师提供相关的教学建议。


可以看到,从星火批阅机,到星火教师助手,再到AI黑板,可以做到完整联动。


老师从作业批改到教学,实现了「小时级」的闭环,为其规划出最合理的个性化教学路径。

医学能力跨越式突破

一个懂你的AI,还需要懂你的健康。

这意味着,它必须具备医学诊断能力,可以管理个人的健康档案,提供健康管理咨询等等。

讯飞「智医助理」就是这样一个懂你健康的AI。它是全球首个通过国家执业医师资格考试笔试测试,并真正投入一线应用的医学AI。

这一次,「智医助理」的能力再次升级,覆盖病种拓展至2500种,首诊合理度从95分提到98分以上,还新增了医学思维链循证推理和中医辅助诊疗。


假设调用一份真实的病历——引发热、心悸胸闷,就诊于内科45岁女性患者。

引用病历后,「智医助理」会主动提醒,避免因医生工作繁忙,会出现病历不规范的情况。

通过修正病历,AI系统会结合患者病情推出可能的诊断,同时给出下一步病情鉴别的建议。


而且, 点击诊断推理路径,可以清晰直观呈现「循证推理」的逻辑,可以帮助医生拓展诊疗思路。


当然,医生还可以参考推荐的内容,进行下一步的辅助问诊,比如输入「突眼」症状。由此,甲亢的病症可能性又增加了。




左右滑动查看

除此之外,升级的中医辅诊,结合权威的中医知识,根据患者症状,进行了辩证的论治。

如今,「智医助理」已覆盖全国801个区县,累计提供11亿次辅助诊断。

而且,星火医疗大模型专科AI能力,已经达到了等级医院「主任级医师」的水平。


在AI的加持下,人机协同已大幅提升医生诊疗服务能力,其中专科诊断合理率提升至96%,跨科室诊断提升至91%,病例书写时间减少一半。


同时,讯飞现场还发布了「智医助理医院版1.0」,覆盖了辅助诊疗、辅助会诊等多方面能力。

人人可用的晓医App同时升级,结合健康档案,提供用户及家人更专业、更个性化的健康洞察和管理建议,让看病问诊真实走向普惠化。

你的下一个副驾,会「读心」

接下来,如何把LLM集成到汽车中,让它在出行的过程中更懂你呢?

当你在车上冷到发抖时,它会秒开座椅加热、暖风空调;发现水坑挡路,它会立刻提醒「右侧有积水」;甚至开车不断眨眼的细节,它都能够感知,还贴心给出用药建议,下单滴眼液......

这样的AI,就像是把心灵感应功能刻在了DNA中。

它就是「星火智能座舱2.0」,做到了懂你、懂车、懂环境,这样的汽车才是真正的未来。


打工人终极外挂

还有在工作场景中,打工人需要的不只是一个会写调研报告的LLM,而是一个懂你岗位、风格、资料、同事的AI。

讯飞智能办公本,就是典型的代表。


现场,刘庆峰一边「布置作业」,办公本一边录音记录,还能随时做笔记。

同时,手写纪要还可以和AI纪要深度融合,手写的会议要点会在最后生成的纪要中强化展现,并且,所有的纪要内容可精准回溯至原始录音,核对更高效。

说话结束后,它会帮你自动转录,生成总结摘要,而且还会根据声音,备注出每个说话人的名字。

它还能准确提取待办事项,打工人直接加入日程,方便后续跟进了。


小彩蛋

最后,讯飞现场还放出了一个小彩蛋——AI星朋友。

每一个人,都可以拥有自己的「AI朋友」。它可以成为你的情绪树洞,也可以是你的人生队友。

AI星朋友有超160种人设模型定制,还能通过「自学习情感模型」记忆个人偏好,聊的越久就越懂你。

现在微信搜索“AI星朋友”小程序,即可创建懂你的声音、接听专属的温暖。

开源首个原生支持RAP的智能体平台

一直以来,讯飞坚信,只有整个生态的繁荣,才会有人工智能的大未来。

过去一年,开放平台的开发者增长了200多万,其中增长最快的是智能硬件开发者、大模型企业开发者。

此外,新型智能体的开发,有一半来自非技术领域。


AI走向落地,智能体是一个不可多得最佳应用案例。而这一年,我们也见证了诸多智能体AI的诞生。

发布会现场,讯飞面向开发者,正式发布首个原生RPA智能体平台——Astron RPA。

Agent+RPA可以跨越应用鸿沟,将「大脑」和「手脚」结合,跨越AI应用鸿沟;还可以有效打通企业内缺少接口的IT系统和账号体系。


软硬一体之争,谁是破局者?

过去一年,AI发展速度之快,已超越了历史上任何一次工业或技术革命。


如今,算法、算力、数据已成为基础设施。接下来,谁能让AI真正进入物理世界,谁就能定义智能的未来。

因为,只有AI落地,才是兑现红利的起点。过去几年,AI巨头们几乎都在同一维度上狂奔。

OpenAI用GPT系大模型掀起了认知智能革命,谷歌又用Gemini试图重塑多模态范式。

还有Anthropic、Meta、xAI、微软等玩家,各自拉起了模型矩阵。

它们不仅坐拥巨量的算力资源,还在算法创新上不断堆叠,这种路线的成就毋庸置疑——

ChatGPT、Gemini、Grok、Claude大模型,都代表了当前人机交互的新高度。

然而,在强大的大模型,离真实场景往往隔着一层「玻璃」,即落地的核心:AI能否真正兑现红利。

每一种场景,都在呼唤一种更深层次的多模态理解与交互。

要实现这一点,任何纯软件的方案——无论是手机App,还是云端模拟,都只是隔靴搔痒。

实际上,硅谷巨头们早已意识到了这一点,走向软硬一体,能否让技术「活」在用户手里才是密钥。

就以谷歌为例,其Gemini Nano已下沉到全新Pixel 10系「全家桶」。

不论是离线翻译、AI摘要总结,还是实时生成图像、智能拍照等场景,一部手机+端侧模型即可完成。

他们还专为模型,量身打造了Tensor芯片,直接将AI能力深度嵌入芯片和传感系统中,做到真正的原生AI体验。


微软PC全球生态覆盖超十几亿,其打造的AI助手Copilot,植入Windows系统提供了更智能的体验。

再比如,OpenAI多次爆出重组机器人团队,与博通联手定制AI加速器;特斯拉以物理世界为基础,将Grok植入擎天柱、自动驾驶「大脑」......

这些实践足以说明,没有软硬一体,智能永远悬在空中。

然而,放眼全世界,很多企业理解的软硬一体,更多地停留在了「堆叠层面」——

硬件是承载,软件是驱动,两者拼接即可。

但真正的软硬一体,是一种「认知协同」的系统。这,又该如何理解?

首先,模型算法必须理解硬件的输入特性,比如声音、图像、传感信号等。其次,硬件架构也要反向适配AI算法的反馈机制,包括延迟、功耗、推理路径。

更重要的是,系统还可以在多模态下自洽运行。

这也恰恰是大多数公司面临的瓶颈。它们在AI算法上极强,但在硬件生态上碎片化。

而传统硬件巨头,反之在算法层面缺乏统一的认知引擎。

AI国家队,全栈打通

在AI兑现红利的竞赛中,中国队的机会正在于体系化的整合能力。科大讯飞的路径,尤其具有代表性。

它并没有只押注算法,而是构建了一条从算力,到模型,再到硬件、多场景应用的全栈闭环。

作为认知底座,讯飞星火X1.5全新升级,在多语言、多模态等能力上持续迭代。它是唯一基于全国产算力训练的主流大模型。

还有自研的麦克风阵列、多模态模组等,构成了感知层的基础。

在声学层面上,通过麦克风阵列+视觉摄像头融合,在10米远、20分贝噪音下实现95%识别率,而行业平均只有20%。

这意味着,在课堂、汽车座舱、展会、工程等多种环境中,AI可以听清每一句话。

而终端设备,比如AI学习机、AI黑板、翻译耳机等矩阵,形成了「AI具身接口」。只有软硬一体支撑的多模态交互,才是AI融入真实世界的物理基础。

以AI黑板为例,讯飞将声学与视觉深度融合,重构教室光路,让「座座皆C位」。

其配备的24通道AI扬声器阵列,让教室前后声音差别只有3分贝,即便学生坐在最后排也能听得清楚。


软硬一体,更是讯飞构建行业壁垒的引擎。每一个设备,都是AI与真实世界的传感器。它可以让讯飞以行业为半径、以数据为飞轮持续迭代。

在教育领域,AI批阅机的「错因分析」体系,精确到4000+标签,准确率超普通教师,真正让「AI懂学生」。

在翻译领域,AI翻译机+耳机与听见APP联动,做到了2秒及时响应,复杂噪音下识别准确率破纪录。

这一切,都是讯飞的核心竞争逻辑,是别人难以复刻的模式。

因为,要在软硬一体上做到讯飞的深度,还需要三件事同时成立:


全栈自研体系:从麦克风阵列,到算力平台、算法框架等,全国产可控;

跨领域团队协同:硬件部门和研究院团队需要共线开发;

行业纵深:教育、翻译、医疗、汽车等行业连续多年落地深耕。


只有这三点叠加,才是讯飞壁垒的壁垒。

当别的AI还在对话框里回答问题,讯飞的AI,已经能在嘈杂环境中听清你、在屏幕前读懂你,并在世界行动起来。

他们正用自己的方式证明,AI应该是让世界真正「被理解」的技术。

当AI有了身体,有了温度,我们离那个真正「懂人」的智能时代,又近了一点。

参考资料:YXH

https://gitee.com/iflytek/astron-rpa

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新