当前位置: 首页 » 资讯 » 科技头条 » 正文

持续烧钱的大模型,阻挡不了AI行业的热情

IP属地 中国·北京 编辑:陈阳 贝克街探案官 时间:2025-12-29 10:55:22
“不挣钱”确实是大模型行业内玩家暂时无法逾越的鸿沟,这个行业内的头部玩家们,一边在刷新人类智能的上限,一边在以惊人的速度烧钱,颇有一丝参数越大,亏损越深;能力越强,账越难算。

作者:贝克街探案官 鲁镇西

48小时内,智谱AI和MiniMax先后通过港交所上市聆讯,有人说这是大模型第一股之争,也有人说这是研制大模型的公司资金告急,无法形成盈利亟需二级市场输血。

根据财报,智谱2022年至2025年上半年,累计亏损超62亿元;MiniMax2023年、2024年分别亏损2.69亿美元、4.65亿美元,2025年前9个月亏损5.12亿美元,累计亏损超87亿元。

由此可见,不挣钱确实是大模型行业内玩家暂时无法逾越的鸿沟,这个行业内的头部玩家们,一边在刷新人类智能的上限,一边在以惊人的速度烧钱,颇有一丝参数越大,亏损越深;能力越强,账越难算。

当市场还在讨论谁的模型更聪明时,一个更残酷的问题,如果连最聪明的机器,都算不清这笔账,这还是一门好生意吗?一个长期亏损、短期看不到盈利的行业,是否仍然值得投入?

01 真正的科技浪潮,都曾长期亏损

每一次科技变革的风口来临之前,没人能预见风往哪吹,只有坚持长期主义,并且持续稳定投入的玩家,才能迎来那阵风。

比如亚马逊,在1997–2001年,亚马逊连续5年净亏损,2000年互联网泡沫期间,股价从113美元跌到6美元,至2003年才首次实现全年盈利,公司成立10年,累计亏损超过210亿元。

华尔街在亚马逊盈利之前,认为亚马逊的物流资产太重,毛利率太低,无限扩张也没有盈利纪律,所以断言亚马逊不可能赚钱,它卖得越多,亏得越多。

但在2019年开始,无论华尔街的精英们是因为换了一代人,还是因为看到了亚马逊的增长空间,开始合力将亚马逊的股价推至2万亿美元,超越微软,一度成为全球市值最高的上市公司,虽然目前再度被苹果、英伟达和微软反超,但亚马逊的价值已经被市场承认,目前市值稳定在2.5万亿左右。

2022年,特斯拉进一步引入占用网络技术(OCC)以提高智能驾驶的动态障碍物识别和复杂场景泛化能力;2023 年,特斯拉端推出将感知-决策-控制全流程整合为端到端一体化架构的智能驾驶解决方案。

在特斯拉的扰动下,智驾行业纷纷引入大模型,并演进出模块化端到端与一体化端到端的技术路径之争。

模块化端到端方面,2024年4月华为发布设计为GOD感知网络+PDP决策网络+本能安全网络的乾崑ADS3.0架构,采用三网协同的端到端大模型,通过GOD提供无损感知数据、PDP进行拟人决策、本能安全网络兜底应急的策略,形成感知-决策-安全闭环。

2024年5月小鹏发布国内首个量产端到端大模型XNGP+,整合神经网络XNet、规控大模型XPlanner和大语言模型XBrain三大板块,XBrain由感知模块XNet2.0和规划控制模块XPlanner构成,二者通过神经网络直接连接实现模块间的深度耦合,通过三网融合形成了小鹏自己的端到端智驾大模型。

一体化端到端方面,2024年10月理想推出OneModel端到端+VLM双系统架构,通过单一模型端到端架构(One Model)实现从传感器输入到行驶轨迹输出的全链条直接映射,同时引入视觉语言模型(VLM)构建双系统并行框架,利用VLM的认知推理能力规范端到端模型的行为下限,从而在拟人化驾驶、复杂场景处理和安全冗余层面实现突破。

大模型在智驾领域取得的成就,再次推动算力领域的投入,包括车载算力芯片研发和云计算储备,这也是大模型行业内玩家一直亏损,却一直有投资的主要原因之一,就是可以推进多行业融合,实现多行业共同迭代。

梳理上述模型不难发现,当前全球大模型仍以Transformer的decoder-only架构为核心主流。尽管近年来陆续出现如Mamba、KAN等新型网络结构,但尚未在工程实践中形成主导地位,Transformer体系依旧占据核心位置,短期内,Transformer仍将是大模型研发与优化的基础框架,其生态与工具链优势将继续巩固主导地位。

目前有可能挑战Transformer架构的,就是Sora搭载的Diffusion架构,只不过该架构主要用于图像与视频生成。

2024年初Sora的发布,展现了Diffusion与Transformer结合的潜力,显著提升了视频生成的一致性、分辨率及时长表现。25年5月,Google首次尝试将Diffusion算法用于文本生成,发布Gemini Diffusion预览版,字节随后也推出Seed Diffusion以跟进相关方向。目前有观点认为,字节Seed Diffusion Preview性能超过Google Gemini Diffusion。

而国内企业由于算力受限,不得不进行创新性架构优化,抓住Attention本质,以阿里、DeepSeek最具代表性。

从当前技术演进看,Transformer架构在中短期内仍将是主流,其核心算法Attention机制(通过计算Tokens间相关性以预测最优输出),构成了模型性能的关键环节。因此,国内头部厂商普遍聚焦于Attention层面的优化与创新,其中以阿里的Qwen系列与DeepSeek的模型为典型代表。在算力约束难以短期突破的情况下,架构创新与算法精炼将成为国内基础模型竞争的主要方向。

以DeepSeek V3.2为例,DeepSeek V3.2-Exp 在性能上与上一版 V3.1-Terminus 差距不大,并将 V3.2 定位为迈向新一代架构的中间步骤。V3.2最大的进步体现在DSA(Dynamic Sparse Attention)的引入,模型训练与推理效率显著提升,相比上一代模型API输入与输出成本分别下降约50%与75%以上(推理成本)。

DSA的核心优化集中在Attention机制层,通过算子级与内核级的工程化重构,在长上下文任务中显著压缩训练与推理开销,同时尽量保持模型性能稳定,延续了以架构精修换取综合效率提升的技术路线,该版本体现出在算力约束下的务实取舍,既为后续架构演进奠定技术基础,也展示出国产模型在底层优化方面的持续积累。

DSV3框架的成功,令很多模型在DeepSeek V3框架引入针对性架构优化,如Kimi K2,K2主要改进包括验证在激活参数不变的条件下,单纯提升MoE总参数量依然符合Scaling规律,训练与验证loss持续下降且无过拟合迹象;适度减少Attentionhead数量,在保持性能稳定的同时显著降低算力开销;仅保留首层dense层,其余全部采用MoE结构,以改善首层router负载不均并提升专家利用效率;引入无分组的简化router,优化计算路径与参数调度;将模型参数从V3的671B提升到1T;引入MuonClip优化器,显著提升训练稳定性与收敛一致性。

得益于上述改进,K2在维持与DeepSeekv3相当的训练与推理成本下,实现了更低loss 与更高参数效率。K2的路径体现了国内团队在算力约束下通过结构精修延展Scaling规律、提升模型性价比的工程化思路。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。