DeepSeek杀出一条血路：国产大模型突围不靠运气！

IP属地中国·北京 编辑：吴婷高见观潮 时间：2025-12-03 10:55:55

从注意力到Agent，能力跃迁的底层解法。
作者｜高见观潮高恒
进入2025年末，全球大模型赛道的技术焦点几乎被Google重新夺回。Gemini 3 Pro横空出世，在多个权威基准上超越所有开源模型，重新确立了闭源阵营的技术高地。一时间，业内关于开源模型是否已到极限Scaling Law是否真的撞墙的质疑声再起，一股迟滞情绪在开源社区弥漫。
但就在此时，DeepSeek没有选择沉默。12月1日，它一口气发布了两款重磅模型：推理性能对标GPT-5的DeepSeek-V3.2，以及在数学、逻辑和多轮工具调用中表现异常强势的Speciale版本。这不仅是对技术能力的集中展示，也是在当前算力资源并不占优的前提下，对闭源新天花板的正面回应。
这不是一次简单的模型更新。DeepSeek试图在后Scaling时代找出一条全新路径：如何用架构重塑弥补预训练差距？如何通过工具使用中的思考链实现低token高效率的智能体表现？更关键的是，Agent为何从附属功能变成了模型能力跃迁的核心引擎？
本文将围绕这三条主线展开分析：DeepSeek是如何在技术瓶颈下突破的？为何率先在开源阵营中重注Agent？而这是否意味着，开源模型仍有穿透闭源护城河的那条路？
一、从落后到并跑，DeepSeek靠什么杀入第一梯队
在顶级AI模型的竞技场中，开源选手一直被认为只能追平，难以真正对抗。但这一次，DeepSeek-V3.2交出的成绩单，已不再是追赶者的姿态。
根据DeepSeek官方公布的数据，V3.2在公开的推理类基准测试中，已全面对标GPT-5，仅略低于Gemini 3 Pro。在多个关键评估中，它不仅稳定胜出Kimi-K2-Thinking，还成功刷新了国内开源模型在推理能力上的最高纪录。在数学、逻辑、复杂问答等任务中，DeepSeek-V3.2的表现接近闭源领先模型，已足以跻身全球第二梯队的头部。
这背后的关键，并非大模型继续放大就能解释。DeepSeek的突破，核心在于对底层架构的重塑，尤其是稀疏注意力机制（DSA）的引入。传统Transformer架构中，注意力机制对每一个token都要计算与前序所有token之间的关系，其计算复杂度呈平方级增长，成为大模型推理中的主要成本瓶颈。
而DSA所引入的闪电索引器（Lightning Indexer），则相当于在这场计算中装上了一套快速预判器它不再对所有token做全量注意力分配，而是通过极少量、低精度的索引头（可在FP8上运行）快速筛出最关键的token对，只对这些核心位置进行精算。这样的设计，使得模型的核心注意力机制从平方级复杂度降至近线性，即便在128K这样的超长上下文输入中，也能保持相对稳定的计算负担。
值得注意的是，DeepSeek在引入DSA时并未选择激进替换，而是采取了密集预热稀疏过渡的双阶段训练策略。在模型预训练的早期阶段，保留原始注意力结构，仅训练索引器模仿原始分布；而后再在后训练阶段逐步替换为稀疏结构，实现无中断切换。这种架构渐变式演进，让V3.2在长上下文推理中不仅效率提升，精度也未受损。、AA-LCR等长文本任务测试显示，V3.2在信息召回、上下文一致性和压缩表达能力方面的得分均有显著上升。
但更具行业价值的突破，并不止于此。DeepSeek在V3.2中首次提出Thinking in Tool-Use的工具使用范式，将模型的执行链条从思考→调用工具→结束改造为思考→调用→继续思考→再调用的交错逻辑。这种机制与近年来Agent领域提出的Interleaved Thinking方向高度一致，不仅提升了工具调用的逻辑持续性，也让模型能够在一次任务中反复复用推理中间状态。
这种能力，在真实的Agent场景中尤为关键。现实任务往往并非一步到位，而是需要多轮信息获取、验证与策略修正。如果每次调用工具都让模型失忆一次，就意味着它必须不断从头再推一次。而V3.2的做法，是明确将推理轨迹保留为上下文中的一部分，在工具返回新信息后，接续原思考路径继续向下延伸。这样的机制不仅减少了重复token生成，也大幅降低了因状态漂移造成的逻辑中断。
归根结底，DeepSeek的这轮技术跃迁，并非靠更大的FLOPs堆出来，而是靠更聪明地用算力。DSA让计算分配更有效，交错思维让工具调用更稳定，两个维度共同指向一个目标：让模型真正成为一个可持续思考的智能体，而不仅是一个大号的语言补全器。
这也意味着，在规模红利见顶之后，未来模型的竞争焦点，将逐步从参数多少回归到思维组织力与能效比。而V3.2，恰好是这一转向的早期注脚。
二、押注Agent，不是跟风，而是战略拐点
相比模型性能上的技术突破，DeepSeek-V3.2在战略路径上的最大变化，是它将Agent能力与推理能力并列，明确写入技术文档的核心指标。这是过去国内开源模型几乎未曾公开强调过的方向调整。在DeepSeek看来，Agent不再是工具调用的附属模块，而是模型能力释放与产业落地之间的桥梁，甚至是未来大模型平台化的前哨站。
这种判断并非脱离现实的技术浪漫。过去一年，大模型行业经历了一个重要转向：企业开始意识到，更聪明的聊天机器人带来的边际价值正在减退，真正具备动作能力的Agent，才是有望形成商业闭环的核心角色。从自动写报告、自动生成报表，到批量工单处理与代码修复，企业愿意为这些可执行的智能体付费，而不是为一句更像人类的话语买单。
这也解释了为何DeepSeek在V3.2后训练阶段投入大量资源打造Agent训练体系，并自建了一套规模化的任务生成流水线。据官方披露，团队为此合成了超过1800个智能体环境，并围绕Agent任务设计了约85,000条高复杂度任务提示。这些任务并非来源于人工标注，而是通过环境构建器与轨迹评分机制自动生成，并借助强化学习形成闭环训练。
这种做法跳出了传统预训练依赖海量对话语料的思路。相比之下，Agent任务轨迹具备更强的结构性、验证性和稀缺性。一旦构建完成，训练效果将远优于常规对话式补全。更关键的是，强化学习机制使得模型能力可以不断通过反馈回路优化，而不再受限于预训练阶段的单向迭代。
DeepSeek在训练中采用了自研的GRPO（Group Relative Policy Optimization）策略，并对其进行了深度本地化适配，以适应大规模多轮任务训练。在这一过程中，模型不仅需要优化单轮产出的合理性，更要平衡多轮任务中的推理一致性与语言表达稳定性。为避免传统RL中灾难性遗忘的问题，DeepSeek将推理奖励、语言一致性得分与任务完成度打分整合为多维奖励信号，使得模型在训练中持续保持Agent执行链的完整性。
而要支撑这一复杂的训练机制，模型自身的状态感知能力也必须同步升级。V3.2在架构中引入了完整的上下文管理策略：模型只会在用户发出新消息时重置思考状态，而在连续的工具调用过程中，其推理轨迹将被完整保留。这意味着模型可以持续积累思维残留，在工具返回新信息后继续推理而非重启逻辑。这种状态延续机制成为Agent多轮行为连续性的重要保障，也使得模型能胜任更复杂、跨阶段的任务拆解。
从系统逻辑上看，DeepSeek对Agent的理解已从任务执行插件上升到了模型操作系统的组成部分。它不是一个外挂，而是模型核心运行结构的一部分。这种系统观的转变，意味着未来大模型平台的形态将趋近于一个调度操作系统：模型本身是OS内核，Agent是用户态的执行程序，插件工具则成为可调用模块。谁掌握了Agent层的标准，谁就可能在AI时代掌控平台话语权。
这也是为何DeepSeek试图主导交错式思维+工具使用的统一范式，并提出Thinking in Tool-Use这样的底层设计语言。这不仅是技术细节的不同，更是一种平台思维的显现。
对行业而言，DeepSeek的这一轮转向标志着一个新的分水岭：Agent能力不再是工程团队可做可不做的附加选项，而是模型构建路径中的核心分支。是否具备平台级Agent能力，已经成为衡量模型中长期竞争力的关键指标之一。
三、开源模型的极限在哪里？DeepSeek的后训练战术试图给出答案
尽管V3.2和Speciale在多个基准上实现了开源从追赶到并跑的逆转，但DeepSeek在技术报告中也坦言：开源模型与闭源系统之间的差距，仍在某些关键维度上被进一步拉大。尤其是在知识广度、极复杂任务处理能力以及token生成效率上，开源体系仍受限于资源、数据与预算。
DeepSeek选择并不掩饰这些局限，而是以极具可执行性的策略给出了回应：如果资源拼不过，就从方法入手，把训练过程做深。
这一策略的核心，是其独有的后训练三件套：专家蒸馏 + 多轨强化学习 + 工具思维机制融合。
首先，是专家蒸馏（Expert Distillation）。在大多数模型仍以通用数据混合训练为主时，DeepSeek为V3.2量身打造了六类专家模型，覆盖数学、编程、逻辑推理、通用Agent、Agent编程和Agent搜索等核心能力域。每一类任务均有一组专属模型，在自有数据集和生成轨迹中强化单一技能。这些专家并不直接部署，而是用来生成高质量训练样本，反哺主模型。
随后，这些任务专精模型产出的数据，会被统一用于训练一个通用模型。在技术上，这相当于用多个极致偏科的学霸反向喂养一个全面发展的全才，既避免了多任务训练中的能力稀释，又保留了不同任务之间的结构联通性。
第二层，则是强化学习（RL）的扩展升级。DeepSeek延续了V3.2-Exp中的GRPO（Group Relative Policy Optimization）策略，并在数据与奖励结构上进一步升级。模型不仅要完成任务，还需同时优化语言质量、推理链逻辑合理性与对工具的自然调用能力。整个后训练阶段的算力投入，占比已超过了预训练预算的10%，在开源模型体系中极为罕见。
更重要的是，强化学习过程中并非依赖人类评分，而是通过任务环境自带的反馈机制与rubric自动评分。这一设计使得模型训练不再受限于人工对齐数据，而是进入结构化任务-自动评分-行为优化的闭环学习路径，也因此形成了比Chat数据更稀缺、但更具复用性的模型能力。
第三层，是工具使用与思考链的融合机制。在训练初期，模型往往无法理解什么时候该调用工具、何时该继续思考，导致推理轨迹断裂、逻辑中断。为此，DeepSeek为V3.2设计了一套冷启动系统提示，在思维轨迹中自然嵌入工具调用的示例，使得模型逐步学会在多轮任务中带着工具思考，而非思考完才调用工具。
此外，整个上下文状态也被重新设计：工具调用不会中断思考内容，用户新输入才会触发清除。这一策略显著降低了token冗余，也避免了每轮任务都从头开始推理的问题。
这些技术设计看似工程化，其实都指向一个本质问题：在参数量和训练规模受限的前提下，开源模型如何提升单位token的智能密度。
DeepSeek给出的答案是，把资源尽可能压缩在推理链条的关键路径中，让每一轮推理都尽可能多带信息，尽可能少重复。这不是规模的胜利，而是方法的胜利。
当然，即便如此，DeepSeek仍未完全填补开源与闭源之间的知识鸿沟。官方报告也指出，V3.2的世界知识广度与最新闭源模型仍有差距，Speciale模型虽然在复杂竞赛中表现突出，但token开销显著增加，尚不适用于泛化日用场景。
但如果说Gemini 3 Pro代表了闭源阵营对更大、更快、更强的继续探索，那么V3.2与Speciale所代表的，或许是一种更轻、更稳、更聪明的新路径。在行业对Scaling Law前景仍存争议之际，DeepSeek正试图以更强的推理组织力、更少的资源消耗、以及更高效的训练范式，重构开源模型的竞争秩序。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主

雷军：下一辆车要买新一代小米SU7，目前常开影青色YU7

全站最新

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

热门推荐

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主

说法丨规范二手交易打通流通堵点

说法丨规范二手交易打通流通堵点

雷军：下一辆车要买新一代小米SU7，目前常开影青色YU7

NVIDIA发福利：突袭发售原价RTX 50公版卡！几分钟即被秒光

腾讯元宝10亿红包刷爆朋友圈，已有19人抽到万元小马卡

1月新势力销冠之争：问界千辆优势险胜小米

直播电商常态化监管需紧抓重点

AI数据中心致美国天然气发电大增，全球温室气体排放或破纪录

H200松绑无人在意，国产芯片接棒主力

国内首个！东南大学发布混凝土材料垂类大模型，南京北站已应用