大家好,我是春春。
DeepSeek 的新一代开放模型一亮相,外界盯住的多半是榜单、价格和参数,可真正值得细看的地方,恰恰不在热闹处。公开资料显示,DeepSeek 新模型预览版已经开放,专业版为一点六万亿总参数、每次激活约四百九十亿参数,轻量版为二千八百四十亿总参数、每次激活约一百三十亿参数,两者都支持一百万令牌上下文。
这件事没有去年那种“突然炸场”的冲击感。去年,上一代模型让全球市场重新估算中国人工智能的技术效率;这一次,市场反应反而平静了不少。可平静不代表不重要,路透社也提到,相比上一代带来的震动,新模型的战略意义更多落在国产硬件适配、成本下降和智能体能力上。
一年多没响声,不是消失,而是在啃硬骨头
从上一代模型到这一代模型,中间隔了很长时间。人工智能行业的速度太快,几个月就能让一个热门概念从聊天助手滚到视频生成,再滚到智能体。国产模型这一年也没有停下,智谱、月之暗面、阿里、腾讯等团队都在加速,把代码、推理、长文本、应用入口一层层往前推。
DeepSeek 在这一年里反而显得安静。安静最容易被解释成麻烦,于是各种说法冒出来:有人说团队被大厂围猎,有人说算力不足,有人说新模型被硬件适配拖住。可从公开发布的信息看,团队仍在持续扩张,技术路线也没有停在旧版本上。
这次真正麻烦的地方,是规模变大之后带来的训练稳定性问题。训练数据从上一代约十五万亿令牌扩大到三十三万亿令牌,数据规模翻倍,训练过程更容易出现不稳定。技术报告中也多次涉及稳定训练、优化策略和长上下文效率问题。大模型越往前走,难点越不只是“堆更多数据”,而是让庞大的系统在训练过程中不失控。
这就像造一座大桥,桥面更宽、跨度更大,不是多搬几车钢材就能解决。结构、受力、施工节奏,哪一环出问题,都会拖慢进度。DeepSeek 这次迟到,真正对应的是训练稳定性这块硬骨头,而不是简单的“没钱买卡”或者“被谁耽误”。
百万上下文,不是聊得更久,是能干整件事
很多人看一百万令牌上下文,只会想到省钱:不用把文件拆成一段一段喂给模型,接口费用能降下来。这个理解没错,但太浅。
百万上下文真正改变的是工作方式。一本书、一个代码仓库、一整套财报、一组法律卷宗,过去往往要拆开处理,模型看一段忘一段,前后关系容易断。现在它能一次吞下更完整的材料,开始处理一个真正意义上的完整工作单元。
这不是“多聊几句”的升级,而是从聊天工具迈向干活工具的门槛。智能体要替人写代码、查资料、改文件、做方案,前提就是它能记住足够多的上下文。连十几个文件之间的依赖关系都看不完整,所谓智能体就很容易变成一个会说漂亮话的壳。
智能体编码为什么被看重?因为它不只回答一个问题,而是要同时理解文档、代码结构、历史修改记录、测试结果,再给出一致的改动方案。上下文窗口越小,模型越像临时工;上下文窗口越大,它越接近一个能接手复杂任务的助手。
过去,长上下文是闭源前沿模型的高价功能。DeepSeek 把它带进开放模型体系,意义不只是“便宜”,而是把原本少数公司掌握的能力,推向更多开发者和企业。路透社报道称,这次新模型还伴随价格调整,并面向开发者提供折扣,轻量版和专业版都强调低成本长上下文能力。
人工智能越进入真实业务,成本越不是小事。一次调用看着不贵,放到几万名员工、数十亿次请求、全年业务流程里,就是一笔惊人的账。技术普惠不是口号,价格降不下来,很多创新只能停在演示页面。
DeepSeek 最特别的地方,也正在这里。它不只是把能力做出来,还把价格压到许多团队能够承受的范围。开放模型的价值,不是替某一家公司省钱,而是让更多学校、企业、开发者、普通创业团队都能摸到前沿能力的边。
国产芯片适配,才是这次更深的信号
这次发布最容易被低估的部分,是模型和华为昇腾生态的绑定。公开报道提到,新模型面向华为昇腾芯片进行了优化,华为也宣布昇腾超节点产品线支持DeepSeek 新模型。
这层意义很重。过去很多前沿模型默认围绕英伟达生态建设,软件框架、算子、推理部署、工程工具链,都和英伟达体系绑得很深。算力被卡住,模型部署自然受影响。现在DeepSeek 把模型能力和华为昇腾进一步结合,等于在西方芯片和西方框架之外,开出了一条国产技术栈路线。
华为昇腾相关芯片和超节点正在支撑新模型推理,后续更大规模的芯片交付会影响训练规模和推理速度。公开报道也提到,DeepSeek 称新模型吞吐问题要等昇腾新一代超节点规模交付后进一步缓解。
这不是单纯的企业合作,而是一个产业链问题。模型要强,离不开数据、算法、工程、芯片、网络、存储和软件栈。任何一环长期依赖外部供应,都会在关键时刻变成瓶颈。国产模型和国产算力真正打通,才意味着人工智能基础设施有了更稳的底座。
当然,当前版本仍像一个预览状态。公开发布信息也明确称这次是预览版。预览版的价值,不在于一步到位,而在于把路线摆到台面上:长上下文、低成本、开放权重、国产硬件适配,这几条线已经连起来了。
蒸馏争议背后,是开放路线与封闭路线的冲突
模型发布后,争议也很快出现。美国方面近期继续炒作中国人工智能企业“盗取技术”的说法,部分国外闭源模型公司也把中国模型的进步指向所谓蒸馏。相关报道提到,美国方面曾要求在外交渠道中提出对中国人工智能企业的知识产权指控;中国外交部则否认相关说法。
蒸馏并不是一个神秘词。它本来是大模型训练里常见的方法,大模型像教师,小模型像学生,学生学习教师的概率分布、判断方式和输出倾向,从而提升效果。真正高质量的蒸馏,通常需要更细的内部信息,比如每个候选词的概率分布,而不是只看最终答案。
问题就在这里。主流闭源模型对外开放的大多只是接口,调用者拿到的是生成文本,不是内部概率分布,更不是完整训练过程。只靠成品文本模仿,最多学到风格、格式和表达习惯,很难复制深层推理能力。靠背答案培养不出竞赛冠军,靠模仿语气也复制不了一个前沿模型的核心能力。
所以,把开放模型的进步简单归结为“抄闭源模型”,逻辑上并不牢靠。更关键的是,DeepSeek 采用的是开放权重路线,研究者、开发者和企业可以下载、部署、审计、改进。闭源公司把模型锁在服务器里,外界无法检查训练材料、模型结构和内部机制,却反过来指责开放模型,这本身就充满矛盾。
那些指责开放模型的人,维护的未必只是知识产权,也可能是旧秩序。这个旧秩序由西方芯片、西方框架、闭源模型、高价接口共同组成。DeepSeek 的新模型证明,前沿能力不一定只能关在少数公司的云端机房里,也可以成为更接近公共基础设施的技术能力。
人工智能如果只属于少数巨头,普通开发者只能按次付费,企业数据只能送到别人的服务器,产业升级就会被卡在入口处。开放模型至少改变了一点:它把权力分散出去,让更多人有机会参与建设。开放权重、低成本推理、国产算力适配、百万令牌上下文,这些词连在一起,才构成了DeepSeek 这次发布的真正分量。
技术普惠正在冲击高价闭源模型的商业壁垒,自主生态正在削弱单一芯片体系的路径依赖,开源模式正在让更多人重新理解人工智能的归属。DeepSeek 这次没有制造去年那种市场惊雷,却把一条更长的路铺出来了:前沿技术不能只被少数公司定价,也不该只被少数国家定义。





京公网安备 11011402013531号