当前位置: 首页 » 资讯 » 科技头条 » 正文

梁文锋有自己的节奏

IP属地 中国·北京 编辑:胡颖 连线Insight 时间:2026-05-12 22:12:09

在绿洲资本创始合伙人张津剑的一本书中,曾分享过一个MiniMax创始人闫俊杰与DeepSeek创始人梁文锋第一次见面时的小故事。

彼时,梁文锋穿着一件T恤,没有自我介绍,就问了闫俊杰很多技术问题。

“还以为是助理,我想这助理还挺懂的”闫俊杰说,直到半个小时后闫俊杰询问“梁总什么时候来?”才知道对方就是梁文锋。

穿着简单,没有什么老板的架子,对技术很专注,这是梁文锋给外界留下为数不多的印象,他多数时间出现在周围人的描述中,从媒体的报道中可以总结出一个低调神秘、不喜欢参与公司团建、只对编程感兴趣的形象,与传统意义上“明星公司创始人”的画像不同。

拥有这样一位创始人的DeepSeek,也是AI大模型企业中最与众不同的一个。

图源DeepSeek官网

2024年5月,它靠远低于传统大模型的定价与成本、达到国际顶尖水平的性能、开源技术报告和模型权重,在众星云集的AI大模型赛道中出圈,还引发了行业中的价格战。

它不喜欢开产品发布会、不着急做产品迭代、不跟风加入新兴的赛道、不过分吹捧产品,但不妨碍它依旧位于行业关注的中心。

它不讲商业化故事,身处AI大模型这样一个烧钱做研发的赛道但却并不缺钱,因此,它在过去的很长一段时间中都在拒绝融资,认为资本干预可能会影响技术路线和公司的独立发展。

因此,在近期被传出将进行股权融资的时候,DeepSeek又成了AI圈讨论的焦点。

舆论的发酵甚至赶不上DeepSeek估值增长的速度。自今年4月中旬,被传出将以100亿美元估值释放3%左右股权融资后,DeepSeek的估值已经多次被改写,近期,已经有报道称DeepSeek的估值可能达到500亿美元,三周内翻了5倍。

事情发展至今,故事似乎要向DeepSeek也不得不向巨大的融资额低头的方向行走,但实则不然。DeepSeek对投资者的要求极高,不接受资本对公司有过多干涉,且根据The Information的报道,梁文锋仍在这场融资中占据主导权,其个人出资最高达200亿元人民币,占总募资规模的40%。

很难以行业的共性或者趋势来看待DeepSeek,因为他的掌舵者梁文锋,一直有自己的节奏。

不缺钱的梁文锋,对融资更谨慎

在很多初创企业的叙事里,融资的路径大抵相同:成立-融资-组建团队-发布产品-再融资,最后带着背后的豪华资本朋友圈冲刺上市。

在这个过程中,企业和资本之间通常维持着一种心照不宣的关系:资本向企业提供资金、提出要求;企业出让一部分控制权,但有了继续走下去的底气。

但DeepSeek从成立的第一天起就没按照这个模板行走。外界广泛流传着梁文锋曾给DeepSeek立下的“三不”规矩:不接受外部融资、不稀释股权、不被任何人的商业化时间表绑架。

而这个略显硬核的规矩,在被传出融资消息之前就一直被DeepSeek严格遵守,就算如今第一个“不”已经被打破,不过DeepSeek在寻找资方的过程中,执行着后两个“不”的原则。

近期,市场中流传最多的除了DeepSeek的融资动作、估值变化等,还有一些资本被梁文锋拒之门外的消息。

其中被广泛讨论的是DeepSeek与阿里和腾讯之间的谈判。

这两家互联网大厂正在洽谈投资DeepSeek的消息大约在4月23日前后被大量媒体提及,根据《财经》的报道,当时一位接近交易的人士透露,腾讯与阿里巴巴两家投资方预计共计投资18亿美元,DeepSeek的估值超过了200亿美元。

不过到了5月,两家企业均被曝出在谈判中失利,不是因为钱不到位,而是因为他们都试图从DeepSeek手中拿到更多的话语权,这触碰了梁文锋的底线。

而据白鲸实验室报道,阿里与DeepSeek的投资已经谈崩,核心分歧在于阿里希望在AI战略上构建闭环生态,而DeepSeek坚持技术独立,拒绝了生态绑定的条件。

不过对于这个消息,市场上还出现了另一种声音:根据《》在5月9日的报道,有市场人士透露,阿里应该没有进行谈判。

另据彭博社报道,有知情人士透露,腾讯提出在本轮融资中认购DeepSeek最多20%的股份。但这一样没有被梁文锋采纳。

此后,外媒The Information报道称,梁文锋将个人出资最高达200亿元人民币,占本轮计划融资总额40%,这个消息更是印证了梁文锋在这轮融资中,决不出让主动权的强硬态度。

报道还透露出腾讯已经更换了投资方式的消息,一位知情人士透露,“腾讯出资60亿,占约2%股权。”

拒绝互联网大厂抛来的橄榄枝,并自掏腰包占据融资主导权,梁文锋的融资逻辑实则一直与钱无关。

DeepSeek不缺钱,其背后是梁文锋创立的量化公司——幻方量化。

据私募排排网数据,2025年,幻方量化的平均收益率高达56.6%,管理规模超700亿元。业内人士估算,仅2025年幻方量化就为梁文锋带来了超过7亿美元的收入,这几乎构成了,DeepSeek独立运转的“弹药库”。

而梁文锋这次选择在融资上“松口”,是因为DeepSeek技术的基本盘——人才,在近期经历了不小的动荡。

2025年底至2026年初,就先后有DeepSeek-V2架构的关键贡献者罗福莉、第一代大语言模型核心作者王炳宣、R1核心作者郭达雅等核心人才离开DeepSeek,转投他厂。

梁文锋最在意的,不会是能否拿到更多融资、能否与互联网大厂建立合作、能否吸引更强大的资本……而是如何在竞对高薪“挖角”的环境下,留住自己的核心技术人员。

因此,他的这次融资,或许是希望通过外部资本给公司作出一个较为公允的估值,让DeepSeek员工手中的期权在定价上更有吸引力。

在DeepSeek最新产品DeepSeek-V4的技术报告里,写着一份长长的作者致谢名单,研究工程团队约270人中,只有10人在研发期间离去。对应下来,技术研发人员离职率不到4%,意味着梁文锋成功留住了97%的员工。

这些人,将继续按照梁文锋的思路,走向与众不同的道路。

从DeepSeek-V4身上,

看梁文锋的“逆势”思维

尽管有关DeepSeek融资的细节铺天盖地,但梁文锋与DeepSeek都没有对此进行过公开回应。反而是在此期间的4月24日,这家公司在没有任何预热的情况下,悄悄上线了行业等待了5个月的新产品——DeepSeek-V4预览版。

按照DeepSeek的介绍,DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。

更引发市场讨论的是这款产品的定价。

在产品发布不到48小时后,DeepSeek发布了API价格调整公告,公告显示,DeepSeek-V4全系API输入缓存命中价格降至首发价的十分之一,V4-Pro叠加限时2.5折,百万Tokens输入缓存命中低至0.025元,创全球大模型价格新低。

这样的定价之所以引发关注,是因为DeepSeek-V4的核心优势——超长上下文极其消耗计算量。据了解,标准的Transformer注意力,每个token都要和前面所有token做一次计算。而上下文从8K扩展到1M,其计算量将是平方级的增长。

而DeepSeek却能在这样的情况下依旧保持低价策略,这并不是一件容易的事。

如果对比同期OpenAI发布的最新产品GPT-5.5,DeepSeek定价的优惠程度则更为直观。

以API价格为例,GPT-5.5的标准报价为输入每百万Token 5美元、输出每百万Token 30美元;DeepSeek-V4-Pro在2.5折促销期内的报价为缓存命中输入每百万Token0.025元、缓存未命中输入每百万Token 3元、输出每百万Token 6元。

图源DeepSeek官网

如果按1美元约合7.2元人民币粗略折算,GPT-5.5的输出价格约为每百万Token 216元,是DeepSeek-V4-Pro促销价的30多倍。

而DeepSeek降价的另一边,在算力成本逐渐提高的情况下,涨价和收费已经成为大模型企业不得不做出的现实选择。

例如GPT-5.5的价格比GPT-5.4整体贵了一倍;智谱AI在4月初公布了今年以来的第三次提价计划,发布新一代旗舰模型GLM-5.1的同时提价10%;Kimi在4月下旬发布K2.6时,将API输入价格从0.60美元/百万Tokens上调至0.95美元/百万Tokens,涨价58%。

一边是行业整体的涨价趋势,另一边则是梁文锋与DeepSeek的逆势降价,场面似乎与两年前惊人地相似,彼时,性价比极高的DeepSeek还意外引发了大模型行业的价格战。

之所以说是“意外”,是因为梁文锋无意引发价格战,他曾在接受36氪的采访时表示,自己对掀起行业价格战一事非常意外,“我们只是按照自己的步调来做事,然后核算成本定价。”

但也与两年前一样,这一次DeepSeek-V4也无意引发价格战,其能逆势降价、把控好成本,是靠技术创新实现的。

其中,DeepSeek-V4成本压缩的核心突破在于压缩注意力机制的改善。

其设计了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)两种压缩注意力机制,前者负责精准定位关键细节,后者负责把握全局脉络。

DeepSeek将两种注意力在前向传播中每一层交替使用,将Prefill阶段的注意力计算复杂度从O(N^2)降低为近似线性的O(N*k),并线性压缩了Prefill和Decode阶段的KV Cache,减少了推理时显存和带宽的压力。

在这些层层削减之后,缓存体积已经被压缩到了90%以上。

除此之外,DeepSeek降低成本的方式还有很多。

例如其靠一套动态稀疏选择机制,将复杂度强制截断为常数级运算。在1M长上下文下,V4 Pro的单token推理FLOPs降到了前代V3.2的27%;其自研的TileLang语言,能让GPU计算与网络传输并行,硬件利用率逼近极限;针对智能体任务,用特殊标记替代额外小模型,直接复用主模型的KV Cache来并行执行一些辅助任务。把推理成本压到极致。

“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”这是梁文锋在DeepSeek-V2引发价格战后对媒体的回应,这也同样适用于DeepSeek-V4。

对于梁文锋来说,其他企业的定价如何,并不能成为他的参考依据,他只专注在自己的技术逻辑上,开出适用于DeepSeek的定价。

梁文锋,并不着急产品迭代和商业化

梁文锋着急产品迭代和商业化吗?

如果经历过从DeepSeek-V3.2,到DeepSeek-V4之间那5个月的漫长等待,这个答案可能呼之欲出。

在DeepSeek沉默的这五个月期间,不管是美国市场的OpenAI、Anthropic、谷歌Gemini,还是中国市场的阿里千问、字节跳动豆包、腾讯混元、小米MiMo等主流模型公司,都至少发布或迭代了多款模型,几乎每2.8天就会有一款模型发布或迭代。

对于AI大模型公司而言,商业化几乎是与产品迭代相伴相生的话题。企业们害怕自己的技术被赶超,害怕失去商业化优势,进而失去自己在资本市场的想象力。

而长期不着急迭代的DeepSeek,在那段时间就已经开始被超越了。DeepSeek-V3.2的性能一度在国际市场调研机构Artificial Analysis的基准测试中,落后于penAI、Anthropic、谷歌Gemini、阿里千问、月之暗面Kimi、智谱GLM、MiniMax等旗舰模型。

更关键的是行业中掀起龙虾热后,Agent需求也随之爆发,Coding能力成为各家企业追逐的方向,而DeepSeek-V3.2,在Agent和Coding能力上也显得相对落后。

但不管其他企业的模型如何迭代、市场对DeepSeek的失望情绪有多高,这些似乎都很难影响到梁文锋与DeepSeek的开发节奏。

梁文锋有自己的坚持,在他为数不多的采访中,“实现AGI”、“不追求短期的商业化”是其反复提及的观点。

将大模型的底层技术做到极致,才是梁文锋的追求。

DeepSeek-V4一经发布,就在很大程度上追平了前代作品在Agent方面的落后趋势。

DeepSeek在发布公告中表示,相比前代模型,DeepSeek-V4-Pro在Agentic Coding评测中,已达到当前开源模型最佳水平,并在其他Agent相关评测中表现优异;在世界知识测评中,大幅领先其他开源模型;在数学、STEM、竞赛型代码的测评中,超越当前所有已公开评测的开源模型,并取得了比肩世界顶级闭源模型的成绩。

DeepSeek-V4此次更新升级的核心能力之一——上下文,是Agent工具理解并记忆大量文本的关键,而DeepSeek此次发布的两个模型都能支持100万token的上下文长度,这将大大提升Agent阅读文本、记住更多细节的能力。

根据差评的测试,将一本红楼梦中随便贴了一段三体的科幻小说内容发送给DeepSeek-V4查找异常,它用几秒钟就找到了。

另一个细节也体现了梁文锋与DeepSeek不强调全球领先、将底层技术做到极致的态度——在产品的发布公告中承认自己与竞对存在的差距。

其表示,目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。

图源DeepSeek官方微信公众号

对于AI行业已经说了很长时间的多模态故事,DeepSeek也是慢慢来的态度。

如今的DeepSeek-V4仍未搭载原生多模态能力,目前只有市场消息透露,其将在今年6月推出的V4模型迭代版本——V4.1会新增图像、音频理解处理能力,但输出形式仍仅限文本生成。

种种迹象都在表明,如果没有将产品的技术水平做到极致,外部市场动态与声音,撼动不了梁文锋的研发节奏和目标。

2024年,梁文锋曾在36氪的采访中表达过这样一个观点,“过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。”

两年过去,梁文锋鲜少再对外发声,但很明显,他不想让商业驱动创新的态度,直到现在都没变。

标签: 模型 梁文锋 企业 技术 核心 行业 资本 产品 公司 成本 关键 定价 能力 商业化 开源 市场 腾讯 节奏 注意力 人士 趋势 作者 细节 性能 图源 消息 计划 俊杰 创始人 机制 价格战 领先

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。