梁文锋有自己的节奏

IP属地中国·北京 编辑：胡颖连线Insight 时间：2026-05-12 22:12:09

在绿洲资本创始合伙人张津剑的一本书中，曾分享过一个MiniMax创始人闫俊杰与DeepSeek创始人梁文锋第一次见面时的小故事。
彼时，梁文锋穿着一件T恤，没有自我介绍，就问了闫俊杰很多技术问题。
“还以为是助理，我想这助理还挺懂的”闫俊杰说，直到半个小时后闫俊杰询问“梁总什么时候来？”才知道对方就是梁文锋。
穿着简单，没有什么老板的架子，对技术很专注，这是梁文锋给外界留下为数不多的印象，他多数时间出现在周围人的描述中，从媒体的报道中可以总结出一个低调神秘、不喜欢参与公司团建、只对编程感兴趣的形象，与传统意义上“明星公司创始人”的画像不同。
拥有这样一位创始人的DeepSeek，也是AI大模型企业中最与众不同的一个。
图源DeepSeek官网
2024年5月，它靠远低于传统大模型的定价与成本、达到国际顶尖水平的性能、开源技术报告和模型权重，在众星云集的AI大模型赛道中出圈，还引发了行业中的价格战。
它不喜欢开产品发布会、不着急做产品迭代、不跟风加入新兴的赛道、不过分吹捧产品，但不妨碍它依旧位于行业关注的中心。
它不讲商业化故事，身处AI大模型这样一个烧钱做研发的赛道但却并不缺钱，因此，它在过去的很长一段时间中都在拒绝融资，认为资本干预可能会影响技术路线和公司的独立发展。
因此，在近期被传出将进行股权融资的时候，DeepSeek又成了AI圈讨论的焦点。
舆论的发酵甚至赶不上DeepSeek估值增长的速度。自今年4月中旬，被传出将以100亿美元估值释放3%左右股权融资后，DeepSeek的估值已经多次被改写，近期，已经有报道称DeepSeek的估值可能达到500亿美元，三周内翻了5倍。
事情发展至今，故事似乎要向DeepSeek也不得不向巨大的融资额低头的方向行走，但实则不然。DeepSeek对投资者的要求极高，不接受资本对公司有过多干涉，且根据The Information的报道，梁文锋仍在这场融资中占据主导权，其个人出资最高达200亿元人民币，占总募资规模的40%。
很难以行业的共性或者趋势来看待DeepSeek，因为他的掌舵者梁文锋，一直有自己的节奏。
不缺钱的梁文锋，对融资更谨慎
在很多初创企业的叙事里，融资的路径大抵相同：成立-融资-组建团队-发布产品-再融资，最后带着背后的豪华资本朋友圈冲刺上市。
在这个过程中，企业和资本之间通常维持着一种心照不宣的关系：资本向企业提供资金、提出要求；企业出让一部分控制权，但有了继续走下去的底气。
但DeepSeek从成立的第一天起就没按照这个模板行走。外界广泛流传着梁文锋曾给DeepSeek立下的“三不”规矩：不接受外部融资、不稀释股权、不被任何人的商业化时间表绑架。
而这个略显硬核的规矩，在被传出融资消息之前就一直被DeepSeek严格遵守，就算如今第一个“不”已经被打破，不过DeepSeek在寻找资方的过程中，执行着后两个“不”的原则。
近期，市场中流传最多的除了DeepSeek的融资动作、估值变化等，还有一些资本被梁文锋拒之门外的消息。
其中被广泛讨论的是DeepSeek与阿里和腾讯之间的谈判。
这两家互联网大厂正在洽谈投资DeepSeek的消息大约在4月23日前后被大量媒体提及，根据《财经》的报道，当时一位接近交易的人士透露，腾讯与阿里巴巴两家投资方预计共计投资18亿美元，DeepSeek的估值超过了200亿美元。
不过到了5月，两家企业均被曝出在谈判中失利，不是因为钱不到位，而是因为他们都试图从DeepSeek手中拿到更多的话语权，这触碰了梁文锋的底线。
而据白鲸实验室报道，阿里与DeepSeek的投资已经谈崩，核心分歧在于阿里希望在AI战略上构建闭环生态，而DeepSeek坚持技术独立，拒绝了生态绑定的条件。
不过对于这个消息，市场上还出现了另一种声音：根据《》在5月9日的报道，有市场人士透露，阿里应该没有进行谈判。
另据彭博社报道，有知情人士透露，腾讯提出在本轮融资中认购DeepSeek最多20%的股份。但这一样没有被梁文锋采纳。
此后，外媒The Information报道称，梁文锋将个人出资最高达200亿元人民币，占本轮计划融资总额40%，这个消息更是印证了梁文锋在这轮融资中，决不出让主动权的强硬态度。
报道还透露出腾讯已经更换了投资方式的消息，一位知情人士透露，“腾讯出资60亿，占约2%股权。”
拒绝互联网大厂抛来的橄榄枝，并自掏腰包占据融资主导权，梁文锋的融资逻辑实则一直与钱无关。
DeepSeek不缺钱，其背后是梁文锋创立的量化公司——幻方量化。
据私募排排网数据，2025年，幻方量化的平均收益率高达56.6%，管理规模超700亿元。业内人士估算，仅2025年幻方量化就为梁文锋带来了超过7亿美元的收入，这几乎构成了，DeepSeek独立运转的“弹药库”。
而梁文锋这次选择在融资上“松口”，是因为DeepSeek技术的基本盘——人才，在近期经历了不小的动荡。
2025年底至2026年初，就先后有DeepSeek-V2架构的关键贡献者罗福莉、第一代大语言模型核心作者王炳宣、R1核心作者郭达雅等核心人才离开DeepSeek，转投他厂。
梁文锋最在意的，不会是能否拿到更多融资、能否与互联网大厂建立合作、能否吸引更强大的资本……而是如何在竞对高薪“挖角”的环境下，留住自己的核心技术人员。
因此，他的这次融资，或许是希望通过外部资本给公司作出一个较为公允的估值，让DeepSeek员工手中的期权在定价上更有吸引力。
在DeepSeek最新产品DeepSeek-V4的技术报告里，写着一份长长的作者致谢名单，研究工程团队约270人中，只有10人在研发期间离去。对应下来，技术研发人员离职率不到4%，意味着梁文锋成功留住了97%的员工。
这些人，将继续按照梁文锋的思路，走向与众不同的道路。
从DeepSeek-V4身上，
看梁文锋的“逆势”思维
尽管有关DeepSeek融资的细节铺天盖地，但梁文锋与DeepSeek都没有对此进行过公开回应。反而是在此期间的4月24日，这家公司在没有任何预热的情况下，悄悄上线了行业等待了5个月的新产品——DeepSeek-V4预览版。
按照DeepSeek的介绍，DeepSeek-V4拥有百万字超长上下文，在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。
更引发市场讨论的是这款产品的定价。
在产品发布不到48小时后，DeepSeek发布了API价格调整公告，公告显示，DeepSeek-V4全系API输入缓存命中价格降至首发价的十分之一，V4-Pro叠加限时2.5折，百万Tokens输入缓存命中低至0.025元，创全球大模型价格新低。
这样的定价之所以引发关注，是因为DeepSeek-V4的核心优势——超长上下文极其消耗计算量。据了解，标准的Transformer注意力，每个token都要和前面所有token做一次计算。而上下文从8K扩展到1M，其计算量将是平方级的增长。
而DeepSeek却能在这样的情况下依旧保持低价策略，这并不是一件容易的事。
如果对比同期OpenAI发布的最新产品GPT-5.5，DeepSeek定价的优惠程度则更为直观。
以API价格为例，GPT-5.5的标准报价为输入每百万Token 5美元、输出每百万Token 30美元；DeepSeek-V4-Pro在2.5折促销期内的报价为缓存命中输入每百万Token0.025元、缓存未命中输入每百万Token 3元、输出每百万Token 6元。
图源DeepSeek官网
如果按1美元约合7.2元人民币粗略折算，GPT-5.5的输出价格约为每百万Token 216元，是DeepSeek-V4-Pro促销价的30多倍。
而DeepSeek降价的另一边，在算力成本逐渐提高的情况下，涨价和收费已经成为大模型企业不得不做出的现实选择。
例如GPT-5.5的价格比GPT-5.4整体贵了一倍；智谱AI在4月初公布了今年以来的第三次提价计划，发布新一代旗舰模型GLM-5.1的同时提价10%；Kimi在4月下旬发布K2.6时，将API输入价格从0.60美元/百万Tokens上调至0.95美元/百万Tokens，涨价58%。
一边是行业整体的涨价趋势，另一边则是梁文锋与DeepSeek的逆势降价，场面似乎与两年前惊人地相似，彼时，性价比极高的DeepSeek还意外引发了大模型行业的价格战。
之所以说是“意外”，是因为梁文锋无意引发价格战，他曾在接受36氪的采访时表示，自己对掀起行业价格战一事非常意外，“我们只是按照自己的步调来做事，然后核算成本定价。”
但也与两年前一样，这一次DeepSeek-V4也无意引发价格战，其能逆势降价、把控好成本，是靠技术创新实现的。
其中，DeepSeek-V4成本压缩的核心突破在于压缩注意力机制的改善。
其设计了压缩稀疏注意力（CSA）和重度压缩注意力（HCA）两种压缩注意力机制，前者负责精准定位关键细节，后者负责把握全局脉络。
DeepSeek将两种注意力在前向传播中每一层交替使用，将Prefill阶段的注意力计算复杂度从O（N^2）降低为近似线性的O（N*k），并线性压缩了Prefill和Decode阶段的KV Cache，减少了推理时显存和带宽的压力。
在这些层层削减之后，缓存体积已经被压缩到了90%以上。
除此之外，DeepSeek降低成本的方式还有很多。
例如其靠一套动态稀疏选择机制，将复杂度强制截断为常数级运算。在1M长上下文下，V4 Pro的单token推理FLOPs降到了前代V3.2的27%；其自研的TileLang语言，能让GPU计算与网络传输并行，硬件利用率逼近极限；针对智能体任务，用特殊标记替代额外小模型，直接复用主模型的KV Cache来并行执行一些辅助任务。把推理成本压到极致。
“我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”这是梁文锋在DeepSeek-V2引发价格战后对媒体的回应，这也同样适用于DeepSeek-V4。
对于梁文锋来说，其他企业的定价如何，并不能成为他的参考依据，他只专注在自己的技术逻辑上，开出适用于DeepSeek的定价。
梁文锋，并不着急产品迭代和商业化
梁文锋着急产品迭代和商业化吗？
如果经历过从DeepSeek-V3.2，到DeepSeek-V4之间那5个月的漫长等待，这个答案可能呼之欲出。
在DeepSeek沉默的这五个月期间，不管是美国市场的OpenAI、Anthropic、谷歌Gemini，还是中国市场的阿里千问、字节跳动豆包、腾讯混元、小米MiMo等主流模型公司，都至少发布或迭代了多款模型，几乎每2.8天就会有一款模型发布或迭代。
对于AI大模型公司而言，商业化几乎是与产品迭代相伴相生的话题。企业们害怕自己的技术被赶超，害怕失去商业化优势，进而失去自己在资本市场的想象力。
而长期不着急迭代的DeepSeek，在那段时间就已经开始被超越了。DeepSeek-V3.2的性能一度在国际市场调研机构Artificial Analysis的基准测试中，落后于penAI、Anthropic、谷歌Gemini、阿里千问、月之暗面Kimi、智谱GLM、MiniMax等旗舰模型。
更关键的是行业中掀起龙虾热后，Agent需求也随之爆发，Coding能力成为各家企业追逐的方向，而DeepSeek-V3.2，在Agent和Coding能力上也显得相对落后。
但不管其他企业的模型如何迭代、市场对DeepSeek的失望情绪有多高，这些似乎都很难影响到梁文锋与DeepSeek的开发节奏。
梁文锋有自己的坚持，在他为数不多的采访中，“实现AGI”、“不追求短期的商业化”是其反复提及的观点。
将大模型的底层技术做到极致，才是梁文锋的追求。
DeepSeek-V4一经发布，就在很大程度上追平了前代作品在Agent方面的落后趋势。
DeepSeek在发布公告中表示，相比前代模型，DeepSeek-V4-Pro在Agentic Coding评测中，已达到当前开源模型最佳水平，并在其他Agent相关评测中表现优异；在世界知识测评中，大幅领先其他开源模型；在数学、STEM、竞赛型代码的测评中，超越当前所有已公开评测的开源模型，并取得了比肩世界顶级闭源模型的成绩。
DeepSeek-V4此次更新升级的核心能力之一——上下文，是Agent工具理解并记忆大量文本的关键，而DeepSeek此次发布的两个模型都能支持100万token的上下文长度，这将大大提升Agent阅读文本、记住更多细节的能力。
根据差评的测试，将一本红楼梦中随便贴了一段三体的科幻小说内容发送给DeepSeek-V4查找异常，它用几秒钟就找到了。
另一个细节也体现了梁文锋与DeepSeek不强调全球领先、将底层技术做到极致的态度——在产品的发布公告中承认自己与竞对存在的差距。
其表示，目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型，据评测反馈使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存在一定差距。
图源DeepSeek官方微信公众号
对于AI行业已经说了很长时间的多模态故事，DeepSeek也是慢慢来的态度。
如今的DeepSeek-V4仍未搭载原生多模态能力，目前只有市场消息透露，其将在今年6月推出的V4模型迭代版本——V4.1会新增图像、音频理解处理能力，但输出形式仍仅限文本生成。
种种迹象都在表明，如果没有将产品的技术水平做到极致，外部市场动态与声音，撼动不了梁文锋的研发节奏和目标。
2024年，梁文锋曾在36氪的采访中表达过这样一个观点，“过去三十年，我们都只强调赚钱，对创新是忽视的。创新不完全是商业驱动的，还需要好奇心和创造欲。”
两年过去，梁文锋鲜少再对外发声，但很明显，他不想让商业驱动创新的态度，直到现在都没变。

标签：模型 梁文锋 企业技术核心行业资本产品公司成本关键定价能力 商业化 开源市场腾讯节奏 注意力 人士趋势作者细节性能图源消息计划俊杰 创始人 机制 价格战 领先

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

产教融合创新发展论坛暨华为院校人才培养论坛在吉林建科举办

B站举办17周年庆，5分钟以上视频观看时长占比达65%

全站最新

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

热门推荐

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

岚图追光S首秀：四激光雷达+475kW双电机，零百加速进3秒级

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

OpenAI推出GPT-5.6系列：天体命名新体系，Sol登顶编程测试榜首

中国为何坚定奔月？资源、战略、技术、合作四大驱动力引领未来

小牛自动化拥有超400项专利

阿里推出CosyVoice输入法：支持全场景口述！一键成稿

1999元！vivo Y6a悄悄上市：LCD真护眼屏+7200mAh长寿大电池

2026链博会 | 通用技术健康管理院院长闫焱：数字化技术大幅提升服务效率与管理精度

产教融合创新发展论坛暨华为院校人才培养论坛在吉林建科举办

B站举办17周年庆，5分钟以上视频观看时长占比达65%

超盒算NB加速全国布局：首进华北北京连开6店，自有品牌占比近60%

优派TD2465-CN触控显示器开售，23.8英寸VA屏配10点触控，售价2699元

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

梁文锋有自己的节奏