当前位置: 首页 » 资讯 » 科技头条 » 正文

27岁姚顺雨“交卷”!腾讯AI开始抢跑下半场

IP属地 中国·北京 编辑:钟景轩 投资家 时间:2026-05-07 01:06:42

27岁的姚顺雨,终于在腾讯交出了第一张答卷。

但这张答卷的分量,不只是一个年轻科学家的首秀,它更像是腾讯AI打法的一次重启。

4月23日,腾讯混元Hy3 preview 正式上线并开源。这是姚顺雨归国加盟腾讯后,带队交出的第一个重要成果,也是混元团队在架构、基础设施重新出发后的首个版本。

从参数看,Hy3 preview 是一个快慢思考融合的MoE 语言模型,总参数295B,激活参数21B,支持256K 上下文。

这意味着,腾讯这次不是又发了一个模型,它是在重新回答一个更大的问题:

AI下半场,腾讯到底靠什么赢?

姚顺雨“重建混元”

如果说去年国内大模型竞争,重点还在“谁先卷出更强能力”,那么今年开始,问题已经变了。

市场不再只关心:

这个模型聪不聪明?这个模型会不会写诗?这个模型能不能拿高分?

大家开始关心的是:

它能不能完成一个真实任务?它能不能联网、搜集、比对、分析、输出?它能不能稳定调用工具?它能不能在产品里跑起来?它能不能在企业场景里创造效率?

这就是为什么腾讯这次反复强调两个词:重建实用性

Hy3 preview 是混元团队在架构、基础设施重新出发后的第一个版本。换句话说,这次不是常规意义上的“模型升级”,而是一次底层工程的重构。

这背后其实透露了一个非常重要的信号:腾讯已经不满足于做一个可以回答问题”的模型,它想做的是一个可以被全产品线调用,并且真正进入工作流的智能底座。

这一点,对腾讯尤其关键,因为腾讯最强的从来不是单个模型,而是生态。

如果没有这样一个底座,腾讯AI就会变成“每个产品都有一点AI,但没有形成腾讯级AI能力”。

而Hy3 preview的出现,本质上就是在解决这个问题。

于是,从姚顺雨加入腾讯开始,就把评测重心从“考卷式能力”转向“真实任务式能力”,AI下半场,评估比训练更重要。

姚顺雨

今天通用大模型的基础配方,其实已经非常成熟。预训练、强化学习、算力扩展,这些大家都在做。继续在同一套题库上卷,当然还能进步,但很多时候投入巨大,提升却有限。

真正拉开差距的,不再是谁多刷了几分,而是谁定义了更接近现实世界的新任务,谁能更客观地衡量“这个模型到底能不能解决问题”。

在腾讯版AI 办公助手WorkBuddy 上,我们可以选择最新的混元模型,让它进行代码开发、深度研究、产品管理、数据分析等。

比如我们要求它联网获取联合国人口司数据,完成一项「全球人口结构变迁」可视化分析。

这是一个涉及数据获取、清洗、分析与可视化呈现的复合型任务,Hy3 preview 同样完成得较为顺畅,最终输出了直观的图表与分析文本。

腾讯这次就是直接把模型扔进工作流里,看看它到底能不能干活。

这件事,非常腾讯。

所以,腾讯自建基准测试的真正价值,不是比别人多做了一套题库,而是它更容易把“真实业务痛点”直接变成评估环境。

这意味着,Hy3 preview 的评测逻辑已经不是“做更难的考卷”,而是在尝试回答一个更商业化的问题:AI到底能不能在复杂业务里,完成一件完整的事。

硬核看点:Agent能力

姚顺雨本身就是ReAct 框架的重要提出者之一,ReAct 的关键价值,不是让模型说得更像人,而是让模型学会“推理+ 行动”——一边想,一边调用工具,一边不断修正。

这恰恰是AI下半场最重要的能力之一。

Hy3 preview 在腾讯版AI 办公助手WorkBuddy 里的表现,已经明显不是传统问答模型那一套了。

1)它开始能处理“深度研究型任务”

Hy3 preview 能够自主启动多步搜索,完成长链推理,并最终输出一份相对客观、中立、结构化的调查报告。

对于企业来说,这种能力的商业价值远比聊天更大。因为大量知识工作,本质上就是:搜信息→ 找差异→ 做判断→ 出报告。

如果模型能把这条链跑通,它就不只是AI助手,而是流程参与者。

2)它开始能处理“数据分析型任务”

Hy3 preview 最终能够输出较为直观的图表和分析文本,这说明它不只是“会写分析”,而是已经开始具备一定的“数据型任务执行能力”。

如果这个能力后续继续稳定,它进入企业分析、市场研究、咨询辅助、投研辅助、BI应用场景的空间会非常大。

3)它开始能处理“代码交付型任务”

腾讯手里已经有CodeBuddy、WorkBuddy 这样的工具入口。如果底层模型在代码生成、调试、修复、产品协作等能力上持续增强,腾讯完全有机会把模型能力,往研发流程、办公流程和协作流程深度嵌入。

换句话说,模型的价值不只是写代码,而是开始影响交付效率。

腾讯的一次工业化取舍

Hy3 preview 选择的是295B 总参数、21B 激活参数的MoE 路线,这条路线背后的商业含义,其实非常明确:腾讯选择的不是参数叙事”,而是“工业化可用性”

如果只拼想象力,当然可以继续往更大模型走。但腾讯是一个拥有海量真实业务的公司,它必须考虑几个更现实的问题:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。