冲刺3400亿估值，翁荔亲自出镜，交出一款更像人的大模型

IP属地中国·北京 智东西 时间：2026-05-12 16:21:43

智东西
作者王涵
编辑心缘
智东西5月12日报道，今日凌晨，前OpenAI CTO米拉·穆拉蒂（Mira Murati）联合创办的AI独角兽Thinking Machines Lab发布新型交互语音模型研究版TML-Interaction-Small，该模型可以持续接收音频、视频和文本信息实时思考，与用户像聊天一样及时反馈。

该模型系统由一个276B的交互模型以及一个负责持续推理、工具使用和长周期任务的异步后台模型组成。
Thinking Machines Lab联合创始人翁荔亲自演示该模型的语音交互能力，该模型可以做到：
1、无缝对话管理
模型能隐式追踪说话者是在思考、停顿、自我纠正还是邀请回应，无需单独的对话管理模块。
2、语言和视觉上的插话
模型会根据上下文需要随时插入互动。
3、同时发声
用户和模型可以同时说话（例如实时翻译）。
4、时间感知
模型能直接感知时间的流逝。
5、同步工具调用、搜索与生成式UI
在说话和聆听用户的同时，模型可以并行进行搜索、浏览网页或生成UI，并根据需要将结果自然融入对话。
在较长的真实会话中，模型与用户的对话连续发生，更像是与用户协作而非仅是“提示”。
在基准测试上中，TML-Interaction-Small在智能与交互质量的对比中，其交互质量远超Gemini-3.1-flash-live-preview (minimal)等一众模型，智能则仅次于GPT-realtime-2.0 (xhigh)。

在响应速度对比上，TML-Interaction-Small的响应时间最短，超越GPT-realtime-2.0、GPT-realtime-1.5以及Gemini-3.1-flash-live-preview。

模型一经发出，就获得了不少网友的支持与好评。

知名科技KOL Daniel评论称“天呐，他们做出了Her。”Her是一部2013年上映的的AI题材电影，男主购买了一套高度智能的AI操作系统，而这个系统逐渐发展出具有情感、幽默感和自主意识的人格。

在X担任高级软件工程师的Raimo Tuisku认为实时交互能力能够将AI的体验推向更接近人类所感知的智能。

但也有网友提出了质疑。
这位网友提出：“实时交互模型面临的隐私挑战在于：设备无法可靠区分孩子靠近时的无意背景音和有意输入，而不同标注者的合理判断差异常被误读为数据噪声，而非测量缺陷。实时交互模型非但没有缓解这一问题，还让这个问题更棘手了。”

Thinking Machines Lab是由前OpenAI CTO米拉·穆拉蒂（Mira Murati）联合创办的AI初创公司，于2025年2月正式成立于美国旧金山。
Thinking Machines Lab创立初期就从OpenAI、Meta等公司挖来了约30名核心研究员和工程师，其联合创始人团队成员有：OpenAI联合创始人John Schulman；前OpenAI后训练负责人Barret Zoph；前OpenAI VP翁荔；前OpenAI研究员Luke Metz与Andrew Tulloch。PyTorch核心人物Soumith Chintala后来也加入并担任CTO。
融资方面，2025年7月，Thinking Machines Lab完成由a16z领投的20亿美元（约合人民币135.9亿元）种子轮融资，投资方还包括NVIDIA、AMD、Cisco、ServiceNow等，融资后估值达到120亿美元（约合人民币815.4亿元），该轮融资被认为是硅谷历史上最大的Seed轮之一。
2025年底，Thinking Machines Lab被曝正在寻求新一轮融资，目标估值已被推高至约500亿美元（约合人民币3397.5亿元）。今年3月，其还与英伟达达成大规模算力合作，获得至少1GW级别的Vera Rubin GPU资源。
一、流式交互SOTA，主动视觉超越现有模型
在流式基准测试FD-bench V1、FD-bench V1.5、FD-bench V3中，TML-Interaction-Small的得分超过了同类型的GPT-realtime-2.0(minimal)等Instant模型与思考模型如GPT-realtime-2.0(xhigh)与Gemini-3.1-flash-live(high)。
但在轮次式基准测试Audio MultiChallenge、BigBench Audio、BigBench Audio与IFEval中，TML-Interaction-Small的得分仅次于GPT-realtime-2.0(xhigh)。

Thinking Machines Lab（后简称TML）团队内部创建的的主动音频基准测试TimeSpeak、CueSpeak以及视觉主动性基准测试RepCount-A、ProactiveVideoQA与Charades中，TML-Interaction-Small的表现远超其他现有模型，其他模型要么保持沉默，要么给出错误答案。

在这个案例中，测试者让模型识别其伸出了几根手指并实时播报。可以看到TML-Interaction-Small可以很精准地数出手指的数量并且瞬时播报，几乎没有响应时间。
TML-Interaction-Small还可以计算时间的流逝，例如，测试者让其倒数30秒，并每十秒播报一次。TML-Interaction-Small没有受到测试者演讲内容的影响，认真执行倒数计时的任务，时间把握也很精确。

二、200ms并发处理，后台异步深度推理，口语化安全拒答
TML-Interaction-Small是原生适应双向连续交互的模型，它能够在同一持续循环中，跨音频、视频和文本同时进行感知与回应。整个系统围绕两个核心理念进行架构：一个具备时间感知能力、维持实时在场的交互模型，以及一个负责持续推理、工具使用和长周期任务的异步后台模型。

轮次式模型看到的是交替的token序列。而具备时间感知能力的交互模型看到的则是连续的微轮次流，因此静默、重叠发声和打断都会保留在模型的上下文中。
当某项任务所需的深度推理无法瞬时完成时，交互模型会将任务委托给异步运行的后台模型。在整个过程中，交互模型始终保持在场并在后台结果产生时将其无缝融入对话。
这种分工让用户能够同时受益于高响应速度与最大限度的智能：既拥有非推理模型的响应延迟，又能获得推理模型的规划、工具使用和智能体工作流能力。需要注意的是，后台模型与交互模型本身都具备智能。

TML团队从连续的实时音频和视频出发，他们设计了：
1、时间对齐的微轮次
持续交替处理200毫秒的输入与生成200毫秒的输出。通过这种设计，模型必须遵守的人为轮次边界将不存在。

2、无编码器的早期融合
TML团队选择以dMel的形式接收音频信号，并通过一个轻量级的嵌入层进行转换。图像被分割成40×40的图块，并由hMLP进行编码。在音频解码方面，其使用了一个flow head。所有组件均与Transformer一起从零开始联合训练。

3、推理优化
在推理时，客户端可以将每个200毫秒块作为一个独立的请求发送，而推理服务器则将这些块追加到GPU内存中的一个持久化序列中。此外，TML团队还在MoE（混合专家）内核中采用了gather+gemv策略，优化了双向服务中遇到的延迟和计算形态。
4、训练器-采样器对齐
在训练稳定性和系统各组件调试方面，TML团队采用训练器-采样器对齐方法，实现了批处理不变的内核，端到端性能开销<5%。
5、交互模型与后台模型之间的协调
当交互模型进行任务委派时，它会发送一个丰富的上下文包，包含完整的对话内容。后台模型产生结果时会将其流式返回，而交互模型则会根据用户当前正在做的事情，在合适的时机将这些更新交织进对话中。
在安全方面，为了使拒答在语音中更自然口语化，TML团队使用文本转语音模型生成拒答和过度拒答的训练数据，覆盖一系列被禁止的话题范围，并将拒答边界校准为倾向于自然措辞但同样坚定的拒答方式。为了提升在extended语音对话中的鲁棒性，TML团队使用自动化红队测试工具生成了多轮拒答数据，同时在行为上保持与模型基于文本的拒答高度一致。
结语：AI开始具备真人感
就TML-Interaction-Small的表现来看，AI已经开始具备“真人感”。它能听、能看、能等待、能打断、能并行思考。
交互模型就像一个能一直和你同时说话、同时听你说话的人，而这种实时性是AI与物理世界交互所必需的。从落地角度来看，TML-Interaction-Small将给机器人、自动驾驶等物理交互领域带来突破。
当然，TML-Interaction-Small也并不完美，在技术博客的最后，TML团队提出该模型在长会话上下文管理、低延迟部署的网络依赖性、实时交互的对齐与安全、模型规模扩展的延迟瓶颈，以及后台代理与交互模型协同等五个方面仍有待突破的空间。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

瑞士生物科技企业Windward Bio研发超长效抗TSLP单克隆抗体，有效降低给药频率

山灵Q2播放器：四颗DAC，续航10小时+

QQ音乐豪华绿钻会员原价调整，月卡刊例售价改为25元/张

390万元起！宇树发布GD01载人变形机甲

小米免费送百万亿Token活动近半月已累计送出近80万亿

可灵值200亿美元吗？

全站最新

瑞士生物科技企业Windward Bio研发超长效抗TSLP单克隆抗体，有效降低给药频率

山灵Q2播放器：四颗DAC，续航10小时+

QQ音乐豪华绿钻会员原价调整，月卡刊例售价改为25元/张

390万元起！宇树发布GD01载人变形机甲

热门推荐

OPPO「母亲节」交学费，另一笔账也得算算了

赛博判官，劝分不劝和

千问+淘宝！试水大模型变现新入口

OPPO母亲节营销失了“本分”！高端卖爆低端失守，涨价博弈代价沉重

投了那么多AI公司，美团会变成什么？

AI付费潮来袭，算力租赁躺赢

没有预售和满减，AI接棒的首届618有什么新花样？

瀑布秋千坠崖事件，能让景区从流量狂欢中清醒吗？

社保基金一季度重仓股出炉！机构“压舱石”偏爱这些方向

豆包付费背后：Token大降价的时代落幕了

王宁隔空“怼”了一下段永平

李佳琦带火的“中产牛乳”，被申请破产

中国三大具身集群，哪个最值钱、哪个最聪明、哪个供应链最夯？

北京新地，火药味太浓了

直播间里“救”负债人，私域里“宰”负债人，这帮人比催收狠多了