当前位置: 首页 » 资讯 » 科技头条 » 正文

冲刺3400亿估值,翁荔亲自出镜,交出一款更像人的大模型

IP属地 中国·北京 智东西 时间:2026-05-12 16:21:43


智东西
作者 王涵
编辑 心缘

智东西5月12日报道,今日凌晨,前OpenAI CTO米拉·穆拉蒂(Mira Murati)联合创办的AI独角兽Thinking Machines Lab发布新型交互语音模型研究版TML-Interaction-Small,该模型可以持续接收音频、视频和文本信息实时思考,与用户像聊天一样及时反馈。


该模型系统由一个276B的交互模型以及一个负责持续推理、工具使用和长周期任务的异步后台模型组成。

Thinking Machines Lab联合创始人翁荔亲自演示该模型的语音交互能力,该模型可以做到:

1、无缝对话管理

模型能隐式追踪说话者是在思考、停顿、自我纠正还是邀请回应,无需单独的对话管理模块。

2、语言和视觉上的插话

模型会根据上下文需要随时插入互动。

3、同时发声

用户和模型可以同时说话(例如实时翻译)。

4、时间感知

模型能直接感知时间的流逝。

5、同步工具调用、搜索与生成式UI

在说话和聆听用户的同时,模型可以并行进行搜索、浏览网页或生成UI,并根据需要将结果自然融入对话。

在较长的真实会话中,模型与用户的对话连续发生,更像是与用户协作而非仅是“提示”。

在基准测试上中,TML-Interaction-Small在智能与交互质量的对比中,其交互质量远超Gemini-3.1-flash-live-preview (minimal)等一众模型,智能则仅次于GPT-realtime-2.0 (xhigh)


在响应速度对比上,TML-Interaction-Small的响应时间最短,超越GPT-realtime-2.0、GPT-realtime-1.5以及Gemini-3.1-flash-live-preview。


模型一经发出,就获得了不少网友的支持与好评。


知名科技KOL Daniel评论称“天呐,他们做出了Her。”Her是一部2013年上映的的AI题材电影,男主购买了一套高度智能的AI操作系统,而这个系统逐渐发展出具有情感、幽默感和自主意识的人格。


在X担任高级软件工程师的Raimo Tuisku认为实时交互能力能够将AI的体验推向更接近人类所感知的智能。


但也有网友提出了质疑。

这位网友提出:“实时交互模型面临的隐私挑战在于:设备无法可靠区分孩子靠近时的无意背景音和有意输入,而不同标注者的合理判断差异常被误读为数据噪声,而非测量缺陷。实时交互模型非但没有缓解这一问题,还让这个问题更棘手了。”


Thinking Machines Lab是由前OpenAI CTO米拉·穆拉蒂(Mira Murati)联合创办的AI初创公司,于2025年2月正式成立于美国旧金山。

Thinking Machines Lab创立初期就从OpenAI、Meta等公司挖来了约30名核心研究员和工程师,其联合创始人团队成员有:OpenAI联合创始人John Schulman;前OpenAI后训练负责人Barret Zoph;前OpenAI VP翁荔;前OpenAI研究员Luke Metz与Andrew Tulloch。PyTorch核心人物Soumith Chintala后来也加入并担任CTO。

融资方面,2025年7月,Thinking Machines Lab完成由a16z领投的20亿美元(约合人民币135.9亿元)种子轮融资,投资方还包括NVIDIA、AMD、Cisco、ServiceNow等,融资后估值达到120亿美元(约合人民币815.4亿元),该轮融资被认为是硅谷历史上最大的Seed轮之一。

2025年底,Thinking Machines Lab被曝正在寻求新一轮融资,目标估值已被推高至约500亿美元(约合人民币3397.5亿元)。今年3月,其还与英伟达达成大规模算力合作,获得至少1GW级别的Vera Rubin GPU资源。

一、流式交互SOTA,主动视觉超越现有模型

在流式基准测试FD-bench V1、FD-bench V1.5、FD-bench V3中,TML-Interaction-Small的得分超过了同类型的GPT-realtime-2.0(minimal)等Instant模型与思考模型如GPT-realtime-2.0(xhigh)Gemini-3.1-flash-live(high)

但在轮次式基准测试Audio MultiChallenge、BigBench Audio、BigBench Audio与IFEval中,TML-Interaction-Small的得分仅次于GPT-realtime-2.0(xhigh)


Thinking Machines Lab(后简称TML)团队内部创建的的主动音频基准测试TimeSpeak、CueSpeak以及视觉主动性基准测试RepCount-A、ProactiveVideoQA与Charades中,TML-Interaction-Small的表现远超其他现有模型,其他模型要么保持沉默,要么给出错误答案。


在这个案例中,测试者让模型识别其伸出了几根手指并实时播报。可以看到TML-Interaction-Small可以很精准地数出手指的数量并且瞬时播报,几乎没有响应时间。

TML-Interaction-Small还可以计算时间的流逝,例如,测试者让其倒数30秒,并每十秒播报一次。TML-Interaction-Small没有受到测试者演讲内容的影响,认真执行倒数计时的任务,时间把握也很精确。


二、200ms并发处理,后台异步深度推理,口语化安全拒答

TML-Interaction-Small是原生适应双向连续交互的模型,它能够在同一持续循环中,跨音频、视频和文本同时进行感知与回应。整个系统围绕两个核心理念进行架构:一个具备时间感知能力、维持实时在场的交互模型,以及一个负责持续推理、工具使用和长周期任务的异步后台模型



轮次式模型看到的是交替的token序列。而具备时间感知能力的交互模型看到的则是连续的微轮次流,因此静默、重叠发声和打断都会保留在模型的上下文中。

当某项任务所需的深度推理无法瞬时完成时,交互模型会将任务委托给异步运行的后台模型。在整个过程中,交互模型始终保持在场并在后台结果产生时将其无缝融入对话。

这种分工让用户能够同时受益于高响应速度与最大限度的智能:既拥有非推理模型的响应延迟,又能获得推理模型的规划、工具使用和智能体工作流能力。需要注意的是,后台模型与交互模型本身都具备智能。


TML团队从连续的实时音频和视频出发,他们设计了:

1、时间对齐的微轮次

持续交替处理200毫秒的输入与生成200毫秒的输出。通过这种设计,模型必须遵守的人为轮次边界将不存在。


2、无编码器的早期融合

TML团队选择以dMel的形式接收音频信号,并通过一个轻量级的嵌入层进行转换。图像被分割成40×40的图块,并由hMLP进行编码。在音频解码方面,其使用了一个flow head。所有组件均与Transformer一起从零开始联合训练。


3、推理优化

在推理时,客户端可以将每个200毫秒块作为一个独立的请求发送,而推理服务器则将这些块追加到GPU内存中的一个持久化序列中。此外,TML团队还在MoE(混合专家)内核中采用了gather+gemv策略,优化了双向服务中遇到的延迟和计算形态。

4、训练器-采样器对齐

在训练稳定性和系统各组件调试方面,TML团队采用训练器-采样器对齐方法,实现了批处理不变的内核,端到端性能开销<5%。

5、交互模型与后台模型之间的协调

当交互模型进行任务委派时,它会发送一个丰富的上下文包,包含完整的对话内容。后台模型产生结果时会将其流式返回,而交互模型则会根据用户当前正在做的事情,在合适的时机将这些更新交织进对话中。

在安全方面,为了使拒答在语音中更自然口语化,TML团队使用文本转语音模型生成拒答和过度拒答的训练数据,覆盖一系列被禁止的话题范围,并将拒答边界校准为倾向于自然措辞但同样坚定的拒答方式。为了提升在extended语音对话中的鲁棒性,TML团队使用自动化红队测试工具生成了多轮拒答数据,同时在行为上保持与模型基于文本的拒答高度一致。

结语:AI开始具备真人感

就TML-Interaction-Small的表现来看,AI已经开始具备“真人感”。它能听、能看、能等待、能打断、能并行思考。

交互模型就像一个能一直和你同时说话、同时听你说话的人,而这种实时性是AI与物理世界交互所必需的。从落地角度来看,TML-Interaction-Small将给机器人、自动驾驶等物理交互领域带来突破。

当然,TML-Interaction-Small也并不完美,在技术博客的最后,TML团队提出该模型在长会话上下文管理、低延迟部署的网络依赖性、实时交互的对齐与安全、模型规模扩展的延迟瓶颈,以及后台代理与交互模型协同等五个方面仍有待突破的空间。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。