当前位置: 首页 » 资讯 » 科技头条 » 正文

StepFun音频团队的StepAudio 2.5技术报告解读

IP属地 中国·北京 科技行者 时间:2026-05-30 00:19:34


这项由阶跃星辰音频团队(StepFun-Audio Team)完成的研究,以技术报告形式于2026年5月22日发布在预印本平台arXiv上,编号为arXiv:2605.23463,感兴趣的读者可通过该编号查阅完整原文。

说到语音技术,大多数人对它的印象可能停留在手机里的语音助手——你说一句话,它帮你识别出文字;或者你输入一段文字,它帮你朗读出来。这两件事听起来简单,背后却藏着截然不同的技术逻辑,就好像一个人擅长听写,另一个人擅长朗诵,而要找到一个既能听写又能朗诵、还能实时和你聊天的"全能选手",向来是业界公认的难题。

阶跃星辰音频团队的这份研究,正是在挑战这个"全能选手"的目标。他们的系统叫做StepAudio 2.5,核心主张是:与其训练三个各有所长的专才,不如打造一个拥有共同"思维底座"的通才,让同一个模型通过不同的"工作模式",分别去完成语音识别、语音合成和实时对话三项任务,并且在每一项任务上都不输给专门为这件事而生的专业系统。

从最终的测评结果来看,这个目标确实达到了:在中英文语音识别的准确率上,在语音合成的自然度和表现力上,在实时对话的流畅感和人格一致性上,StepAudio 2.5都取得了当前公开可比系统中的最佳成绩。这是如何做到的?背后的逻辑远比"堆更多数据"或"用更大模型"复杂得多。

一、为什么"一个大脑管三件事"这么难?

要理解这项研究的难度,先得明白这三件事各自的"脾气"有多不同。

语音识别(ASR,Automatic Speech Recognition)做的事情,本质上是把声音翻译成文字。这件事的判断标准非常明确——翻译对了就是对,翻译错了就是错,衡量标准叫做"字错误率",越低越好。而且语音识别特别看重速度,因为在实际部署中,一段30秒的录音如果要花10秒才能处理完,那基本上可以用了。

语音合成(TTS,Text-to-Speech)则完全相反,它的任务是把文字变成声音。这件事的难点不在于"说对",而在于"说得好"——声音是否自然、是否符合指定的情绪和风格、是否听起来像真人在说话。这类质量很难用一个数字来衡量,因为人耳对"好不好听"的判断本身就带有主观性。

实时对话(Realtime)则是在上面两件事的基础上,再叠加了更苛刻的要求:低延迟(你说完,它要马上回)、多轮连贯(它要记住你们之前聊过什么)、人格稳定(它要保持一个固定的"性格",不能今天活泼明天沉闷)、还要读懂你声音里的情绪(你叹了口气,它应该能察觉到)。

把这三件事硬塞进一个模型里,就像让同一个人同时担任速记员、播音员和心理咨询师,三份工作的评判标准截然不同,训练方式也各有侧重。过去大多数系统的做法,是把这三件事交给三个独立的"专家"分别处理,彼此之间用管道连接。这种"流水线"方式的问题在于,信息在每次交接时都会有损耗——声音里的情绪在被转化成文字的那一刻,就已经消失了。

StepAudio 2.5的核心主张是:如果文字和声音从一开始就共享同一个表达空间,那么这种损耗就不会发生,而任务之间的差异,可以通过"用什么数据训练、优化什么目标、用什么解码方式"来处理,而不需要从头设计三套不同的架构。

二、一个共享的"语言-声音"大脑是如何搭建的?

StepAudio 2.5的架构,可以用一个比较直观的比喻来理解:把它想象成一台同时连接了"耳机"和"麦克风"的超级翻译机,中间有一个极其强大的"理解核心"。

具体来说,这个系统由三个部分组成。第一部分叫"声音编码器",它的工作是把原始的声波信号压缩成紧凑的声学特征向量,相当于把声音里的关键信息提炼出来,去掉无关的噪声。第二部分叫"适配器",它的工作是把这些声学特征"翻译"成语言模型能理解的格式,相当于一个转接头。第三部分,也是最核心的部分,叫"大语言模型解码器",它继承自一个专门处理文字的大型语言模型,但经过改造后,既能处理文字,也能生成和理解声音。

这个设计在结构上是"不对称"的:声音编码器负责稳定地提取声学信息,不需要参与语义理解;而解码器承担了几乎所有的语义处理、上下文管理、指令遵循和生成工作。这种不对称不是缺陷,反而是让三个任务能共享同一个解码器的关键——因为语义主要活在解码器里,所以不管任务是识别还是合成还是对话,都可以使用同一套语义理解能力。

在这个共同基础上,三个任务的工作方式可以这样理解:语音识别时,声音进来,解码器输出文字,输出空间窄而确定,强烈依赖声音信号的约束;语音合成时,文字和控制指令进来,解码器输出声音,输出空间宽而丰富,难点在于如何让声音既准确又好听;实时对话则是两者的结合,同时接收声音、理解内容、生成回应,而且要在极短时间内完成,还要记住对话历史、保持人格一致。

三、从零开始打造共同的"语言感":预训练的完整过程

在给这三个任务分别"专项训练"之前,研究团队需要先给整个系统打下一个扎实的基础——让它真正理解声音和文字的关系。这个过程叫做预训练,总计使用了2.2万亿个"词元"(可以理解为文字和声音片段的基本单位)。

原始数据的处理过程本身就是一项工程。研究团队建立了一套自动化的数据处理流水线:先用声音事件检测和语音活动检测过滤掉低质量的非语音片段,再把相邻的语音段落合并成语义完整、时长合适的基础样本。每段音频都要经过质量评分、合成语音检测和说话人数量标注。文字层面则用两套不同的语音识别系统分别转写,再交叉比对错误率、编辑距离和语速等指标,最后再评估语义完整性和内容类别。这套流程产出的数据按语言、时长、语义质量和音频质量分级,不同训练阶段使用不同质量层级的数据。

预训练本身分为四个阶段,就像建房子需要先打地基、再立墙、再封顶、最后精装修。

第一阶段是"对齐",用30亿词元的语音识别数据,专门训练那个"适配器",让它学会把声音特征映射到语言模型能理解的空间。这个阶段声音编码器和语言模型都冻结不动,只有适配器在学习。

第二阶段是主要预训练,模型的词汇表被扩展加入了声音词元,开始同时学习文字和声音两种"语言"。这个阶段的数据包含8000亿词元的文字和8000亿词元的声音,声音部分不只是语音识别数据,还包括语音合成、语音翻译、文字与声音交织的续写、以及语音对话等多种形式——模型被训练成一个真正理解"声音作为一种通用序列"的系统。这个阶段又细分为两步:先用1280亿词元做一个"热身",让新引入的声音词汇和专家网络稳定下来,再进入主训练阶段,逐步调整各个组件的学习率。

第三阶段是"冷却",用6000亿词元的高质量数据做收尾,同时把能处理的最长序列从16000个词元扩展到32000个,并加入了音频描述和可控语音合成等新数据类型,专注于提升多模态质量和长文本处理能力。

这套训练过程的最终结果,是让模型建立起文字和声音之间的"操作接口"——不只是简单的对应关系,而是真正理解了如何在声音和文字之间切换、转化和推理。这个接口,后来被三个分支分别以不同方向加以利用。

四、语音识别分支:如何让"识别"又准又快?

语音识别这件事,如果只看准确率,其实已经有不少系统做得相当好了。StepAudio 2.5在这个方向上的真正创新,在于同时解决了"准"和"快"两个目标,尤其是"快"——它用一种叫做"多词元预测"(MTP,Multi-Token Prediction)的技术,让每一步运算能同时输出多个词元,而不是一个个慢慢来。

这里需要先解释一下语言模型"生成文字"的基本方式。传统上,语言模型每次只预测下一个词,然后把这个词加入上下文,再预测再下一个词,如此循环。这就像一个人打字,每次只敲一个键,打完一个字才能开始打下一个字。MTP的思路,是在每次运算时额外"猜"未来几个词,如果猜对了就一次性接受,省下了多次运算的时间。

但在自由写作的场景里,未来的词很难猜准,因为语言有无数种走向。语音识别不同——声音信号的存在,大幅压缩了可能性空间。一段已经录好的音频,它的文字转写基本是确定的,所以"猜"未来的词准确率会高很多。研究团队把这个现象称为"声学确定性",正是利用了这种确定性,MTP在语音识别上能发挥比自由文本生成大得多的加速效果。

技术实现上,StepAudio 2.5 ASR在主解码器的基础上并联了5个MTP模块,每个模块负责预测未来第1到第5个词元。推理时,系统会先让主解码器正常运行,同时查看MTP模块的预测结果,如果预测吻合就接受,如果哪个位置不吻合就从那里截断,回到逐个生成的模式。这个验证机制保证了MTP只是"加速工具",而不会降低最终准确率。

训练这个模块分两步:先冻结主解码器,只训练5个MTP模块,让它们学会和主解码器的分布对齐;再解冻解码器,进行联合微调,消除主干和预测模块之间残余的不匹配。5个分支的损失权重按等比数列衰减,反映了越远的预测越不确定这一事实。

在数据方面,语音识别分支使用了约10万小时的短形式监督数据,覆盖普通话、英语和频繁出现的中英混合语音,包含多个垂直行业的专业术语以及远场录音、高噪声等复杂声学环境。长形式数据则额外构建了5万小时,采用了一套三系统投票的流水线:每段音频由三个不同的语音识别系统独立转写,再通过ROVER算法做词元级投票,只有至少两个系统一致同意的词元才被保留;不一致率超过5%的片段被丢弃,剩余片段拼接成长形式样本,最后再用大语言模型做标点恢复、逆向文本归一化和跨片段实体一致性处理。

测评结果相当亮眼。中文方面,平均字错误率降到2.97%,AISHELL-1上只有0.71%;英文方面,平均词错误率3.68%,LibriSpeech干净测试集上达到1.38%;长形式测试集上平均错误率3.70%,显著优于主要竞争对手。更重要的是实时率(RTF,即处理时间与音频时长之比)——处理一段30秒的音频,StepAudio 2.5只需要0.16秒,RTF为0.0053,比参与比较的所有系统都快,尽管它的解码器规模更大。MTP的加速效果经过实验验证:前5个位置的接受率分别约为0.95、0.88、0.80、0.71、0.64,平均每步接受5个词元(满分6个),加速效果实质性地超过了任何单纯扩大模型规模的方案。

五、语音合成分支:让机器"说话"有温度、有情绪

语音合成这个分支,在架构上做了一个有趣的选择:它完全去掉了声音编码器和适配器,整个系统只剩下语言模型解码器。声音词元被当作一种新的"语言"直接纳入语言模型的序列里,语音合成因此被重新定义为一个纯粹的"下一个词元预测"任务——只不过这里的"词",可以是文字,也可以是声音片段。

这个设计的核心挑战是:如何让模型理解"怎么说",而不只是"说什么"。输入给模型的不只是待朗读的文字,还有描述说话风格、情绪、语速、停顿等属性的控制指令,以及参考说话人的声音样本(用于零样本声音克隆)。模型需要把这些不同层次的信息融合起来,生成符合要求的声音词元序列。

训练分两个主要阶段。第一阶段是监督微调(SFT),又分两步:先用大规模合成数据做全局指令控制训练,让模型学会根据描述整体风格的指令生成相应的声音;再用经过精细标注的人声录音数据,训练同时包含全局指令和局部表达指令的联合控制,让模型能在一句话里的不同位置做出不同的表情变化。

局部表达指令的数据构建过程相当精细。研究团队从有对话背景或剧本的内部录音出发,先用Whisper-Large-v3转写,再用蒙特利尔强制对齐工具得到词级时间戳,切分成话语级样本。过滤掉对齐误差严重、转写不完整或时长过短的样本后,针对每段保留的录音,提取并量化了基频(F0)、语速、停顿统计、频谱重心、均方根能量、MFCC方差和谐波噪声比等声学特征。把这些量化的声学特征、转写文字和对话背景元数据拼接在一起,送给一个大语言模型,要求它输出两种标注:一个是描述整段话整体说话风格和情感状态的全局控制描述,另一个是在文字内部插入了段落级表达指令的局部表达描述。这两种标注共同构成了精细化表达控制的训练数据。

第二阶段是强化学习(RLHF)。这个阶段的核心工具是一个"生成式奖励模型"(GRM):对于每个输入提示词,训练数据提供一个高质量的参考回应;策略模型(即被训练的语音合成模型)生成一个候选回应;奖励模型把候选回应和参考回应放在一起比较,输出一个标量分数,表示候选回应相对于参考回应的质量高低;这个分数经过变换后作为强化学习的奖励信号,用于优化策略模型。这个机制让模型能从"比较好不好"的反馈中学习,而不只是从"这就是正确答案"的监督中学习,特别擅长处理复杂、抽象、依赖上下文的表达指令。

评测采用了"擂台赛式"的成对比较框架:两两对比,每场比赛由人工评审判断哪个系统的输出更好,最终用胜率衡量综合表现。参与比较的对手包括MiniMax-2.8-HD、ElevenLabs-v3和Gemini-3.1-Flash-TTS三个当前最具竞争力的系统。评测流程本身也经过严格设计:先做听觉敏感度筛选来选定评审员,评审员一旦确定就不再更换;模型音频对的选取和排列顺序随机化;评审员需要给出偏好理由;全程做周期性抽查;结束后对分歧较大的案例做额外核查。最终结果显示,StepAudio 2.5 TTS对MiniMax-2.8-HD的胜率为63.0%,对ElevenLabs-v3的胜率为80.0%,对Gemini-3.1-Flash-TTS的胜率为59.4%,综合胜率达到69.1%。

六、实时对话分支:一个有个性、有情绪感知的"说话大脑"

实时对话这个方向,是三个任务里挑战最复杂的。它不只需要"听懂"和"说出来",还需要在毫秒级的延迟内完成理解、推理和回应,同时保持多轮对话的连贯性、固定的人格特征,以及对用户声音里情绪和状态的感知。

研究团队把这些挑战分成四个维度:对话连贯性(多轮之间的主题和状态一致)、人格一致性(在各种用户输入下都维持设定的性格特征)、副语言敏感性(识别并回应迟疑、笑声、叹气、语速变化等非语言信号)和奖励稀疏性(对话质量缺乏单一明确的正确答案,很难用简单的对错来衡量)。

应对这些挑战的训练流程分三个阶段,但不涉及任何架构改动,所有工作都在训练策略和数据上完成。

第一阶段继承自基础预训练,称为"以音频为中心的中间训练",让模型具备扎实的音频感知和长文本推理能力,作为对话专项训练开始前的起点。

第二阶段是渐进式监督微调,沿着三个维度系统地注入对话能力。对话对齐方面,使用了包含丰富指令的多轮对话数据,训练模型维持轮次连贯性、处理口语中的不流利现象(如重复、打断、半句话中途改变),以及偏好口语化、适合发音的回应而非书面化表达。人格与风格控制方面,研究团队先由人工撰写并审核了超过10000个原生人格,然后通过算法"裂变"过程,把性格、口头习惯、情感边界和互动风格等维度的不同属性重新组合,生成百万级的人格矩阵,每个合成人格都与来自真实场景语料库的对话配对,确保人格属性有真实的交互背景支撑。副语言敏感性方面,使用了标注了"氛围描述符"(控制语速、重音和潜台词)和具体副语言线索标签(涵盖迟疑、轻笑、叹气、呼吸声、节奏变化、尾音下降等)的真实口语对话数据,让模型学会在推理链中记录这些线索,并据此调整回应的语气和节奏。

为了防止在逐步注入新能力的过程中遗忘旧能力,研究团队采用了"动态复习计划":根据验证指标持续把对话专项数据和通用指令数据及推理任务混合交替训练。

第三阶段是带有生成式奖励的强化学习。采用PPO(近端策略优化)算法加KL散度正则化,奖励信号来自两个一是生成式奖励模型对候选回应和参考回应的成对比较,捕捉整体回应质量;二是显式互动评分标准(rubric),专门针对需要一致性和忠实度的方面,比如跨轮次保持连贯、不违背用户之前说过的内容。生成式奖励模型比传统的标量奖励模型能捕捉更细粒度的人类偏好。训练数据混合了多轮对话(促进跨轮次一致性)和单轮提示词(允许更长的推理和更丰富的偏好表达)。

评测结合了主观和客观两种方式,覆盖五个测试套件:通过手机应用进行的主观真人评测(Step-Dialogue-Human-Eval)、通用对话的客观API评测(step_Dialogue_general)、车载场景对话的客观评测(step-Dialogue-car)、测试模型能否从声音信号直接推断年龄/性别/语速等特征的对话理解测试(Step-Dialogue-Understanding,87个样本),以及涵盖11个类别的音频问答基准(Step-SPQA)。参与比较的系统包括GPT-realtime-1.5、Gemini-live-202604和豆包Realtime-202604。StepAudio 2.5 Realtime在所有五个套件上均排名第一:主观人工评测上以80.41分领先第二名10分,Step-SPQA上以79.80分领先第二名16.6分,通用对话、车载对话和对话理解上的优势也都相当明显。

七、一个系统,三种能力,它意味着什么?

说到底,StepAudio 2.5这项研究最值得记住的,不是某一个具体的技术点,而是它证明的一件事:一旦文字和声音真正共享了同一个理解空间,让系统变得"专业"就不再是架构问题,而是训练方式的问题。

这个思路和过去的做法有根本的不同。过去的做法是:语音识别需要什么就设计什么架构,语音合成需要什么就设计什么架构,实时对话需要什么就再设计另一套。这种方式的代价,是每增加一个任务就要重新造一套系统,而且各个系统之间的信息无法流通。StepAudio 2.5的做法是:先建一个足够好的通用理解基础,然后用不同的训练目标、数据和解码策略,把这个基础分别"调校"成三个工作模式。

这也意味着,如果将来需要增加第四个、第五个音频相关的能力,不需要从头设计新系统,只需要在同一个基础上做新的调校。这是这项研究对于整个语音AI领域更长远的意义所在。

当然,这项研究也不是没有未被言明的局限:三个分支在实际部署时仍然是独立运行的,共享的是预训练权重而不是实时的推理状态;评测中使用的部分基准是研究团队自己建立的,独立可验证性有待进一步确认;实时对话的评测规模相对有限,大规模真实用户反馈还需时间积累。

对于普通用户来说,这项研究的近期影响,最可能体现在两个地方:一是语音助手和实时翻译类应用的体验改善,因为底层系统处理速度更快、对情绪和口语的理解更好;二是有声读物、配音、客服等依赖高质量语音合成的场景,可能会用上更自然、更有表现力的合成声音。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.23463找到完整的技术报告。

Q&A

Q1:StepAudio 2.5的语音识别速度为什么比其他同类系统快那么多?

A:StepAudio 2.5语音识别之所以快,核心在于一种叫"多词元预测"(MTP)的技术。传统语音识别模型每次只能输出一个词,而MTP允许模型每次同时"猜"后面5个词,如果猜对就一次性接受,省去了多次重复运算。因为语音识别有录好的音频作为参考,未来的词比较容易猜准,所以MTP在这个场景里特别有效。实测中,处理一段30秒音频只需约0.16秒,实时率(RTF)仅为0.0053,同时准确率几乎不受影响。

Q2:StepAudio 2.5 TTS和ElevenLabs、MiniMax这些系统相比,优势在哪里?

A:StepAudio 2.5 TTS在人工评审的成对比较中,对ElevenLabs-v3的胜率达到80%,对MiniMax-2.8-HD的胜率为63%,对Gemini-3.1-Flash-TTS的胜率为59.4%,综合胜率69.1%。主要优势体现在对复杂表达指令的理解上——它能在一段话的不同位置做出不同的情绪和语气变化,而不只是整体风格控制,这得益于引入了局部表达标注数据和基于人类偏好的强化学习训练。

Q3:StepAudio 2.5 Realtime怎么做到在保持"人格一致"的同时还能感知用户情绪?

A:研究团队把这两件事分别用不同数据解决,再通过渐进式课程训练把它们融合进同一个模型。人格一致性来自百万级的"人格矩阵"数据——把性格、口头习惯等属性重新组合成大量虚拟人格,每个配上真实场景对话训练。情绪感知则来自标注了迟疑、笑声、叹气等副语言线索的真实口语录音。两者都在模型的"思维链"(推理过程)里留下痕迹,使模型在生成回应前先"意识到"用户的情绪状态,再据此调整语气。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新