音频创作迎来新突破！Stability AI 发布 Stable Audio 3：长音频秒级生成

IP属地中国·北京 编辑：江紫萱 Chinaz 时间：2026-05-27 12:33:51

知名人工智能公司 Stability AI 近日正式发布了其最新一代音频大模型Stable Audio3，并同步开源了部分模型权重。作为一款专为音频生成与编辑设计的潜扩散模型，该系统不仅支持高品质的双声道立体声输出，更在生成速度上实现了质的飞跃。
本次发布的模型家族涵盖了从小到大多种规格，能够满足音乐创作和音效制作等多元化需求。值得一提的是，该模型支持可变长度的音频生成，并引入了基于内补成像技术的音频编辑功能，为创作者提供了前所未有的灵活性。
创新架构打破硬件限制
Stable Audio3在架构上由两大核心组件构成:一个被称为 SAME 的语义声学自编码器，以及一个高效的扩散变换器。其中，SAME 自编码器实现了高达4096倍的音频压缩率，这一突破性设计大幅缩短了潜在序列的长度。
得益于这一高效的压缩机制，即使是在普通的消费级硬件上，该模型也能够流畅地运行长周期、大篇幅的音频生成任务。这不仅显著降低了高品质音频创作的技术门槛，也让个人创作者在家中开展专业级音视频制作成为可能。
超高效率实现即时渲染
在 variable-length 技术的加持下，新模型的计算成本能够随着用户要求的音频时长动态缩放，彻底告别了以往固定长度带来的算力浪费。在高性能硬件的测试中，该模型仅需约0.62秒便可渲染出一段20秒的音频，而生成长达380秒的音乐也仅需1.31秒。
此外，通过创新的三阶段训练流程，Stable Audio3在推理阶段不再依赖传统的无分类器指导技术，从而实现了单步前向传播的极速体验。目前，面向大众开放的小型和中型模型权重已在 Hugging Face 平台上线，而性能更强悍的大型版本则将通过商业授权形式提供。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

慧仑科技与京东达成深度战略合作

【产业数字化半年报】京东工业换帅嘉立创开思等多家企业IPO

豆包、千问下线智能体，AI拟人监管新规即将施行：它能懂你，但不准制造依赖

最好的 AI 老师，正在学会闭嘴

不再昂贵！OpenAI、Meta、SpaceX发力高性价比模型

趋势前瞻！AI大模型时代OCR表格识别的技术新迭代

全站最新

慧仑科技与京东达成深度战略合作

【产业数字化半年报】京东工业换帅嘉立创开思等多家企业IPO

豆包、千问下线智能体，AI拟人监管新规即将施行：它能懂你，但不准制造依赖

最好的 AI 老师，正在学会闭嘴

热门推荐

雷军亲测小米澎程：历经极端环境累计实测428万公里待发布

谷歌8月12日发布会重磅来袭，Pixel 11系列四款新机携Pixel Watch 5登场

慧仑科技与京东达成深度战略合作

【产业数字化半年报】京东工业换帅嘉立创开思等多家企业IPO

豆包、千问下线智能体，AI拟人监管新规即将施行：它能懂你，但不准制造依赖

最好的 AI 老师，正在学会闭嘴

不再昂贵！OpenAI、Meta、SpaceX发力高性价比模型

趋势前瞻！AI大模型时代OCR表格识别的技术新迭代

多伦多大学等团队研发TAC系统：为AI大模型定制“跨领域提升课表”

国产新能源电轿“运动”新赛道：配置趋同下如何讲好品牌故事？

腾讯混元新模型 Hy3 调用激增，已紧急扩容

五问＋一图，读懂《关于推动互联网基础资源高质量发展的指导意见》

全球首颗软件定义3D芯片发布

6月车市50款新车扎堆上市：新能源主导市场下半年竞争白热化

星链“织网”抢占太空资源，中国低轨星座加速布局另辟新赛道