当前位置: 首页 » 资讯 » 科技头条 » 正文

Meta发布SAM Audio:全球首个支持“点击分离声音”的多模态音频模型,一键提取吉他声、人声或狗叫

IP属地 中国·北京 编辑:唐云泽 Chinaz 时间:2025-12-18 10:29:16

Meta正式推出音频处理领域的重磅突破——SAM Audio,全球首个统一的多模态音频分离模型。它能让用户像“用眼睛听声音”一样,从一段混杂的视频或音频中,一键提取出任意目标声音:点击视频中的吉他手,立刻分离出纯净吉他声;输入“狗吠”,自动过滤掉整段播客中的犬吠噪音;甚至只需圈定时间片段,即可精准剔除干扰音。这项技术首次将人类自然感知声音的方式——看、说、指、选——完整复刻到AI系统中。

SAM Audio的核心是其自研的感知编码器视听(PE-AV),被Meta称为模型的“耳朵”。该引擎基于今年4月开源的Meta Perception Encoder计算机视觉模型扩展而来,首次将高级视觉理解能力与音频信号深度融合,实现跨模态的声音定位与分离。

具体而言,SAM Audio支持三种直觉化交互方式,可单独或组合使用:

- 文本提示:输入“人声演唱”“汽车喇叭”等语义描述,自动提取对应声源;

- 视觉提示:在视频画面中点击发声物体(如说话的人、敲鼓的手),系统即分离其音频;

- 时间片段提示(行业首创):标记目标声音出现的时间区间(如“3分12秒到3分18秒”),模型自动处理整段录音中的同类声音——Meta将其类比为《赛博朋克2077》中的“超梦”技术。

为推动技术标准化,Meta同步开源两大关键工具:

- SAM Audio-Bench:首个基于真实场景的音频分离评测基准;

- SAM Audio Judge:全球首个专用于音频分离质量的自动评估模型,可量化判断分离结果的纯净度与完整性。

此次发布的PE-AV不仅是SAM Audio的底层引擎,还将赋能Meta其他AI产品,包括字幕生成、视频理解与智能剪辑系统。它的开源,意味着开发者未来可构建自己的“视听联觉”AI应用——从自动消噪会议记录,到沉浸式AR音频交互,再到无障碍辅助听觉设备。

在视频内容爆炸式增长的今天,SAM Audio的出现,标志着音频处理正式进入“可交互、可编辑、可理解”的新时代。过去,我们只能被动接收声音;现在,Meta让我们拥有了“选择性聆听”的超能力——而这,或许只是多模态AI重塑感官体验的第一步。

体验地址:

https://ai.meta.com/samaudio/

https://github.com/facebookresearch/sam-audio

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。