Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

IP属地中国·北京 编辑：唐云泽 Chinaz 时间：2025-12-18 10:29:16

Meta正式推出音频处理领域的重磅突破——SAM Audio，全球首个统一的多模态音频分离模型。它能让用户像“用眼睛听声音”一样，从一段混杂的视频或音频中，一键提取出任意目标声音:点击视频中的吉他手，立刻分离出纯净吉他声;输入“狗吠”，自动过滤掉整段播客中的犬吠噪音;甚至只需圈定时间片段，即可精准剔除干扰音。这项技术首次将人类自然感知声音的方式——看、说、指、选——完整复刻到AI系统中。
SAM Audio的核心是其自研的感知编码器视听（PE-AV），被Meta称为模型的“耳朵”。该引擎基于今年4月开源的Meta Perception Encoder计算机视觉模型扩展而来，首次将高级视觉理解能力与音频信号深度融合，实现跨模态的声音定位与分离。
具体而言，SAM Audio支持三种直觉化交互方式，可单独或组合使用:
- 文本提示:输入“人声演唱”“汽车喇叭”等语义描述，自动提取对应声源;
- 视觉提示:在视频画面中点击发声物体（如说话的人、敲鼓的手），系统即分离其音频;
- 时间片段提示（行业首创）:标记目标声音出现的时间区间(如“3分12秒到3分18秒”)，模型自动处理整段录音中的同类声音——Meta将其类比为《赛博朋克2077》中的“超梦”技术。
为推动技术标准化，Meta同步开源两大关键工具:
- SAM Audio-Bench:首个基于真实场景的音频分离评测基准;
- SAM Audio Judge:全球首个专用于音频分离质量的自动评估模型，可量化判断分离结果的纯净度与完整性。
此次发布的PE-AV不仅是SAM Audio的底层引擎，还将赋能Meta其他AI产品，包括字幕生成、视频理解与智能剪辑系统。它的开源，意味着开发者未来可构建自己的“视听联觉”AI应用——从自动消噪会议记录，到沉浸式AR音频交互，再到无障碍辅助听觉设备。
在视频内容爆炸式增长的今天，SAM Audio的出现，标志着音频处理正式进入“可交互、可编辑、可理解”的新时代。过去，我们只能被动接收声音;现在，Meta让我们拥有了“选择性聆听”的超能力——而这，或许只是多模态AI重塑感官体验的第一步。
体验地址：
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

早安太空 · 网罗天下 | “手搓火箭的少年”为航天前辈颁奖

在微观尺度上探寻月球的历史（我身边的最强大脑）

人工智能大模型要敢于持续“摸高”（“咖”说科技）

云知声大模型业务营收暴增超10倍生成式AI商业化落地迎来爆发期

观“追觅俞浩改名”有感，互联网，请别把“企业家”逼成“网红”

鲜花店小程序开发：如何吸引更多线上顾客?哪个公司小程序做的好?

全站最新

早安太空 · 网罗天下 | “手搓火箭的少年”为航天前辈颁奖

在微观尺度上探寻月球的历史（我身边的最强大脑）

人工智能大模型要敢于持续“摸高”（“咖”说科技）

云知声大模型业务营收暴增超10倍生成式AI商业化落地迎来爆发期

热门推荐

早安太空 · 网罗天下 | “手搓火箭的少年”为航天前辈颁奖

在微观尺度上探寻月球的历史（我身边的最强大脑）

人工智能大模型要敢于持续“摸高”（“咖”说科技）

推动成果落地激发创新活力

云知声大模型业务营收暴增超10倍生成式AI商业化落地迎来爆发期

观“追觅俞浩改名”有感，互联网，请别把“企业家”逼成“网红”

鲜花店小程序开发：如何吸引更多线上顾客?哪个公司小程序做的好?

三家整合，马斯克要创造一个“科技巨无霸”？

谷歌开放世界模型，当AI开始“造世”

清华“姚班”大神加入OpenAi，全球巨头正疯狂抢顶级人才

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主