媒体播放器通用框架 FFmpeg 推出 AI 语音识别功能

IP属地中国·北京 编辑：顾雨柔 IT之家 时间：2025-08-14 00:24:53

IT之家 8 月 13 日消息，FFmpeg 是一个流行的开源媒体播放器通用框架，现在包含了一个新的 af_whisper 音频工具，可以直接在 FFmpeg 生态系统中实现自动语音识别（ASR）。

该工具使用了 whisper.cpp 库，为媒体处理工作流程添加了一个 AI 模型，允许进行灵活的音频转译文本，包括选择 AI 模型、指定语言以及设置输出格式，如文本、SRT 或 JSON。
该工具可以处理预录制的文件和实时音频流，用户还可以使用语音激活检测（VAD）来提高转写的准确性和效率。

IT之家注意到，该工具还支持 GPU 加速，可以显著加快转写过程。对于用户来说，这一功能取代了对外部、多步骤转写过程的需求，将任务整合到一个高效的单命令行工作流程中。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里云发布灵骏真武M890超节点实例

腾讯机器人按摩师走红WAIC：“要送进养老院”

什么是AI大模型？一文看懂改变世界的超级大脑

杭州90后“缝纫教父”用上AI超能力，百度搭子缘何成WAIC“镇馆之宝”？

蚂蚁集团发布智能体安全ASL协议及HOP 3.0，支付宝推出AI订阅服务

腾讯机器人按摩师走红WAIC：“要送进养老院”

全站最新

阿里云发布灵骏真武M890超节点实例

腾讯机器人按摩师走红WAIC：“要送进养老院”

什么是AI大模型？一文看懂改变世界的超级大脑

杭州90后“缝纫教父”用上AI超能力，百度搭子缘何成WAIC“镇馆之宝”？

热门推荐

WAIC 2026首秀！首款骑行机器人全球预订，三年有望持牌“合法上路”

智能体原生云与金融AI新碰撞：云厂商新范式如何重塑行业生产力？

全宇宙最爱拍照的个人机器人来了！好想把它带回家

阿里云发布灵骏真武M890超节点实例

腾讯机器人按摩师走红WAIC：“要送进养老院”

什么是AI大模型？一文看懂改变世界的超级大脑

杭州90后“缝纫教父”用上AI超能力，百度搭子缘何成WAIC“镇馆之宝”？

沃尔沃CEO：中国制造商做对了很多事情，我们必须尊重

阿里云灵骏真武M890超节点实例发布，AI算力服务实现新突破

小米18系列新机蓄势待发：Pro机型领衔，2nm芯+UWB技术引期待

蚂蚁集团发布智能体安全ASL协议及HOP 3.0，支付宝推出AI订阅服务

腾讯机器人按摩师走红WAIC：“要送进养老院”

腾讯首秀具身智能全栈方案，多款基座模型与智能体发布

全球首台机器人手机开启预约！荣耀开辟从“智能体手机”迈向“机器人手机”的新赛道

腾讯WorkBuddy APP正式发布：鸿蒙、iOS、安卓三端同步上线