能看懂、听懂！豆包Seed 2.0 Lite升级：首款全模态理解模型

IP属地中国·北京 编辑：任飞扬 Chinaz 时间：2026-05-07 00:20:28

5月6日消息，今日，火山引擎宣布，Doubao-Seed-2.0-lite升级新版本，这是豆包大模型家族首款全模态理解模型。
据介绍，新版Doubao-Seed-2.0-lite支持视频、图像、音频、文本的原生统一理解，Agent、Coding与GUI能力也同步升级，进一步面向复杂业务场景增强多模态推理能力。
在视觉理解方面，Doubao-Seed-2.0-lite继续大幅提升，在物理HiPhO、医疗MedXpertQA等高阶学科推理任务上，新版本表现已大幅超越今年2月发布的Doubao-Seed-2.0-pro。
同时，该模型在细粒度感知BabyVision、WorldVQA，以及具身理解ERQA等关键领域达到SOTA水平，更适合企业在高价值场景中进行规模化部署。
加粗表示最优结果，下划线表示次优结果
此次升级的一大重点是融入语音理解能力，新版本可同时理解多种输入模态，并完成跨模态联合推理，能够直接处理那些必须音画结合”才能判断的复杂业务需求。
例如在视频理解场景下，Doubao-Seed-2.0-lite可以联合分析视频画面与音频信息，精准判断视频中的视听一致性，也就是看到的”和听到的”是否匹配。
它还支持根据自然语言指令，在视频中精准定位特定事件发生的时间点，并能跨越多个时间段提取关键线索，持续追踪人物与事件发展，基于画面进行多步逻辑推理，还原事件关系与行为脉络。
音频能力方面，新模型支持19个语种的精准语音转写，以及中英文与其他14个语种互译。
此外，它还能捕捉语音中的情绪变化、环境背景声与音乐细节，输出更完整、更接近人类认知的语义信息。
根据公开评测集，Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上优于Gemini-3.1-Pro。
值得一提的是，Doubao-Seed-2.0-lite还深度适配OpenClaw、Hermes Agent等框架，强化深度搜索与Skill动态调用，可在执行任务过程中持续沉淀经验，实现越用越聪明”。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

美食直达登机口｜青岛机场联合美团正式上线登机口智能送餐服务

刚刚，谷歌诺贝尔奖得主被Anthropic收编

小红书计划本月底前秘密在港递表，估值曾达310亿美元

消息称小红书拟秘密赴港递交IPO申请

在线观看人数暴涨55倍，世界杯直播创造小红书直播新纪录

倒闭半年渝见小面店被告侵权案刚刚撤诉

全站最新

美食直达登机口｜青岛机场联合美团正式上线登机口智能送餐服务

刚刚，谷歌诺贝尔奖得主被Anthropic收编

小红书计划本月底前秘密在港递表，估值曾达310亿美元

消息称小红书拟秘密赴港递交IPO申请

热门推荐

华为Mate XT2首发U型阔三折：彻底解决内屏易刮花痛点

荣耀X80 Pro Max现身电信终端产品库 11000mAh行业最大电池出门告别充电宝

美食直达登机口｜青岛机场联合美团正式上线登机口智能送餐服务

刚刚，谷歌诺贝尔奖得主被Anthropic收编

小红书计划本月底前秘密在港递表，估值曾达310亿美元

消息称小红书拟秘密赴港递交IPO申请

在线观看人数暴涨55倍，世界杯直播创造小红书直播新纪录

倒闭半年渝见小面店被告侵权案刚刚撤诉

泡泡玛特首款自研手游《梦想家园》将停运

对话美的集团张小懿：一年Token花几千万，买了几千张卡

SpaceX夜盘大涨16%

被曝拖欠赞助费与员工薪资？匹克董事长回应

重庆小面协会：重庆小面是地域公共品牌，不支持单一企业独家垄断

今日大厂员工事：可灵主体换签；阿里qoder合并；百度陈竞凯离职

滴滴8.0不止打车，把壁垒藏在千万次服务里