火山引擎发布豆包大模型1.8，多模态Agent能力进入全球第一梯队

IP属地中国·北京 智东西 时间：2025-12-18 16:17:57

智东西
作者 ZeR0
编辑漠影
智东西12月18日报道，今日，火山引擎在FORCE原动力大会上正式发布豆包大模型1.8及音视频创作模型Seedance 1.5 pro。评测数据显示，豆包大模型在多模态理解、生成能力及Agent能力上，已跻身全球第一梯队。
火山引擎总裁谭待称，截至今年12月，豆包大模型日均token使用量突破50万亿，较去年同期增长超过10倍。

目前其已有超过100家企业客户累计token使用量超过1万亿。

Seedance 1.5 pro音视频创作模型则实现了毫秒级的音画同步输出，支持多人多语言对话，口型对齐精准，而且生成的视频可展现出影视级叙事张力。
会后，谭待在接受媒体采访时进一步分享了Seedance 1.5 pro的优势，音画同步要不仅是声音和画面同步，还要做到与语义的同步，这需要很好的视频模型、大语言模型、语义模型作为基础，而豆包在这些领域均表现领先。
他透露，Seedance系列很快将上线“Draft样片”功能，通让预览视频更快，成本也更低。
一、豆包大模型1.8：更强Agent能力、升级多模态理解、更灵活上下文管理
作为豆包家族的最新旗舰模型，豆包大模型1.8（Doubao-Seed-1.8）面向多模态Agent场景进行了定向优化。

其工具调用能力、复杂指令遵循能力及OS Agent能力均得到增强，提升了模型在处理复杂任务时的规划与执行水平。

在视觉理解方面，豆包1.8的单次视频理解帧数从640帧倍增至1280帧。模型支持以低帧率理解超长视频，并能调用工具对关键片段进行高帧率理解。该能力可广泛用于在线教育、产品质检等场景中。

豆包1.8支持256K上下文，拥有更灵活的上下文管理，擅长复杂多步任务。

二、多模态理解、GUI Agent、数学与推理评测分数领先
在多项公开评测中，豆包1.8展现出具有竞争力的全面表现：在视觉推理、通用视觉问答、空间理解及视频理解等任务中，均获得最佳或接近最佳成绩；在通用智能体测评集BrowserComp上表现全球领先；在数学与推理等基础能力维度上，整体水平已接近全球顶尖的通用模型。

具体来看，在数学、推理和知识理解等核心基础能力维度上，豆包1.8的整体水平接近业界顶级通用模型。

该模型在多项复杂指令基准中保持了与业界领先模型接近的表现。

它还将能力验证扩展至由真实专家定义、具有明确经济价值的应用场景，包括教育辅导、客服问答、信息处理、意图识别、信息抽取以及多步骤复杂工作流等任务类型，验证了模型在真实使用环境中的适用性。

评测结果显示，豆包1.8具备业界领先的GUI Agent能力，在电脑、网页、移动端三类环境中，均展现出在不同系统和界面中执行多步任务的可靠性。

其搜索任务中表现同样突出，在多组公开Agent搜索评测基准中保持业界第一梯队水平，比如在BrowseComp-en基准测试中得分高达67.6，超过Gemini-3-Pro等其他顶级模型。

在Agentic Coding相关基准测试中，豆包1.8展现出了面向真实软件工程场景的稳定能力，表明其具备在真实开发环境中持续推进任务的Agent编程能力。

FinSearchComp和XpertBench的测评显示，该模型在处理金融商业相关任务时相对稳定和高效。该模型在WorldTravel多模态应用任务中得分达47.2，表明它在处理旅行规划、用户需求分析等真实场景需求时具有可靠性。

此外，豆包1.8在多模态推理任务中超越了前代模型Seed1.5-VL，在大部分任务中接近目前最先进的Gemini-3-Pro。
在被认为难度极高的视觉推理测试ZeroBench中，豆包1.8获得11.0的最高得分。

在通用视觉问答任务中，该模型在VLMsAreBiased基准测试中取得了62.0的分数，大幅领先其他模型。

豆包1.8在2D及3D空间理解的多个基准测试中表现优秀，在处理3D空间理解和复杂任务时，特别是在动态和复杂数据集上，表现出较好的适应性和推理能力。

在视频理解领域，该模型表现出色，尤其在视频推理、运动与感知、长视频理解等任务中展现出较强的适应性。它在动态场景和实时感知任务中也分数领先，展现了模型在复杂感知任务中的能力，尤其是在处理实时信息时的高效性。

豆包1.8在长视频理解任务中同样表现突出。

在视频处理中，它还实现了Token Efficiency的显著提升，既带来了更强的理解能力，又将提供更低延迟的实时视频处理体验。

豆包1.8通过引入多种Thinking Modes，嵌入了动态调节思考深度的能力。用户可根据任务的不同需求，灵活调整模型的推理深度和计算负载。

项目主页：https://seed.bytedance.com/seed1_8
部分为该模型研发构建的评测数据集已开源，或将在未来开源。
三、Seedance 1.5 pro：音画高精同步，支持多人多语言对话
针对日益增长的视频创作需求，火山引擎推出了Seedance 1.5 pro音视频创作模型。该模型不仅具备影视级的叙事张力，能够精准捕捉运动细节并细腻呈现人物情绪，更是展现出在音画高精同步方面的技术实力。

Seedance 1.5 pro采用创新的原生音视频联合生成架构，支持环境音、背景音乐、人声等多种元素，实现了毫秒级的音画同步输出。

在对白处理上，模型支持多人多语言对话，口型对齐精准，覆盖中文方言、英文及小语种，提升了视频内容的真实感与全球化创作潜力。

该模型可生成具有影视级叙事张力的视频效果。

为进一步降低创作门槛与成本，Seedance系列即将上线“Draft样片”功能。创作者可先生成低分辨率样片进行预览，其关键要素与最终成片高度一致，真正做到“预览即所得”。
数据显示，该功能可帮助创作者提升65%的整体效率，并减少60%的无效创作成本。

目前，个人用户已可在豆包、即梦AI等平台体验该模型。企业用户则可从12月23日起，通过火山引擎API接入Seedance 1.5 pro模型服务。

四、升级AI云原生架构，构建Agent规模化落地基座
谭待认为，传统的IT架构已无法满足Agent时代的需求，以模型为中心的AI云原生架构正在形成，并围绕Agent的开发与运营进行重构。

在Agent开发层面，火山引擎全面升级了企业级AI Agent平台——AgentKit。该平台覆盖了Agent从开发、部署到管控的全生命周期，旨在解决企业在Agent落地中面临的身份权限管理、模型确定性及系统集成等核心挑战。

在Agent运营层面，火山引擎推出了HiAgent智能体工作站。该工作站通过构建统一的企业AI任务调度中心、提供一系列开箱即用的通用智能体，以及支持个性化定制智能体应用，帮助企业实现Agent的规模化管理与应用。

此外，为降低企业使用门槛，火山引擎推出了业内首个“AI节省计划”。该计划覆盖所有按量后付费的大模型产品，通过阶梯式折扣，帮助企业最高节省47%的成本。

结语：从模型到基础设施升级，推动AI应用向复杂Agent生态演进
面向AI，火山引擎的AI云原生基础设施持续进化。

谭待谈道，通过从模型能力到基础设施的全面革新，火山引擎正在推动AI应用从单一的模型调用向复杂的Agent智能体生态演进，加速AI能力在各行各业的深度落地。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

拼多多雄安公司员工数量超600人，成新区最大互联网民营企业

Meta布局AI云业务拟对外出售额外算力

亚马逊投入10亿美元加入“抢人大战”

谷歌发布全新AI模型，4秒出图且调用成本大幅降低

FDE工程师薪资走高，亚马逊投入10亿美元加入“抢人大战”

字节决定赌一把

全站最新

拼多多雄安公司员工数量超600人，成新区最大互联网民营企业

Meta布局AI云业务拟对外出售额外算力

亚马逊投入10亿美元加入“抢人大战”

谷歌发布全新AI模型，4秒出图且调用成本大幅降低

热门推荐

拼多多雄安公司员工数量超600人，成新区最大互联网民营企业

Meta布局AI云业务拟对外出售额外算力

亚马逊投入10亿美元加入“抢人大战”

中国信达等在天津成立新合伙企业出资额约4.98亿

97年大模型技术专家孙天祥履新百度，引领基础模型研发新征程

特斯拉HW3老车主迎曙光：FSD V14 Lite推送，中国车型升级待定

谷歌发布全新AI模型，4秒出图且调用成本大幅降低

FDE工程师薪资走高，亚马逊投入10亿美元加入“抢人大战”

字节决定赌一把

锐奇股份等入股黑漫科技

年营收28亿，三战IPO的巴奴，能否凭高端品质火锅突围成功？

宇树科技：硬件领跑全球的人形机器人先锋，AI征途挑战几何？

TCL华星官宣独家供屏小米REDMI K90至尊版手机

从爆火到“无人问津”，网易CC直播官宣“退场”

盘前涨逾5%！报道：Meta筹划进军云计算市场，以出售富余的AI算力资源