21世纪经济报道记者雷晨
在AI浪潮席卷全球的当下,科技巨头的竞争已从单一模型能力的比拼,升级为从芯片、算力到模型、应用,再到生态的全栈式竞争。
作为行业的后来者,字节跳动的AI棋局日渐清晰:纵向,完成从底层硬件到上层应用的全栈布局,形成成本与体验的“飞轮效应”;横向,以C端超级App流量与B端企业服务双轮驱动,构建一个强大的开放生态。
这条路通往何方?字节跳动的答案是:坚定长期投入,“追求智能上限”,服务产业应用。其全栈AI布局正加速渗透千行百业,推动中国数字化进程迈入“AI原生”的新阶段。
全栈AI布局,场景加速落地
近年来,字节跳动在AI基础技术研发上持续加大投入。
据华创证券报告显示,字节跳动基于互联网海量数据,积极建设海内外算力中心;同时,基于字节自研DPU的GPU实例,较上一代集群性能最高提升三倍以上。
此前有消息称,2025年,字节跳动计划在AI基础设施投入超120亿美元(约合人民币855.78亿元)。据悉,字节跳动2024年资本开支已达800亿元,2025年资本开支预计翻倍至1600亿元,主要用于自建算力中心与DPU芯片研发。
在模型架构方面,字节跳动最新开源的Seed-OSS-36B模型采用Apache-2.0许可证,支持原生512K上下文长度,并引入创新的“可控思维预算”机制。
用户可灵活调整模型的推理长度,支持动态控制思维预算,提升推理效率。这项技术针对推理任务专门优化,在AIME24达到91.7分,AIME25达到84.7分的优异表现。
多模态技术成为字节跳动近期最引人注目的突破点。Waver 1.0基于修正流Transformer架构,支持文本到视频、图像到视频和文本到图像的生成,无需切换模型。
统一架构实现多模态生成无缝切换,正在重构内容创作流程。
OmniHuman-1.5则通过“全方位条件训练”理念,彻底颠覆了对静态图像转动态视频的传统认知。该技术仅需一张人物照片和一段音频,就能让照片中的人物“活”起来,说话、唱歌、做手势,甚至表达各种情绪。
从产品矩阵来看,字节跳动的AI产品体系,由豆包领衔,实现多场景覆盖。
东方证券研报指出,ToC端字节AI应用布局全面,Chatbot豆包或为国内最大的AI Native应用。字节在AI应用各垂类如Chatbot、教育、图像视频、情感陪伴等均有产品上线,区域上产品在海外、国内基本一一对照,且同时布局于APP端和Web端。
根据QuestMobile发布的2025年春季数据,豆包拥有超1.1亿个用户,同比增长864.35%,位列榜单第二。豆包家族现已包含通用Pro/Lite、角色扮演、语音合成/识别、文生图、视频生成等十余款细分模型。
视频生成产品线尤为亮眼。Seedance 1.0 Pro在全球Artificial Analysis文生视频、图生视频双榜领先,5秒1080P视频生成成本仅3.67元。Waver 1.0可支持长达10秒的高质量视频生成,兼容多种艺术风格,在运动连贯性、画面清晰度和提示理解能力上超越现有模型。
企业级市场,HiAgent 2.0与豆包企业版双轮驱动。HiAgent 2.0采用“调度对话行动”三位一体架构,支持流程图/自然语言/API三种任务编排方式,内置100+行业模板库。
字节跳动还推出了系列AI硬件产品,包括AI耳机Ola Friend等AIoT产品。据火山引擎大模型智能硬件负责人刑孝慈介绍,截至6月11日,接入豆包的AIoT产品出货量超100万台,预计2025年年底这一数字有望突破1000万台。
硬件产品与软件生态形成互补,旨在构建更加完整的AI体验。
当前,字节自研的豆包大模型和火山引擎的AI云原生基础设施,正在加速向市场渗透。
截至今年6月份,豆包大模型已涵盖多模态、视频、图像、语音、音乐等模型品类,全方位推进智能提升和应用落地。
21世纪经济报道记者获悉,在行业应用上,豆包大模型服务着全球TOP10手机厂商中的9家、8成主流汽车品牌、70%的系统重要性银行及超5成985高校。
截至2025年5月底,豆包大模型日均Tokens使用量超过16.4万亿,较去年5月刚发布时增长137倍。IDC报告显示,2024年火山引擎在中国公有云大模型服务调用量上稳居第一,市场份额46.4%。
从模型到生态,字节AI进击
面对国内外科技巨头的激烈竞争,字节跳动正在构建自己的差异化优势。
SuperCLUE 2025年5月测评显示,字节“豆包1.5深度思考模型”与商汤“日日新V6”并列国内第一,超越谷歌Gemini 2.5 Flash。
价格策略方面,字节跳动首创“按输入长度区间定价”,0-32K段输入0.8元/百万Tokens,综合成本仅为竞品的1/3,推动大模型进入“厘时代”。
此前,火山引擎总裁谭待对21世纪经济报道记者指出,火山引擎的差异化优势体现在两方面:
一是规模优势。抖音、头条等内部业务运行在火山引擎上,使其成为中国计算规模最大的云厂商之一,通过规模化降低成本,为企业提供高性价比的多云服务。
二是AI原生能力。豆包大模型发展迅速,C端用户可直接体验(如下载豆包APP),形成B端与C端的协同。
谈及生态建设,他告诉记者,在行业联盟与共创方面,火山引擎已成立手机、汽车等行业联盟(如上海车展中豆包成为高频词),与头部企业合作;与金蝶、汉得等行业伙伴集成模型能力,拓展垂直领域。
“同时,我们还孵化创新企业,关注AI原生的企业服务初创公司,通过孵化器提供代金券和技术支持,助力其成长,推动中国AI企业服务‘弯道超车’。”他表示,未来火山引擎的目标是深化与零售、金融等行业的共创,孵化更多AIFirst企业,构建互利共赢的生态系统。
业内预计,AI应用将从尝鲜阶段进入必需品时代,而字节跳动显然已经做好了准备。
21世纪经济报道记者了解到,在字节跳动今年2月的All Hands大会上,定下年内的主要目标之一就是“追求智能上限”。年初,字节跳动还启动Seed Edge项目,要做比预训练和大模型迭代更长线、更基础的通用人工智能(AGI)前沿研究。
在6月11日举办的火山引擎FORCE原动力大会上,字节跳动CEO梁汝波说道:“一直以来,字节在技术创新上的投入非常大。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。”
他强调,做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。在AI大模型带来技术变革的时代,字节跳动要从“科技公司”进化到“创新科技公司”,在AI时代保持真正的技术竞争力。同时,也会通过火山引擎,持续把字节的新模型、新技术,开放给企业客户,让新技术接受市场的检验。
据记者梳理,字节跳动的AI发展路径已呈现出几个明显趋势。
一是技术融合将更加深入。多模态技术正在打破传统的内容生成边界,音频、文本、图像和视频的相互转换将更加流畅自然。AI与VR/AR技术的结合也可能成为下一个突破点。
二是应用生态将更加开放。火山引擎定位不只做“自有模型”,而是打造“模型超市”,汇聚智谱、MiniMax、百川等第三方大模型,提供精调、评测、推理全托管服务。这种开放策略有助于字节跳动构建更广泛的开发者生态。
三是人机交互方式将发生变革。梁汝波提到要探索新的交互方式,希望未来的产品更加便携、更自然。去年推出的OlaFriend耳机只是初步尝试,未来可能出现更多创新的交互设备。
值得一提的是,随着智能体中台技术成熟与行业模板库完善,企业级AI Agent将从单点效率提升转向全链路智能重构,推动中国企业数字化转型进入“AI原生”新阶段。