据The Information披露。国内科技巨头字节跳动,目前正加速布局通用人工智能赛道,其核心人工智能部门Seed正在秘密研发对标Genie3、Meta V-JEPA 2的"世界模型"。
目前,字节跳动的世界模型项目已进入攻坚阶段,该项目由前通义千问核心成员周畅带队,依托抖音/TikTok的海量视频数据与自研E-4D框架,剑指虚拟世界模拟与机器人训练等前沿领域。
The Information表示,此次技术布局标志着字节跳动正式加入全球AI巨头争夺战。
何为“世界模型”,简单来说就是模拟真实环境的规律和人类互动方式,未来可用于训练机器人、自动驾驶系统或构建虚拟世界,被视为通向通用人工智能(AGI)的重要路径之一,其核心目标是通过构建可模拟真实物理规律的数字孪生环境。
据介绍,新模型将深度融合抖音日均超10亿次视频流数据,涵盖人物行为、物体运动、场景交互等多维度动态信息,为训练提供媲美真实世界的素材库。值得关注的是,近期开源的EX-4D技术将发挥关键作用,这项可将单目视频转化为4D多视角场景的创新框架,突破了传统单帧图像处理的局限性,为实现时空连续性的环境建模奠定基础。
在全球AI竞赛进入新阶段的背景下,字节跳动在AI领域的布局还是相对来说比较“低调”。
就以“世界模型”为例,谷歌Genie3凭借其"分钟级场景连贯性"和"文本驱动事件修改"功能已抢占先机,其720P分辨率、24帧每秒的生成能力,以及支持物理引擎自主学习的特性,已在游戏开发和机器人训练领域引发变革。
同样是“"世界模型”的标杆产品,Meta V-JEPA 2则以独特的联合嵌入预测架构实现物理推理能力突破,通过100万小时视频训练构建的预测模型,使机器人动作规划效率提升至同类产品的30倍。
面对巨头们的强势表现,字节跳动的新模型需在保持短视频数据处理优势的同时,突破物理仿真与长时程一致性等技术瓶颈。
从战略层面看,字节跳动的世界模型布局与其核心业务形成深度协同。
目前,抖音/TikTok积累的超20亿用户行为数据,为模型构建了独特的人物交互训练集;如果能结合旗下PICO 设备以及其他智能家居生态,那么未来或可构建虚实融合的交互场景,复制其在移动互联网时代的终端优势。