美团开源LongCat-Video支持高效长视频生成，迈出“世界模型”探索第一步

IP属地中国·北京 经济观察报 时间：2025-10-27 12:06:44

美团迈出通向“世界模型”的第一步，并计划用它更好地连接“原子世界”与“比特世界”。

▲美团发布并开源LongCat-Video视频生成模型，迈出通向“世界模型”的第一步（资料图）
10月27日，美团LongCat团队发布并开源LongCat-Video视频生成模型，以统一模型在文生、图生视频基础任务上达到开源SOTA（最先进水平），并依托原生视频续写任务预训练，实现分钟级长视频连贯生成，保障跨帧时序一致性与物理运动合理性，在长视频生成领域具备显著优势。
近年来，“世界模型”（World Model）因让人工智能真正理解、预测甚至重构真实世界，被业界视作通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统，“世界模型”赋予人工智能“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识，人工智能得以在数字空间中模拟、推演乃至预演真实世界的运行。
正因如此，美团LongCat团队认为，此次发布的视频生成模型，是为探索“世界模型”迈出的第一步。未来，凭借精准重构真实世界运行状态的能力，LongCat模型也会融入公司近年来持续投入的自动驾驶、具身智能等深度交互业务场景中，成为公司更好连接“比特世界”和“原子世界”的技术基础。

▲LongCat-Video视频生成模型视频推理速度提升至10.1倍（资料图）
具体来看，此次开源模型的技术报告显示，作为基于Diffusion Transformer（DiT）架构的多功能统一视频生成基座，LongCat-Video创新通过 “条件帧数量” 实现任务区分，原生支持三大核心任务：文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容，且无需额外模型适配，形成“文生/图生/视频续写”完整任务闭环。
此外，依托视频续写任务预训练，新模型可稳定输出5分钟级别的长视频，且无质量损失，达到行业顶尖水平。同时，从根源规避色彩漂移、画质降解、动作断裂等行业痛点，保障跨帧时序一致性与物理运动合理性，适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。模型还结合块稀疏注意力（BSA）与条件 token 缓存机制，大幅降低长视频推理冗余——即便处理 93 帧及以上长序列，仍能兼顾效率与生成质量稳定，打破长视频生成“时长与质量不可兼得”的瓶颈。
针对高分辨率、高帧率视频生成的计算瓶颈，LongCat-Video通过“二阶段粗到精生成（C2F）+ 块稀疏注意力（BSA）+ 模型蒸馏”三重优化，视频推理速度提升至10.1倍，实现效率与质量的最优平衡。

▲LongCat-Video视频生成模型在文生、图生视频基础任务上达到开源SOTA（资料图）
技术报告还称，LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开，覆盖 Text-to-Video（文本生成视频）、Image-to-Video（图像生成视频）两大核心任务，从多维度（文本对齐、图像对齐、视觉质量、运动质量、整体质量）验证模型性能：136亿参数的视频生成基座模型，在文生视频、图生视频两大核心任务中，综合性能均达到当前开源领域SOTA级别；通过文本 - 视频对齐、视觉质量、运动质量、整体质量四大维度评估，其性能在文本对齐度、运动连贯性等关键指标上展现显著优势；在VBench等公开基准测试中，LongCat-Video在参评模型中整体表现优异。
免责声明：本文观点仅代表作者本人，供参考、交流，不构成任何建议。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

滴滴在拉美：一场长期主义实验

微软高管誓言：若AI开始威胁人类，将立刻停止相关研发工作

AI教母李飞飞：在AI时代，信任绝不能外包给机器，它本质上属于人类，存在于个体、社区与社会层面

三只羊旗下三只狼电商公司高管变动于天奇卸任

“双11”都那样了为什么我们还需要“双12”？

别再说“双12”没人网购了

全站最新

滴滴在拉美：一场长期主义实验

微软高管誓言：若AI开始威胁人类，将立刻停止相关研发工作

AI教母李飞飞：在AI时代，信任绝不能外包给机器，它本质上属于人类，存在于个体、社区与社会层面

三只羊旗下三只狼电商公司高管变动于天奇卸任

热门推荐

滴滴在拉美：一场长期主义实验

微软高管誓言：若AI开始威胁人类，将立刻停止相关研发工作

AI教母李飞飞：在AI时代，信任绝不能外包给机器，它本质上属于人类，存在于个体、社区与社会层面

三只羊旗下三只狼电商公司高管变动于天奇卸任

“双11”都那样了为什么我们还需要“双12”？

别再说“双12”没人网购了

SK与福特在美合资电池企业解散暗示美国电动汽车行业格局生变

如何才能不被机器人替代经济学家杨德龙建议：通过资本来投资

消息称三星有意向高通、苹果开放“芯片降温30%”封装技术

千亿打水漂抢跑12年被3年反超 Meta沦为AI“搅屎棍”

AI时代的「社媒禁令」，可行吗？

2026前瞻：内娱男团，续上香火了？

Rokid高调对标Meta，但“涨价”仍是过不去的坎

为制造业装上“操作系统”：京东工业的上市故事

德基广场都进不去，潘多拉不想给中国市场花钱了