当前位置: 首页 » 资讯 » 科技头条 » 正文

美团LongCat-Video视频生成模型发布:可输出5分钟长视频

IP属地 中国·北京 编辑:陈阳 凤凰网科技 时间:2025-10-27 12:15:01

10月27日,美团官方宣布,美团LongCat团队正式发布LongCat-Video视频生成模型。该模型基于Diffusion Transformer架构,可支持文生视频、图生视频及视频续写三类核心任务,并宣称在开源模型中达到先进水平。

据介绍,LongCat-Video可生成720p分辨率、30帧率的高清视频,其突出特点在于能够原生生成长达5分钟的连贯视频内容。模型通过视频续写预训练、块稀疏注意力等机制,旨在解决长视频生成中常见的画面断裂、质量下降等问题,保持时序一致性与运动合理性。

在效率方面,该模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,据官方表示推理速度提升超过10倍。模型参数量为136亿,在VBench等公开测试中表现出较强的文本对齐与运动连贯性。

作为构建世界模型的技术尝试,LongCat-Video未来或可应用于自动驾驶模拟、具身智能等需要长时序建模的场景。该模型的发布标志着美团在视频生成与物理世界模拟领域迈出重要一步。

标签: 视频 模型 美团 时序 合理性 问题 官方 连贯性 文本 世界 一致性 质量 内容 场景 方面 效率 物理 水平 注意力 连贯 特点 标志 图生 建模 领域 技术 科技 核心 凤凰网 任务 画面 据介

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。