用外卖的打法做AI模型?美团这是跟“又快又稳”杠上了(doge)。
两个月哐哐发了多款模型后,美团依旧动作不停——
最新开源LongCat-Flash-Omni,从名字你也能看出来了(Omni意为“全能的”),没错,这款模型终于支持多模态了!
![]()
任务虽更复杂,但模型实力不减,一出手依旧是“开源即SOTA”:
在综合性的全模态基准测试(如Omni-Bench, WorldSense)上,超越Qwen3-Omni、Gemini-2.5-Flash,这款模型直接达到了开源SOTA水准,而且能和闭源的Gemini-2.5-Pro相媲美。
即使单拉出来文本、图像、音频、视频等各项模态能力,它也依旧能打(单项能力均位居开源模型前列),真正实现了“全模态不降智”。
![]()
而且啊,这款模型还有一个亮点,那就是“快”(天下武功唯快不破?)——
继承LongCat-Flash系列“快”的基因,这款Omni模型总参数560B,激活参数仅27B,这种“大总参小激活”的MoE架构,使其在保持庞大知识容量的同时,实现了极高的推理效率。
不妨来直观感受一下它的生成速度:

可以看到,从输入指令到生成第一个token的时间间隔非常短暂,整个过程相当丝滑。
据悉,在当前主流旗舰模型的性能标准和参数规模下,这是首个能够实现全模态实时交互的开源模型。
以及有意思的是,美团发布这一成果时恰逢“Cursor‘自研’模型套壳国产开源”的八卦发酵之际,因此美团AI实力被低估的看法正在受到热议。(网友os:看看人家外卖公司,对比过于惨烈~)
![]()
目前,这款模型已在美团旗下的LongCat APP和Web端上线,人人都能免费体验。
老规矩,一手实测火速走起~
实测美团新模型
打开LongCat APP,从首页可以看到,它目前支持文字/语音两种输入方式,并能进行语音通话(视频通话功能正在跑步入场中),Web端还支持上传图片和文件。
![]()
别的不说,最近很火的“让AI帮忙数羊哄睡”的服务自然不能落下。
![]()
视频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
好好好,AI你也偷懒是吧(doge)每数到三就跳到十,还能自圆其说是小羊干的,这下数到100还不是手拿把掐。
而眼见和LongCat聊天有点意思,那视频通话内测当然得继续安排上。
随手拿过一个用光的香水瓶,接连抛出几个问题:
这是什么?你能看到什么?瓶身上的字是什么意思?能带上飞机吗…
没想到LongCat丝毫不慌,仔细“看过”后挨个解答了我们的问题:
![]()
视频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
看来“能看会说”这种基本功,已经难不倒咱们多模态选手LongCat了。
咳咳,言归正传我们再来测试一下文本/图片的输入情况。
在典中典的六边形小球弹跳问题上,LongCat对物理世界规则的理解也表现不错:
Prompt:显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹。
由于贴心地附上了代码和可视化方案,所以我们火速把相关代码跑了出来,结果be like:

另外,在图片理解测试中,我们发现LongCat非常适合用来“玩梗”。
随便让它识别一张梗图,当我们还在苦思冥想时,人家秒秒钟给出了正确答案:
![]()
3,2,1,答案揭晓:鸭(压)岁钱。
![]()
最后再来看一下语音输入,我们找了段复杂环境下的骑手送餐录音,给LongCat上点难度。
![]()
音频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
nice,即使是在BGM和环境音的干扰下,LongCat也顺利识别出了人声信息,并给出了相应意见。
![]()
总之这波实测下来,对LongCat-Flash-Omni最大的感受就两个字——快、稳。
即使面对复杂多模态任务,它也能做到即时响应,整个交互体验尤为丝滑。
而且, 不管是聊天问答、语音识别,还是那种脑筋急转弯式的推理题,它都能第一时间接得住、接得对。
可以说,Omni既延续了LongCat系列在对话和深度思考方面的传统优势,将回答的专业度拉满,又自带“Flash”系列的快基因——
好好好,果然不愧是LongCat-Flash-Chat和LongCat-Flash-Thinking的亲传弟子(Chat主打快、Think主打专业)。

此时回看LongCat系列的成长路径,美团迭代模型的逻辑也很清晰了——先快、再专、后全。
速度优先。先把底层打通,把模型响应、语音识别、实时生成这几件事做到“丝滑不卡”。对用户来说,这就是“好用”的基础门槛。专业深耕。速度有了,再往深里卷。LongCat在复杂逻辑推理、物理仿真、嘈杂语音识别等领域,明显做了不少优化。可以看出,美团不只是要做一个“会聊的AI”,而是想做能在复杂场景下稳定发挥的“懂业务的AI”。第三步,全面拓展。虽然目前LongCat还没开放图片/视频生成功能,但结合美团在视觉、地图、语音导航这些本地服务领域的深厚积累,全模态路线几乎是板上钉钉。到时候文字、语音、视觉全打通,也就顺理成章了。
毕竟前不久,美团就已经单独发了一个视频模型LongCat-Video,其稳定生成长视频的能力(一般可生成5分钟)也给人留下深刻印象。
![]()
视频源自:@quarterturn;视频链接;https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
又快又全,怎么做到的?
其实,做全模态大模型的并不只有美团——只是要么做得不够好,要么做得没美团快。
毕竟要让AI“听得懂、看得清、反应快”,远比想象中难得多:
一曰多模态融合难度高。文本、语音、图像、视频……不同模态在结构和时间维度上差异明显,强制融合反而会导致单模态任务效果不佳,样样通但样样松。
二曰离线理解与流式交互难兼容。模型看懂是一回事,边看边说是另一回事。两种模式的处理逻辑差异巨大,难以在同一架构中结合。
三曰实时交互性能受限。现有模型能看能听,但一到实时对话就卡壳,延迟高、响应慢,用户体验感差。要想模型实时性好,就离不开高质量的模型架构设计和基础设施部署。
四曰大规模训练效率低。多模态模型数据量庞大,模块之间配合复杂,影响模型训练速度。
而LongCat-Flash-Omni之所以能够脱颖而出,关键在于它在架构层面重构了多模态融合的底层逻辑。
![]()
主干部分延续LongCat系列的高效架构设计,采用完全端到端的统一架构ScMoE,能够同时接收文本、音频、图像、视频及任意组合的多模态输入。
实时交互层面,团队设计了创新的流式音视频处理机制,通过分块式音视频特征交织策略,模型能够将音频与视频特征按照时间片段同步输入LLM,实现低延迟的实时语音生成与视觉响应。
训练上,模型采用渐进式早期多模融合训练,先从纯文本预训练出发,依次引入音频和视觉数据,再逐步建立跨模态语义对齐与时序建模能力。
再通过多阶段退火(指先大胆探索,再小心收敛)与上下文扩展训练,将上下文窗口扩展至128K tokens,最终模型在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势,并支持超8分钟的音视频交互。
![]()
而且为了提升多模态训练效率,团队还提出了模态解耦并行(MDP)训练方案,可以对LLM及编码器的性能、内存占用进行独立优化,确保训练过程中系统长期稳定运行。
正是凭借这种全模态覆盖+端到端架构+大参数量高效推理,LongCat-Flash-Omni达成了平衡:既有覆盖文本、图像、视频、语音的全模态能力,又能在开源体系下达到与闭源模型相媲美的实时交互体验,初步解决了参数大但推理慢的行业痛点。
软硬件“两条腿走路”,美团原来下的是这样一盘棋
u1s1,今年以来美团的一系列动作确实给人一种“眼花缭乱”的印象——
7月,它接连领投了两家明星具身智能企业它石智航&星海图;然后从8月底开始,又密集发布LongCat-Flash-Chat、LongCat-Flash-Thinking、LongCat-Video等一系列模型。
而且推出的AI新品也不少,包括AI编程应用NoCode、AI生活助手小美智能体……
人们不禁要问了:美团这是要干啥?
![]()
带着同款好奇,量子位在仔细梳理后发现,原来美团这些看似“东一榔头西一棒槌”的动作,实则内有乾坤。
总结下来就是,美团正在靠着软硬件“两条腿走路”,以最终实现数字世界(比特)和物理世界(原子)的深度连接。
没错,又是“连接”这个因为太抽象宏观而容易被大家忽视的点。记得美团方面曾表示:
我们是一家连接线下业务和线上世界的科技公司。
在AI时代,我们将继续扮演这样的连接者角色,实现数字世界和物理世界之间的连接,这是我们的强项所在。
这一目标落到实处即为,软件这边要朝着“世界模型”不断迈进,硬件这边则要围绕“具身智能”加速落地。
这背后的逻辑很清晰:作为一家从移动互联网起家的公司,美团比谁都清楚软件的威力。但越往产业深处走,它越意识到,要将软件的影响力延伸至物理世界,硬件是不可或缺的载体与瓶颈;而反过来,一个强大的“世界模型”,又能极大降低对硬件性能的苛刻要求,从而找到成本与效率的最优解。
有了这一判断基准,美团之前的所有动作就都能一一对号入座了。
比如说大模型,从最基础的对话机器人→深度思考模型→Video与Omni多模态模型,美团无疑是在为构建那个能深度理解现实并与其交互的“世界模型”打下根基。
而多年自研并频频出手投资具身智能,则是其“世界模型”能力在机器人、自动驾驶等关键场景中最核心的落地与兑现。
实际上,为了实现“世界模型+具身智能”的完美结合,美团如同一位老谋深算的棋手,其布局远比外界看到的更早、也更为体系化。
早在2017年,当无人化概念方兴未艾,美团方面就在一场行业峰会上提出了著名的“互联网下半场”概念——上天、入地、全球化。
其中“上天”即指用高科技赋能全行业。美团那时候就强调:
未来甚至会利用无人驾驶技术和机器人来配送。
由此可见,用科技重塑服务业的远见,早已深植于美团的战略构想之中。
通过盘点其历年投资的代表性项目,我们不难发现这样一条清晰的脉络:
2018~2020年,以加固美团本地生活护城河为目标,投资聚焦在消费领域。要么是美团本地生活业务延伸,如美菜网、普渡机器人;要么是消费品牌,如喜茶、蜜雪冰城。
2021年,当集团战略升级为“零售+科技”后,虽然消费项目仍是重点之一,但当中科技项目的占比开始提升。尤其在无人配送方面,一大批与机器人和自动驾驶相关的项目获得了美团青睐。
而从2022年开始,美团更是全面加码了科技投资。从自动驾驶,到半导体AI芯片、再到各类具身机器人,美团持续押注未来核心基础设施。
![]()
这些技术看似庞杂,但其内在逻辑高度统一——
美团投资的,早已不是某一种单一的机器人功能,而是“让整个物理世界都能被精确计算和高效调度”的整套技术路径。
在这条路径中,AI是大脑,低空飞行与自动驾驶是腿脚,它们共同构成了一个超越具身智能的、更宏大的Robotics版图。
关于具身智能,在刚刚落幕的2025美团机器人研究院学术年会上,美团副总裁毛一年清晰指出:
未来5到10年,具身智能正是这一切的核心技术范式。
![]()
他表示,美团的关键词是autonomy(无人化)——让技术驱动零售行业变革。过去数年,美团自研的无人机开始翻山跨海送汉堡、披萨,无人车完成了数以百万计的订单,风雨无阻,而机场、酒店、园区场景中,小黄蜂也在承担闪购配送任务。
(注:美团还是全国唯一获得民航局许可在中国全境合法飞行的无人机,而且在晚上也能飞。)
显而易见,在美团的战略拼图中,这些看似独立的智能终端,正逐渐串联成一张覆盖“低空—地面—社区”的立体化服务网络。 它们并非简单的设备叠加,而是美团将技术能力注入零售场景、实现系统效率跃迁的关键载体。
至此,美团在无数实践中沉淀出的核心方法论已不言自明——零售是场景,科技是赋能。
当AI成为大脑,机器人成为双手双脚,具身智能与世界模型结合,连接起的就不仅是线上线下,更是比特与原子、虚拟与现实、算法与人类生活。
Anyway,虽然美团从未正面讲述过它的“科技”图景,但方向其实早已明明白白——
帮大家吃得更好,生活更好。
只不过这回,美团要“喂饱”的,不止是胃,还有未来。
LongCat Chat(APP需自行下载): https://longcat.ai
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
GitHub: https://github.com/meituan-longcat/LongCat-Flash-Omni





京公网安备 11011402013531号