物理AI正从实验室走向真实世界,成为科技领域最受瞩目的新赛道。2026年被产业界视为物理AI元年,这一判断基于技术突破与资本涌入的双重驱动。英伟达CEO黄仁勋在年初CES展上17次提及该领域,宣称其"ChatGPT时刻已至"。数据显示,仅2026年一季度全球物理AI融资就突破64亿美元,其中AMI Labs完成10.3亿美元种子轮融资,World Labs获10亿美元注资,国内千寻智能更在三个月内完成四轮共计45亿元融资。
技术路线呈现多元化发展态势。基础模型层形成三条主要路径:以语言为中心的VLM模型、视觉-语言-动作融合的VLA模型,以及专注环境模拟的世界模型。英伟达推出的Alpamayo模型与开源的Isaac GR00T N1.6代表VLA路线进展;吉利汽车发布的WAM世界行为模型与谷歌DeepMind的Genie 3则展现世界模型潜力。值得关注的是,超过60%的企业选择同时布局两条技术路线,智元机器人、宇树科技等企业正探索VLA与世界模型的深度融合。
产业竞争格局远未定型。不同于数字AI领域巨头垄断的局面,物理AI的制造能力、数据资源、监管环境等关键要素分散在不同主体手中。Future Markets预测全球市场规模将在2040年达到3.26万亿美元,Coatue Management更给出6万亿美元的激进估值。这种市场预期与当前技术路线分歧形成鲜明对比——世界模型领域就存在四条主流技术路线:语言中心路线、像素中心路线、三维结构路线与视觉表征路线,每条路线都有代表性企业但均存在明显短板。
技术落地面临核心挑战。当前主流模型在空间理解能力上存在重大缺陷,这导致人形机器人在家庭场景中频繁"翻车"。某品牌机器人因无法识别随机摆放的杂物,在演示中打翻沙拉碗并摔倒的案例引发行业反思。这种现象暴露出技术发展失衡:VLA模型将90%算力用于语言处理,动作训练严重不足;世界模型则受困于高质量数据匮乏,难以建立真实物理规律认知。meta、谷歌等企业虽推出Segment Anything Model 3、Gemma 4等新模型,但均未彻底解决空间感知难题。
Om AI联汇选择差异化发展路径。该企业聚焦物理AI的基础能力建设,近期发布的VLX系列模型包含三大创新模块:持续感知模块VLX-Flow通过流式记忆机制实现视频流的连续理解,推理速度较传统模型提升3倍;精准定位模块VLX-Seek采用区域指代范式,在数据量减少70%的情况下实现毫米级定位精度;行动决策模块VLX-Go直接输出可执行航点轨迹,使设备具备自主导航能力。这种技术架构使模型参数规模压缩至0.6B,却能在工业巡检等场景实现0.1秒级实时响应。
端侧部署成为技术落地关键。在电力巡检、应急救援等场景中,网络延迟可能导致灾难性后果。VLX系列模型通过端侧原生架构设计,将决策闭环压缩至设备本地,使无人机在无GPS环境下仍能持续定位,工业机器人可在算力受限条件下完成复杂操作。这种"端侧优先"的研发理念与边缘计算发展趋势高度契合,目前已在云深处、宇树科技等企业的机器人产品中实现部署,覆盖公安、海事、自然资源等低空场景,并完成百万级安防摄像头的商业化接入。
技术评价标准正在发生转变。物理AI的核心价值不再取决于模型参数规模或生成内容逼真度,而是看其能否在真实场景中降低试错成本、提升泛化能力。某物流企业测试显示,搭载VLX模型的分拣机器人可将异常处理时间从15分钟缩短至90秒,设备停机率下降62%。这种量化业务价值正在重塑产业研发方向——超过40%的企业开始调整技术路线,将空间理解能力作为首要突破目标。
当前物理AI发展呈现"多路攀岩"特征。既有企业专注提升模型推理能力,也有团队强化环境预测模块,更多企业选择从基础能力切入构建技术壁垒。这种分化发展态势反映出产业认知的深化:物理AI不是单一技术突破,而是需要视觉、控制、材料等多学科协同的系统工程。随着VLX等原生架构模型的商用落地,行业正从技术竞赛转向场景深耕,真实部署反馈成为驱动技术迭代的核心动力。





京公网安备 11011402013531号