当前位置: 首页 » 资讯 » 科技头条 » 正文

视频生成告别“瞬移变形”,群核科技Hugging Face登顶背后:空间语言改写AI物理世界规则

IP属地 中国·北京 编辑:顾青青 钛媒体APP 时间:2025-09-01 12:16:25


AIGC技术正从文本、图像生成向更复杂的3D空间与视频领域延伸,但现有模型普遍面临两大核心挑战:一是对物理世界空间结构的理解不足,导致3D场景生成缺乏逻辑性;二是视频创作中因视角切换引发的时空一致性问题。

“何时人工智能从数字世界走向物理世界呢?我们认为空间智能就是这里面非常关键的桥梁。”群核科技联合创始人兼董事长黄晓煌表示。

而对于空间智能来说,它的核心是让AI真正理解物理世界的“语言”:要让AI学会用“空间语言”描述世界,这是它走进物理世界的第一步。

上周,杭州“六小龙”之一的群核科技正式宣布开源新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen。这是中国企业首次面向全球开发者开放专注于3D室内场景认知与生成的大模型体系。

让AI“读懂”空间的几何密码

此次发布的两款模型分别针对文章开头所提的两大痛点——SpatialLM 1.5通过“空间语言”实现3D场景的结构化生成与交互,SpatialGen则依托3D高斯技术保障多视角图像的空间连贯性。

前者生成的场景富含物理正确的结构化信息,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成,能够有效解决机器人训练数据难题;后者,专注于“生成与呈现”, 可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像。

据介绍,传统多模态模型(如GPT-4V、通义千问VLM)通过将图像切割为视觉Token与文本对齐,实现跨模态理解,但本质仍是对2D信息的处理。即VLM能描述“这是一张沙发”,但无法理解类似“沙发长2米、距墙50厘米”之类的空间信息,更不能基于这些数据生成可编辑的3D场景。

SpatialLM 1.5的突破在于,它将空间关系编码为“语言”,是非多模态的“语言模型”,它基于通义千问3小模型训练,通过“空间语言”指令实现3D场景的端到端生成。例如,用户输入“生成100平方米两居室,主卧含带扶手的老人床”,模型会输出包含墙线坐标、家具尺寸、物理参数的结构化脚本,并自动匹配资产库中的3D模型完成布局。

一个比较重要的维度就是空间理解。”周子寒解释。传统大模型生成的是自然语言描述,而SpatialLM输出的是可直接用于渲染、仿真的空间代码。这一能力也使其成为具身智能机器人训练的关键工具——群核科技现场演示显示,基于SpatialLM1.5生成的家庭场景,机器人可自主规划“从卧室取药到客厅”的路径,并规避障碍物。

能达到这样的效果,与群核平台自有的稀缺数据有很大关系。据介绍,3D数据的稀缺性是空间智能发展的核心瓶颈,互联网上有百亿级图像文本数据,但高质量3D场景不足千万级,且标注成本极高。

“我最早是在NVIDIA做Cuda,出来之后发现用GPU来加速物理世界的渲染一件非常有意思的事情。酷家乐大量积累的数据是可以用来训练空间理解模型、空间生成模型等,这些模型又可以进一步强化具能力,逐渐形成了一个工具、数据、模型三个环节相互循环的数据飞轮。”黄晓煌介绍。

基于公司早期创办的酷家乐这一全球最大的空间设计平台,截至2025年6月30日,群核科技拥有包含超过4.41亿个3D模型及超过5亿个结构化3D空间场景。

scaling law在AI视频模型上并不奏效

AI视频模型即使有scaling law,我们也不认为它能真正的理解现在的物理世界。”群核科技AI产品总监龙天泽表示。

当前AI视频生成工具(如Sora、即梦)常因视角切换导致物体“瞬移”“变形”,例如,在生成一条让高达跳舞的视频时,其腿部的反向扭曲、模型的穿透、移动时背景的混乱等,都是很典型的AI视频工具面临的真正问题。

“本质是它们基于2D图像序列训练,不懂3D空间规则。它学会了如何让上一帧图像在视觉上变的更像下一帧图像,不理解所谓的物理世界运行的基本逻辑。”龙天泽说。也正因此,scaling law在AI视频模型上似乎并不奏效。

群核此次开源的SpatialGen通过多视角扩散模型打破了这一局限。它以3D高斯场景为中间载体,输入单张参考图和布局图,即可生成任意视角的图像,且保证物体形状、位置在不同帧中一致。现场演示显示,基于SpatialGen生成的12秒漫游视频,第1秒与第12秒的窗户、摆件位置完全吻合。

让模型“先造世界,再拍视频”,“如同虚拟摄像机,在3D世界内拍摄,所以天然会具备空间逻辑。”这种方式使视频生成效率成倍提升,且支持比如“从厨房直接跳转到卧室”的非连续视角切换。

“我希望它生成某个视角的一张图的时候,只要将这个视角指定,就会按照约束去生成。因为它是一个任意视角的生成模型,所以避免了视频模型非常依赖时空一致性的局限,可以去跳跃着生成任何视角的图片。”周子寒补充。

群核科技也正计划基于SpatialGen年内推出一款AI视频创作工具,或许能够成为全球首款深度融合3D能力的AI视频生成Agent。“广告从业者真的有可能不需要太过于昂贵的团队和前期的资本投入就可以做出接近顶级水平的广告。工业设计师可以在几分钟内快速地为自己的产品完成一个demo,并且展示详细的功能,”龙天泽说。

现场,龙天泽以一款国产香水为原型,生成“日式风格下的落日光影”宣传视频,其在保持商品主体高保证还原的情况下,在复杂的运境和商品动效之下,依然保持了空间的一致性、画面的合理性,内容元素没有崩坏。

基于视频效果,这位香水主理人评价:“离香奈儿、迪奥有非常大的差距,但考虑到生成的时间成本和金钱成本,在目前是比较重大的突破了,对于一些廉价品牌而言,这些视频已经具备足够marketing的属性。”

开源,中国AI的“生态突围”

不过,群核开源两款空间智能模型,并非仅限于技术模型层面的突破。

“目前空间智能肯定还是在一个发展的初期阶段的,我觉得任何一家公司都不可能独享这个市场。”黄晓煌强调,“所以我们在不断地开源数据、模型,希望跟全世界最聪明的大脑,全世界最有创新能力的人一起将这个‘蛋糕’做大,这是我们战略很重要的一部分。”

这在某种程度上也意味着,这家中国企业在空间智能领域,尝试从技术研发迈向生态共建。

2018年,群核认为海量数据是能够训练出一些过去所不掌握的认知能力,于是决定学习李飞飞的ImageNet,开源全球最大空间认知数据集InteriorNet;今年3月,群核再次开源的SpatialLM 1.0,迅速登上Hugging Face趋势榜前三。

目前,其开源策略已引发海外关注,上月群核开源全球首个3D高斯数据集InteriorGS,在Hugging Face数据集中排到第一。“它的作用是什么?过去自动驾驶领域的争议在于,做空间认知要不要激光雷达还是纯视觉就行了?中国很多车厂是用激光雷达的,但二者能否统一?这个数据集开源之后,很多机构跑过来跟我们讨论3D高斯作为统一输入好像是可行。”黄晓煌透露。

这种影响力背后是技术路线的差异化。与李飞飞团队World Labs的“3D场景生成”不同,群核聚焦“可交互的功能场景”。周子寒评价,李飞飞团队公布的Demo在大范围漫游上表现不错,但与其他业内已推出的世界模型一样,以3D表征为基础的世界模型,都会在空间一致性上有所缺失。此外,在生成的物理属性上,群核生成的场景不仅能看,还能让机器人开门、取物,这是工业级应用的关键

“第一是真实感的全息漫游,第二是结构化可交互,第三是复杂的室内场景。”周子寒总结空间智能大模型的特点。基于此,周子寒也认为,基于空间智能大模型体系,工业软件领域曾经面临的“卡脖子”问题,中国企业有望探索出一条新路径。

“传统工业软件的‘卡脖子’源于底层复杂的几何算法,但空间大模型提供了新路径。通过找一些增量方式,将原来在传统软件不太能涉及的领域,进行补齐,就有能力打造一个之前缺失的几何内核的部分。”周子寒表示,即SpatialLM通过自然语言生成场景,在后续的探索中,有可能绕过传统CAD的复杂操作逻辑,“我们不做达索、Autodesk的替代品,而是创造‘AI原生’的设计工具——这就是弯道超车。”(本文首发钛媒体APP 作者 |秦聪慧)‌

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。