当前位置: 首页 » 资讯 » 科技头条 » 正文

群核科技空间大模型新突破:有望破解AI视频生成时空一致性瓶颈

IP属地 中国·北京 编辑:顾雨柔 ITBEAR 时间:2025-08-26 16:21:54

在人工智能视频生成领域,尽管技术日新月异,但仍面临着一系列挑战,其中最为突出的便是时空一致性问题。这一问题如同一道枷锁,束缚着AI视频技术向商业化迈进的步伐,导致生成的视频中常常出现物体位置错乱、空间逻辑不连贯以及遮挡关系错误等现象。

近日,群核科技在其首届技术开放日(TechDay)上,隆重推出了两款旨在解决上述难题的新模型——SpatialLM 1.5与SpatialGen。这两款模型不仅代表了群核科技在空间智能领域的最新研究成果,更为整个行业带来了全新的技术范式。

SpatialLM 1.5是一款基于大语言模型训练的空间语言模型,它打破了传统大语言模型对物理世界理解的局限,能够不仅理解文本指令,还能生成包含空间结构、物体关系以及物理参数的“空间语言”。这一特性使得SpatialLM 1.5能够生成富含物理正确性的结构化信息场景,且能够快速批量产出多样化的符合要求场景,为机器人路径规划、避障训练等领域提供了丰富的数据支持。

在活动现场,群核科技首席科学家周子寒通过演示展示了SpatialLM 1.5在机器人养老场景中的应用。当输入“去客厅餐桌拿药”的指令后,模型不仅准确识别了相关物体,还自动规划出了最优行动路径,展现了机器人在复杂家庭环境中执行任务的巨大潜力。

而SpatialGen则是一款专注于“生成与呈现”的多视角图像生成模型。它基于扩散模型架构,能够根据文字描述、参考图像以及3D空间布局,生成具有时空一致性的多视角图像,并进一步生成3D高斯(3DGS)场景并渲染漫游视频。在群核科技的体验区,记者亲眼见证了SpatialGen如何将一张静止的老屋照片和一张3D布局草图,转化为一段可360°漫游的动态空间视频,静止的场景仿佛被赋予了生命,生动逼真。

这两款模型的发布,对于电商、设计、电影等多个行业来说,无疑是一剂强心针。这些行业的AI创作者们长期面临着视角切换导致的时空一致性问题,使得生成的视频质量大打折扣。而SpatialLM 1.5与SpatialGen的推出,有望从根本上解决这一问题,推动AI视频技术向更高层次发展。

知名导演、AIGC创作者神思远在活动现场表示,尽管目前AI视频生成工具层出不穷,但在人物一致性与时空一致性问题上仍难以满足影视级要求。他期待群核科技的新模型能够为电影行业带来更加高效、可控的AI解决方案,加速电影制作的工业化进程。

群核科技AI产品总监龙天泽也透露,他们正在研发一款基于3D技术的AI视频生成产品,并计划在今年内正式发布。这款产品将深度融合3D能力,通过构建3D渲染与视频增强一体化的生成管线,有望显著弥补当前AIGC视频生成中时空一致性不足的问题。

据悉,SpatialLM 1.5与SpatialGen将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。其中,SpatialGen已在技术开放日当天开放下载使用,而SpatialLM 1.5也将以“SpatialLM-Chat”的形式完成开源。这一举措无疑将为全球开发者提供更为广阔的技术探索空间,共同推动AI视频技术的创新发展。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。