当前位置: 首页 » 资讯 » 科技头条 » 正文

AI造游戏,香港中文大学团队验出真相:最强模型也只答对四成题

IP属地 中国·北京 科技行者 时间:2026-06-19 22:22:01


这项由香港中文大学(深圳)、深圳鹏城湾区研究院、腾讯混元团队、北京科技大学、上海交通大学、南洋理工大学等多所机构联合开展的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.17861,感兴趣的读者可通过该编号查阅完整原文。

你有没有想过,让AI直接帮你做一款完整的游戏,不用写任何代码,只需要告诉它"我要一个像素风的横版跳跳游戏,玩家要收集金币、躲避敌人",几分钟后AI就把一个真正可以运行的游戏递到你手里?这个场景正在变成现实——但现实是否如想象般美好,这群研究者决定认真测一测。

他们搭建了一个叫做GameCraft-Bench的测试平台,专门用来考察当前最顶尖的AI编程助手到底能不能从零开始生成一款完整、可玩的游戏。结果相当清醒:即便是表现最好的AI,100道题也只能拿到41分多一点,大多数AI的得分徘徊在40分以下,有的甚至只有2分。这不是程序出了bug,而是AI在"做游戏"这件事上,真的还差得很远。

一、为什么造游戏是一道特别难的考题

要理解这个问题的难处,得先明白游戏和普通软件有什么本质区别。写一个计算器程序,只要输入正确、输出正确,任务就完成了。但一款游戏不一样——它必须是活的。玩家按下空格键,角色要跳起来;撞到敌人,血量要减少;收集到金币,界面上的数字要随之跳动;打败最后一个Boss,要出现胜利画面。

换句话说,游戏的核心是"互动"。不是代码看起来对,而是玩家拿到手后真的能玩,而且玩起来有反馈、有进展、有挑战。正因如此,研究团队认为评判一个AI能不能做游戏,必须满足三个条件,缺一不可。

第一个条件是"在真实的游戏引擎里开发"。什么叫真实的游戏引擎?可以把它理解成游戏的"操作系统",就像手机需要安卓或iOS才能运行App,游戏也需要专门的引擎来处理物理碰撞、画面渲染、声音播放、场景切换等等。如果只是在网页上写一段简单的代码,那充其量是在玩具沙盘里堆积木,离真正做游戏还差得很远。研究团队选择了Godot这款开源游戏引擎作为测试环境,因为它免费开源、轻量,支持命令行操作,非常适合做大规模的自动化测试,而Unity或虚幻引擎则因为安装复杂、授权限制等原因不太适合这种场景。

第二个条件是"交出一个完整的游戏项目"。AI不能只写几段代码然后说"剩下的你自己装配"。一款完整的游戏需要场景文件、脚本、图片素材、UI界面、输入设置、配置文件……这些东西必须全部就位,而且要能直接运行。研究团队把这叫做"工件完整性",只要游戏无法直接启动,得分直接清零,没有商量余地。

第三个条件是"通过真实互动来验证"。这是最关键也最有意思的一条。评判一款游戏好不好,不能只看代码写得漂不漂亮,也不能只截个静态画面,必须真正"玩"起来,看玩家按下按键后游戏有没有正确反应。研究团队的做法是:让AI在提交游戏的同时,也提交一套"操作录像"——一组记录了鼠标点击、键盘输入时间轴的JSON文件,系统会自动重放这些操作,录下游戏画面,再由一个多模态AI裁判来看着视频打分。

这三个条件组合在一起,构成了目前最严格、最贴近真实游戏开发要求的AI评测框架。

二、这场考试长什么样

GameCraft-Bench一共包含140道题,分属15个游戏类别。横版跳跳游戏(Platformer)有19道,策略游戏有17道,经营模拟类(Tycoon)有16道,开放世界有15道,Roguelike有14道,视觉小说有11道……此外还涵盖了益智解谜、射击、体育、卡牌、恐怖、音乐节奏、休闲放置、赛车等类别,几乎把主流游戏类型全部覆盖。

每一道题都包含三层内容。AI能看到的是一份"游戏说明书",以自然语言写成,风格就像真实的游戏策划文档——它会告诉AI要做一款什么感觉的游戏、核心玩法是什么、玩家会经历什么、视觉风格应该是怎样的,但不会告诉AI具体怎么实现。AI看不到的是一份评分标准,由12位有丰富游戏经验的标注员撰写,从核心机制、内容丰富度、画面功能性、美术呈现四个维度详细列出可观察的评分要点。

为了确保每道题的设计是合理的,每位标注员在写完说明书和评分标准之后,还必须自己动手在Godot里写一个简单的"验证版本"——不需要多好看,但必须能运行,而且能通过回放演示展示所有评分要点。如果写不出来,说明题目本身有问题,得修改直到能实现为止。这个环节保证了每道题对AI来说是公平的、可完成的。

AI拿到任务后,有两小时时间在配备了Godot引擎、素材库(包含Kenney CC0免费素材包和OpenGameArt的开源素材)的工作区里自由发挥。它可以写代码、运行游戏、截图查看效果、根据运行结果修改代码——不限制工具调用次数,只要在时间内交卷就行。最终提交物是一个完整的Godot项目加上一到十个操作录像文件。

评分的时候,系统先检查游戏能不能启动。启动失败,直接0分。能启动的话,系统就按照提交的操作录像重放游戏,录下视频,每0.5秒截一帧画面,然后把这些画面和评分标准一起喂给GPT-5.5这个多模态AI裁判打分。裁判针对每一条标准给出0到1之间的分数,最后按加权公式汇总成最终得分。其中"内容丰富度"和"美术呈现"各占35%的权重,"核心机制"和"画面功能性"各占15%,这是因为团队认为一款真正完整的游戏不能只是跑通了逻辑,还得有足够的内容量和视觉品质。

三、七位选手登场,成绩出乎意料

测试覆盖了七个当前最强的AI编程助手配置。参加测试的有:Anthropic公司的Claude Code搭配Opus-4.7和MiMo-V2.5-Pro两种模型,OpenAI的Codex搭配GPT-5.5和DeepSeek-V4-Pro,Kimi Code搭配Kimi-K2.6,以及Code Buddy搭配GLM-5.1和MiniMax-M2.7。每个配置都在全部140道题上跑了一遍,条件完全相同。

成绩单如下:Claude Code搭配Opus-4.7在"高配"模式下以41.46%的总分拿下第一,GPT-5.5高配紧随其后,得了39.49%,Kimi-K2.6拿到30.65%,MiMo-V2.5-Pro得了24.10%,GLM-5.1拿到18.29%,MiniMax-M2.7得了10.95%,而DeepSeek-V4-Pro只有2.15%。

前两名的差距其实非常小,但和第三名开始就有明显落差。DeepSeek-V4-Pro的情况有些特殊:它的游戏启动成功率只有25.6%,远低于其他选手的90%以上,这意味着它提交的大多数游戏项目根本无法运行,自然得分极低。此外,DeepSeek-V4-Pro还经常忽略提交操作录像的要求,导致即便游戏能启动,也因为没有回放文件而无法打分。

从各维度来看,有一个一致的规律:所有AI在"核心机制"这个维度的得分都明显高于其他三个维度。以Opus-4.7为例,它的核心机制得分是55.34%,内容丰富度是39.48%,画面功能性是42.78%,美术呈现是36.86%。Kimi-K2.6的核心机制是39.76%,美术呈现只有27.99%。这个规律说明:AI通常能搭出一个"能跑"的游戏骨架,但很难把它填充成一个有内容、有颜值、有完整体验的真正游戏。

四、成功的秘诀:会看画面才能调出好游戏

研究团队在分析各AI的工作方式时发现了一个有趣的现象:那些愿意频繁截图、用眼睛看游戏实际长什么样的AI,往往做出来的游戏质量更高。

Kimi-K2.6在140道题的作答过程中,共调用截图工具2998次,平均每道题截了21.41张图,只有4道题全程没有截图。Opus-4.7截了1952次,平均每题13.94次。相比之下,GPT-5.5只截了268次,平均每题不到2次。

为什么截图很重要?因为很多问题在代码层面根本看不出来,必须真的把游戏渲染出来才能发现。比如摄像机框错了位置,比如UI界面文字重叠,比如场景里的碰撞体和视觉图形对不上……这些问题如果只看代码,可能一切正常,但一旦截图,立刻就能看出破绽。

研究团队举了Kimi-K2.6做策略游戏"Strategy-Skirmish"的例子:Kimi反复截图,发现了单位摆放位置偏差、选中高亮没有显示、网格布局不对等问题,并据此一一修正,最终做出了一个有相当视觉辨识度的深色幻想风格战棋游戏。从初始截图到最终版本,可以明显看到游戏品质在"看-改-看-改"的循环中稳步提升。

五、失败的陷阱:代码写得越多≠游戏做得越好

MiMo-V2.5-Pro提供了另一个角度的启示。这个AI有个明显的工作习惯:先用极快的速度把所有文件全部写完——project.godot、所有GDScript脚本、所有场景文件——然后再进入漫长的调试循环。问题在于,它的调试工具中有56.3%是Shell命令(也就是在命令行里跑各种调试指令),而真正用来读代码和改代码的操作只占了16.5%。

研究团队统计发现,MiMo-V2.5-Pro平均每道题用了128次工具调用,但工具调用次数和最终得分之间的相关系数只有可怜的+0.016,也就是说,调用工具越多并不等于游戏做得越好,两者几乎毫无关系。

更有意思的是,MiMo-V2.5-Pro有5道题得了0分,但这5道题的游戏全都成功启动了。问题出在哪里?出在没有提交操作录像。游戏做好了,却忘记告诉评分系统"应该怎么玩",导致评分系统无从打分,全部清零。这是一个纯粹的"任务完成意识"缺失,和编程能力完全无关——更像是一个学生做完了试卷却忘记写名字,白白丢分。

六、裁判可靠吗?人类和AI打分有多大差距

既然评分是由AI裁判来完成的,裁判本身靠不靠谱就是一个值得认真检验的问题。研究团队做了两个验证实验。

第一个实验检验"稳定性":固定同一批游戏录像和评分标准,让GPT-5.5裁判重复打10次分,看每次分数是否一致。结果非常稳定:Kimi-K2.6在卡牌游戏类别上的标准差只有0.0037,在模拟游戏上是0.0038,Opus-4.7的标准差是0.0050和0.0036。这些波动幅度远小于不同AI之间的得分差距,说明排名结果是可信的,不会因为裁判"发挥失常"而颠倒。

第二个实验检验"与人类的一致性":研究人员找了人类评分员,对Kimi-K2.6提交的卡牌游戏、休闲放置游戏、赛车游戏三个类别的录像进行独立评分,然后和AI裁判的打分做比对。总体来看,AI裁判比人类略宽松一些,综合偏差约3.32个百分点。细分来看,AI裁判在"内容丰富度"和"美术呈现"两个维度上比人类打分更高,而在"画面功能性"上比人类更严格。其中差距最大的是休闲放置游戏,AI裁判高出人类8.76个百分点,说明对于内容深度和视觉呈现的判断,AI裁判的标准还有进一步校准的空间。

七、四个维度是各自为政,还是紧密相连?

研究团队还有一个想探索的问题:核心机制、内容丰富度、画面功能性、美术呈现这四个评分维度,是不是高度捆绑的——某一样好了,其他的也自然好?

以Kimi-K2.6的数据来看,核心机制和内容丰富度之间的相关系数是0.61,核心机制和画面功能性之间是0.53——这说明这两组之间确实有一定联系,通常一个游戏的交互循环做得好,它的游戏状态信息和视觉反馈也往往更丰富。但美术呈现和画面功能性之间的相关系数只有0.11,几乎没有关系——换句话说,一个游戏能不能"看懂",和它"好不好看",基本上是两件完全独立的事情。

MiMo-V2.5-Pro的数据格局略有不同,它的四个维度之间整体耦合度更高一些,美术呈现和核心机制的相关系数达到0.56,但和画面功能性之间也只有0.26。这个结论对AI开发者来说很有参考价值:如果想全面提升AI的游戏生成能力,不能只盯着某一个维度优化,因为这四种能力并不会自动互相带动,需要分别有针对性地加强。

八、不同游戏类型,AI的表现差距有多大

最后一块拼图是不同游戏类型的表现差异。以Opus-4.7为例,它在恐怖游戏类别上得了57.30分,在休闲放置类上得了56.99分,在音乐节奏类得了46.57分,在赛车类得了45.26分,在横版跳跳游戏类得了36.57分,在卡牌游戏类只有33.78分。GPT-5.5在休闲放置类得了64.91分,在恐怖类得了49.05分,在卡牌类只有25.50分。

这些差距背后有一定规律。休闲放置和恐怖游戏的得分普遍较高,可能是因为这两类游戏的核心机制相对简单(前者是点击升级,后者是探索叙事),AI比较容易实现。而卡牌游戏涉及复杂的规则逻辑和状态管理,横版跳跳游戏需要精确的物理碰撞和关卡设计,这些对AI来说是更大的挑战。

从这些数据可以看出,AI在处理不同复杂度的游戏类型时,能力差异非常显著,并不存在一个"通用的游戏生成能力",而是在某些类型上相对擅长,在另一些类型上明显吃力。

归根结底,这项研究告诉我们的不是"AI造游戏完全不行",而是"AI造游戏已经能跑起来,但离真正好玩还差一大截"。就像一个初学者能照着菜谱把菜做熟,但要做到颜色好看、层次丰富、口感到位,那是另一个量级的事。

41%这个最高分,意味着即便是当今最强的AI编程助手,在完整的游戏生成这件事上,也还有将近六成的功课没有做到。它们最能做的是"搭出一个可以跑的骨架",最不擅长的是"把这个骨架填成一个有血有肉、有颜有内容的完整体验"。而后者,恰恰才是游戏的灵魂。

对于普通用户来说,这项研究意味着:如果你现在就想让AI帮你做一款"随便玩玩"的小游戏,也许已经部分可行;但如果你期望它直接输出一款品质过关的完整游戏,目前最好还是把它当作一个能干的助手,而不是一个独立的游戏开发者。

这里有一个有趣的思考:评分裁判用的是GPT-5.5,而GPT-5.5同时也是被测试的对象之一。那么裁判在给自己打分时,会不会有所偏颇?这种"运动员兼裁判"的情况,是未来这类测试需要认真解决的问题之一。有兴趣深入探索这一领域的读者,可以通过arXiv:2606.17861查阅完整论文,网站上也有各类游戏的演示视频和完整数据集。

Q&A

Q1:GameCraft-Bench测试AI造游戏用的是什么游戏引擎,为什么选这个?

A:GameCraft-Bench使用的是Godot 4游戏引擎。选择Godot的原因是它完全开源免费、安装轻量、支持命令行无界面运行,场景文件以文本格式存储方便程序解析,非常适合做大规模自动化测试。Unity和虚幻引擎虽然也支持自动化,但安装复杂、有授权限制,不适合这种高频评测场景。

Q2:AI做游戏时得分低主要是哪些地方出了问题?

A:得分低的原因不是单一的。最常见的问题是:游戏能启动运行,但内容量不够丰富,缺乏足够的关卡、角色或进度系统;视觉呈现粗糙,大量用程序生成的纯色方块代替真正的美术资源;以及忘记提交操作录像,导致评分系统无法判断游戏是否可玩,直接得零分。

Q3:GameCraft-Bench的评分是完全由AI打的吗,人类打分和AI打分差多少?

A:主要由GPT-5.5多模态AI裁判负责打分,人类评分只作为校准参考。研究团队对比了人类和AI裁判在卡牌游戏、休闲放置游戏、赛车游戏三类上的打分,发现AI裁判整体比人类宽松约3.32个百分点,在内容丰富度和美术呈现上偏宽,在画面功能性上偏严。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。