AI造游戏，香港中文大学团队验出真相：最强模型也只答对四成题

IP属地中国·北京 科技行者 时间：2026-06-19 22:22:01

这项由香港中文大学（深圳）、深圳鹏城湾区研究院、腾讯混元团队、北京科技大学、上海交通大学、南洋理工大学等多所机构联合开展的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.17861，感兴趣的读者可通过该编号查阅完整原文。
你有没有想过，让AI直接帮你做一款完整的游戏，不用写任何代码，只需要告诉它"我要一个像素风的横版跳跳游戏，玩家要收集金币、躲避敌人"，几分钟后AI就把一个真正可以运行的游戏递到你手里？这个场景正在变成现实——但现实是否如想象般美好，这群研究者决定认真测一测。
他们搭建了一个叫做GameCraft-Bench的测试平台，专门用来考察当前最顶尖的AI编程助手到底能不能从零开始生成一款完整、可玩的游戏。结果相当清醒：即便是表现最好的AI，100道题也只能拿到41分多一点，大多数AI的得分徘徊在40分以下，有的甚至只有2分。这不是程序出了bug，而是AI在"做游戏"这件事上，真的还差得很远。
一、为什么造游戏是一道特别难的考题
要理解这个问题的难处，得先明白游戏和普通软件有什么本质区别。写一个计算器程序，只要输入正确、输出正确，任务就完成了。但一款游戏不一样——它必须是活的。玩家按下空格键，角色要跳起来；撞到敌人，血量要减少；收集到金币，界面上的数字要随之跳动；打败最后一个Boss，要出现胜利画面。
换句话说，游戏的核心是"互动"。不是代码看起来对，而是玩家拿到手后真的能玩，而且玩起来有反馈、有进展、有挑战。正因如此，研究团队认为评判一个AI能不能做游戏，必须满足三个条件，缺一不可。
第一个条件是"在真实的游戏引擎里开发"。什么叫真实的游戏引擎？可以把它理解成游戏的"操作系统"，就像手机需要安卓或iOS才能运行App，游戏也需要专门的引擎来处理物理碰撞、画面渲染、声音播放、场景切换等等。如果只是在网页上写一段简单的代码，那充其量是在玩具沙盘里堆积木，离真正做游戏还差得很远。研究团队选择了Godot这款开源游戏引擎作为测试环境，因为它免费开源、轻量，支持命令行操作，非常适合做大规模的自动化测试，而Unity或虚幻引擎则因为安装复杂、授权限制等原因不太适合这种场景。
第二个条件是"交出一个完整的游戏项目"。AI不能只写几段代码然后说"剩下的你自己装配"。一款完整的游戏需要场景文件、脚本、图片素材、UI界面、输入设置、配置文件……这些东西必须全部就位，而且要能直接运行。研究团队把这叫做"工件完整性"，只要游戏无法直接启动，得分直接清零，没有商量余地。
第三个条件是"通过真实互动来验证"。这是最关键也最有意思的一条。评判一款游戏好不好，不能只看代码写得漂不漂亮，也不能只截个静态画面，必须真正"玩"起来，看玩家按下按键后游戏有没有正确反应。研究团队的做法是：让AI在提交游戏的同时，也提交一套"操作录像"——一组记录了鼠标点击、键盘输入时间轴的JSON文件，系统会自动重放这些操作，录下游戏画面，再由一个多模态AI裁判来看着视频打分。
这三个条件组合在一起，构成了目前最严格、最贴近真实游戏开发要求的AI评测框架。
二、这场考试长什么样
GameCraft-Bench一共包含140道题，分属15个游戏类别。横版跳跳游戏（Platformer）有19道，策略游戏有17道，经营模拟类（Tycoon）有16道，开放世界有15道，Roguelike有14道，视觉小说有11道……此外还涵盖了益智解谜、射击、体育、卡牌、恐怖、音乐节奏、休闲放置、赛车等类别，几乎把主流游戏类型全部覆盖。
每一道题都包含三层内容。AI能看到的是一份"游戏说明书"，以自然语言写成，风格就像真实的游戏策划文档——它会告诉AI要做一款什么感觉的游戏、核心玩法是什么、玩家会经历什么、视觉风格应该是怎样的，但不会告诉AI具体怎么实现。AI看不到的是一份评分标准，由12位有丰富游戏经验的标注员撰写，从核心机制、内容丰富度、画面功能性、美术呈现四个维度详细列出可观察的评分要点。
为了确保每道题的设计是合理的，每位标注员在写完说明书和评分标准之后，还必须自己动手在Godot里写一个简单的"验证版本"——不需要多好看，但必须能运行，而且能通过回放演示展示所有评分要点。如果写不出来，说明题目本身有问题，得修改直到能实现为止。这个环节保证了每道题对AI来说是公平的、可完成的。
AI拿到任务后，有两小时时间在配备了Godot引擎、素材库（包含Kenney CC0免费素材包和OpenGameArt的开源素材）的工作区里自由发挥。它可以写代码、运行游戏、截图查看效果、根据运行结果修改代码——不限制工具调用次数，只要在时间内交卷就行。最终提交物是一个完整的Godot项目加上一到十个操作录像文件。
评分的时候，系统先检查游戏能不能启动。启动失败，直接0分。能启动的话，系统就按照提交的操作录像重放游戏，录下视频，每0.5秒截一帧画面，然后把这些画面和评分标准一起喂给GPT-5.5这个多模态AI裁判打分。裁判针对每一条标准给出0到1之间的分数，最后按加权公式汇总成最终得分。其中"内容丰富度"和"美术呈现"各占35%的权重，"核心机制"和"画面功能性"各占15%，这是因为团队认为一款真正完整的游戏不能只是跑通了逻辑，还得有足够的内容量和视觉品质。
三、七位选手登场，成绩出乎意料
测试覆盖了七个当前最强的AI编程助手配置。参加测试的有：Anthropic公司的Claude Code搭配Opus-4.7和MiMo-V2.5-Pro两种模型，OpenAI的Codex搭配GPT-5.5和DeepSeek-V4-Pro，Kimi Code搭配Kimi-K2.6，以及Code Buddy搭配GLM-5.1和MiniMax-M2.7。每个配置都在全部140道题上跑了一遍，条件完全相同。
成绩单如下：Claude Code搭配Opus-4.7在"高配"模式下以41.46%的总分拿下第一，GPT-5.5高配紧随其后，得了39.49%，Kimi-K2.6拿到30.65%，MiMo-V2.5-Pro得了24.10%，GLM-5.1拿到18.29%，MiniMax-M2.7得了10.95%，而DeepSeek-V4-Pro只有2.15%。
前两名的差距其实非常小，但和第三名开始就有明显落差。DeepSeek-V4-Pro的情况有些特殊：它的游戏启动成功率只有25.6%，远低于其他选手的90%以上，这意味着它提交的大多数游戏项目根本无法运行，自然得分极低。此外，DeepSeek-V4-Pro还经常忽略提交操作录像的要求，导致即便游戏能启动，也因为没有回放文件而无法打分。
从各维度来看，有一个一致的规律：所有AI在"核心机制"这个维度的得分都明显高于其他三个维度。以Opus-4.7为例，它的核心机制得分是55.34%，内容丰富度是39.48%，画面功能性是42.78%，美术呈现是36.86%。Kimi-K2.6的核心机制是39.76%，美术呈现只有27.99%。这个规律说明：AI通常能搭出一个"能跑"的游戏骨架，但很难把它填充成一个有内容、有颜值、有完整体验的真正游戏。
四、成功的秘诀：会看画面才能调出好游戏
研究团队在分析各AI的工作方式时发现了一个有趣的现象：那些愿意频繁截图、用眼睛看游戏实际长什么样的AI，往往做出来的游戏质量更高。
Kimi-K2.6在140道题的作答过程中，共调用截图工具2998次，平均每道题截了21.41张图，只有4道题全程没有截图。Opus-4.7截了1952次，平均每题13.94次。相比之下，GPT-5.5只截了268次，平均每题不到2次。
为什么截图很重要？因为很多问题在代码层面根本看不出来，必须真的把游戏渲染出来才能发现。比如摄像机框错了位置，比如UI界面文字重叠，比如场景里的碰撞体和视觉图形对不上……这些问题如果只看代码，可能一切正常，但一旦截图，立刻就能看出破绽。
研究团队举了Kimi-K2.6做策略游戏"Strategy-Skirmish"的例子：Kimi反复截图，发现了单位摆放位置偏差、选中高亮没有显示、网格布局不对等问题，并据此一一修正，最终做出了一个有相当视觉辨识度的深色幻想风格战棋游戏。从初始截图到最终版本，可以明显看到游戏品质在"看-改-看-改"的循环中稳步提升。
五、失败的陷阱：代码写得越多≠游戏做得越好
MiMo-V2.5-Pro提供了另一个角度的启示。这个AI有个明显的工作习惯：先用极快的速度把所有文件全部写完——project.godot、所有GDScript脚本、所有场景文件——然后再进入漫长的调试循环。问题在于，它的调试工具中有56.3%是Shell命令（也就是在命令行里跑各种调试指令），而真正用来读代码和改代码的操作只占了16.5%。
研究团队统计发现，MiMo-V2.5-Pro平均每道题用了128次工具调用，但工具调用次数和最终得分之间的相关系数只有可怜的+0.016，也就是说，调用工具越多并不等于游戏做得越好，两者几乎毫无关系。
更有意思的是，MiMo-V2.5-Pro有5道题得了0分，但这5道题的游戏全都成功启动了。问题出在哪里？出在没有提交操作录像。游戏做好了，却忘记告诉评分系统"应该怎么玩"，导致评分系统无从打分，全部清零。这是一个纯粹的"任务完成意识"缺失，和编程能力完全无关——更像是一个学生做完了试卷却忘记写名字，白白丢分。
六、裁判可靠吗？人类和AI打分有多大差距
既然评分是由AI裁判来完成的，裁判本身靠不靠谱就是一个值得认真检验的问题。研究团队做了两个验证实验。
第一个实验检验"稳定性"：固定同一批游戏录像和评分标准，让GPT-5.5裁判重复打10次分，看每次分数是否一致。结果非常稳定：Kimi-K2.6在卡牌游戏类别上的标准差只有0.0037，在模拟游戏上是0.0038，Opus-4.7的标准差是0.0050和0.0036。这些波动幅度远小于不同AI之间的得分差距，说明排名结果是可信的，不会因为裁判"发挥失常"而颠倒。
第二个实验检验"与人类的一致性"：研究人员找了人类评分员，对Kimi-K2.6提交的卡牌游戏、休闲放置游戏、赛车游戏三个类别的录像进行独立评分，然后和AI裁判的打分做比对。总体来看，AI裁判比人类略宽松一些，综合偏差约3.32个百分点。细分来看，AI裁判在"内容丰富度"和"美术呈现"两个维度上比人类打分更高，而在"画面功能性"上比人类更严格。其中差距最大的是休闲放置游戏，AI裁判高出人类8.76个百分点，说明对于内容深度和视觉呈现的判断，AI裁判的标准还有进一步校准的空间。
七、四个维度是各自为政，还是紧密相连？
研究团队还有一个想探索的问题：核心机制、内容丰富度、画面功能性、美术呈现这四个评分维度，是不是高度捆绑的——某一样好了，其他的也自然好？
以Kimi-K2.6的数据来看，核心机制和内容丰富度之间的相关系数是0.61，核心机制和画面功能性之间是0.53——这说明这两组之间确实有一定联系，通常一个游戏的交互循环做得好，它的游戏状态信息和视觉反馈也往往更丰富。但美术呈现和画面功能性之间的相关系数只有0.11，几乎没有关系——换句话说，一个游戏能不能"看懂"，和它"好不好看"，基本上是两件完全独立的事情。
MiMo-V2.5-Pro的数据格局略有不同，它的四个维度之间整体耦合度更高一些，美术呈现和核心机制的相关系数达到0.56，但和画面功能性之间也只有0.26。这个结论对AI开发者来说很有参考价值：如果想全面提升AI的游戏生成能力，不能只盯着某一个维度优化，因为这四种能力并不会自动互相带动，需要分别有针对性地加强。
八、不同游戏类型，AI的表现差距有多大
最后一块拼图是不同游戏类型的表现差异。以Opus-4.7为例，它在恐怖游戏类别上得了57.30分，在休闲放置类上得了56.99分，在音乐节奏类得了46.57分，在赛车类得了45.26分，在横版跳跳游戏类得了36.57分，在卡牌游戏类只有33.78分。GPT-5.5在休闲放置类得了64.91分，在恐怖类得了49.05分，在卡牌类只有25.50分。
这些差距背后有一定规律。休闲放置和恐怖游戏的得分普遍较高，可能是因为这两类游戏的核心机制相对简单（前者是点击升级，后者是探索叙事），AI比较容易实现。而卡牌游戏涉及复杂的规则逻辑和状态管理，横版跳跳游戏需要精确的物理碰撞和关卡设计，这些对AI来说是更大的挑战。
从这些数据可以看出，AI在处理不同复杂度的游戏类型时，能力差异非常显著，并不存在一个"通用的游戏生成能力"，而是在某些类型上相对擅长，在另一些类型上明显吃力。
归根结底，这项研究告诉我们的不是"AI造游戏完全不行"，而是"AI造游戏已经能跑起来，但离真正好玩还差一大截"。就像一个初学者能照着菜谱把菜做熟，但要做到颜色好看、层次丰富、口感到位，那是另一个量级的事。
41%这个最高分，意味着即便是当今最强的AI编程助手，在完整的游戏生成这件事上，也还有将近六成的功课没有做到。它们最能做的是"搭出一个可以跑的骨架"，最不擅长的是"把这个骨架填成一个有血有肉、有颜有内容的完整体验"。而后者，恰恰才是游戏的灵魂。
对于普通用户来说，这项研究意味着：如果你现在就想让AI帮你做一款"随便玩玩"的小游戏，也许已经部分可行；但如果你期望它直接输出一款品质过关的完整游戏，目前最好还是把它当作一个能干的助手，而不是一个独立的游戏开发者。
这里有一个有趣的思考：评分裁判用的是GPT-5.5，而GPT-5.5同时也是被测试的对象之一。那么裁判在给自己打分时，会不会有所偏颇？这种"运动员兼裁判"的情况，是未来这类测试需要认真解决的问题之一。有兴趣深入探索这一领域的读者，可以通过arXiv:2606.17861查阅完整论文，网站上也有各类游戏的演示视频和完整数据集。
Q&A
Q1：GameCraft-Bench测试AI造游戏用的是什么游戏引擎，为什么选这个？
A：GameCraft-Bench使用的是Godot 4游戏引擎。选择Godot的原因是它完全开源免费、安装轻量、支持命令行无界面运行，场景文件以文本格式存储方便程序解析，非常适合做大规模自动化测试。Unity和虚幻引擎虽然也支持自动化，但安装复杂、有授权限制，不适合这种高频评测场景。
Q2：AI做游戏时得分低主要是哪些地方出了问题？
A：得分低的原因不是单一的。最常见的问题是：游戏能启动运行，但内容量不够丰富，缺乏足够的关卡、角色或进度系统；视觉呈现粗糙，大量用程序生成的纯色方块代替真正的美术资源；以及忘记提交操作录像，导致评分系统无法判断游戏是否可玩，直接得零分。
Q3：GameCraft-Bench的评分是完全由AI打的吗，人类打分和AI打分差多少？
A：主要由GPT-5.5多模态AI裁判负责打分，人类评分只作为校准参考。研究团队对比了人类和AI裁判在卡牌游戏、休闲放置游戏、赛车游戏三类上的打分，发现AI裁判整体比人类宽松约3.32个百分点，在内容丰富度和美术呈现上偏宽，在画面功能性上偏严。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Q1智能手表出货量排名：苹果、华为、小米全球三巨头

陈立武：英特尔未来5-10年实现十倍回报

开源游戏引擎Godot 4.7发布：新增HDR输出、完善触控交互等

蔡崇信：阿里正全面投入AI 开源的主要推动力量来自中国企业

“AI教父”杨立昆锐评马斯克：xAI“失败”、SpaceX出色、特斯拉FSD有用

微软承认6月Win11更新导致回收站弹窗显示异常

全站最新

本田携手QuantumScape推进固态电池研发，为电动化发展注入新动力

Q1智能手表出货量排名：苹果、华为、小米全球三巨头

陈立武：英特尔未来5-10年实现十倍回报

开源游戏引擎Godot 4.7发布：新增HDR输出、完善触控交互等

热门推荐

网易有道全面向AI转型全场景Agent矩阵亮相图博会

阿里HappyOyster 1.0：输入梦境画面，开启沉浸式交互数字世界新体验

杨立昆评马斯克：xAI陷困境难成气候，SpaceX获赞，特斯拉FSD有实用性

黄锐名下工作室以蛋黄酱命名

Q1智能手表出货量排名：苹果、华为、小米全球三巨头

陈立武：英特尔未来5-10年实现十倍回报

开源游戏引擎Godot 4.7发布：新增HDR输出、完善触控交互等

蔡崇信：阿里正全面投入AI 开源的主要推动力量来自中国企业

“AI教父”杨立昆锐评马斯克：xAI“失败”、SpaceX出色、特斯拉FSD有用

微软承认6月Win11更新导致回收站弹窗显示异常

宝马将停产所有国产纯电车型？知情人士回应

瑞典呼吁欧盟阻止FSD推广，除非特斯拉禁用“超速”功能

千万级机器人订单落地东南亚！傅利叶布局全球高端康复机器人市场

谷歌顶尖AI研究员沙泽尔加盟OpenAI

Transformer传奇作者加入OpenAI！谷歌27亿美元也没留住