纽约大学团队创造性基准测试：让AI也能"想象力飞跃"

IP属地中国·北京 科技行者 时间：2026-03-23 18:36:47

想要测试一台电脑是否具备人类的想象力，你会怎么做？纽约大学和德州大学奥斯汀分校的研究团队最近发表了一项令人瞩目的研究成果，他们开发出了一个名为CREATE的创造力测试基准。这项研究发表于2026年3月的预印版论文（arXiv:2603.09970v1），为我们理解和评估人工智能的创造性思维能力开辟了全新道路。
研究团队包括来自纽约大学的Manya Wadhwa、Tiasa Singha Roy和Greg Durrett，以及德州大学奥斯汀分校的Harvey Lederman和Junyi Jessy Li。他们面临的核心挑战是：如何客观地测试AI系统是否具备真正的创造性思维，而不仅仅是重复已学过的内容？
传统上，测试人类创造力的方法包括"另类用途任务"（让人想出砖块的各种用法）和"远程联想测试"（找出三个看似无关词汇之间的联系）。然而，这些测试对现代AI系统来说过于简单，就像让大学生做小学算术题一样轻而易举。更重要的是，AI在训练过程中可能已经"见过"这些经典测试题的答案，这就像让学生参加一场他们已经知道所有答案的考试。
CREATE基准的独特之处在于，它要求AI系统在一个巨大的知识网络中寻找创造性的连接路径。就像要求你在一个包含全世界所有人际关系的社交网络中，找出两个看似毫无关联的人之间的有趣连接方式。比如，如何将女演员Dakota Johnson与那些出演过科幻奇幻电影的人联系起来？答案可能是：Dakota Johnson出演了《The Materialists》，该片男主角是Chris Evans，而Chris Evans出演了《美国队长》这部科幻片。或者，Dakota Johnson是Antonio Banderas的继女，而Antonio Banderas为《怪物史莱克2》配过音。
研究团队发现，这种看似简单的任务实际上需要多层次的创造性思维。首先，系统需要在庞大的知识库中搜索可能的连接路径，这就像在迷宫中寻找出口。其次，系统需要评估这些路径的"创造性价值"——既要确保连接是真实可信的，又要保证足够新颖有趣。最后，系统还需要生成多样化的答案，避免千篇一律的重复回答。
为了实现这一目标，研究团队构建了一个包含931个自然语言查询的基准数据集。这些查询涵盖了从演员到基因，从化学物质到体育队员的广泛领域。每个查询都要求AI系统找出多条连接指定起点和终点的创造性路径。就像给你一个起始城市和目的地，要求你设计出几条既能到达目的地又风景独特的旅行路线。
CREATE基准的评估体系特别巧妙，它同时考虑了两个关键维度：路径的"特异性"和路径集合的"多样性"。特异性衡量的是连接的紧密程度和独特性，就像评判一条旅行路线是否经过了独特的风景点。而多样性则确保AI不会重复生成相似的路径，就像要求旅行规划师设计的每条路线都有不同的特色。
研究团队创造了一个名为"创造性效用"的综合指标，将质量和多样性巧妙地结合在一起。这个指标考虑了用户的"耐心程度"——如果用户愿意查看更多答案，系统就有机会展示更多创造性的连接。就像一个好的导游，不仅要能介绍最著名的景点，还要能根据游客的兴趣程度，逐步展示更多隐藏的精彩之处。
在测试环节，研究团队评估了包括GPT系列、Claude系列、Gemini和开源模型在内的多种前沿AI系统。结果发现，最强大的模型确实表现出了更高的创造性效用，但即使是最好的模型，在面对这种开放性创造任务时仍然面临挑战。更令人意外的是，那些具备"思维链推理"能力的模型并不总是比普通模型表现更好，即使给它们分配了大量的计算资源来"深度思考"。
这一发现颇具启发性。就像让一个人花更多时间思考并不一定能产生更有创意的想法一样，简单地增加AI的"思考时间"也不能保证更好的创造性表现。这表明，真正的创造力可能需要的不仅仅是更多的计算时间，而是根本不同的思维方式。
研究团队还尝试了各种"创造性提示"技巧，比如直接告诉AI"要有创意"，或者让AI明确表达其答案的概率分布。然而，这些方法只带来了有限的改进，就像仅仅告诉一个人"要有创意"并不能立即让他们变得更有想象力。
通过深入分析那些被评为高质量且独特的路径，研究团队发现了一些有趣的模式。真正有创意的连接往往需要跨越不同的知识领域，将看似无关的概念巧妙地联系起来。例如，一些最具创造性的路径会将娱乐圈的人物与学术界的成就联系起来，或者将体育明星与文化事件相连接。这些连接虽然在事实上完全正确，但却是大多数人不会立即想到的。
研究还揭示了不同AI模型在创造性思维上的有趣差异。一些模型倾向于生成大量路径但质量参差不齐，就像一个话多但不精准的朋友。而另一些模型则更加保守，只生成少量但质量较高的连接，像一个谨慎但深思熟虑的顾问。最理想的是能够平衡数量和质量，既有丰富的想象力，又能保证想法的可靠性。
特别值得注意的是，研究团队发现了创造性和事实准确性之间的有趣权衡关系。当AI系统追求更高的创造性时，往往会牺牲一些事实准确性，就像一个善于编故事的人可能会在细节上有所夸大。相反，那些严格坚持事实准确性的系统，在创造性表现上相对保守。这个发现揭示了AI创造力发展中的一个核心挑战：如何在保持可信度的同时释放想象力。
研究的实际意义远远超出了学术范围。随着AI系统越来越多地被应用于需要创造性思维的任务——从科学研究到艺术创作，从商业策划到教育教学——理解和改进它们的创造性能力变得至关重要。CREATE基准为研究人员提供了一个客观的标尺，让我们能够追踪AI创造力的发展进程。
更重要的是，这项研究暗示了未来AI发展的方向。真正的创造性AI可能不仅仅需要更大的模型或更多的数据，而是需要全新的思维架构。就像人类的创造力不仅来自知识储备，还来自直觉、情感和想象力的复杂交互，未来的AI系统可能也需要类似的多维度能力。
虽然现在的AI系统在CREATE基准上已经展现出了一定的创造性能力，但距离真正的人类级别创造力仍有很大差距。这既是挑战，也是机遇。研究团队希望CREATE能够成为推动AI创造力研究的催化剂，激励更多研究者探索让机器真正具备想象力和创新能力的方法。
说到底，这项研究告诉我们的是：创造力测试的关键不在于答案本身，而在于寻找答案的过程。当我们要求AI在知识的海洋中寻找新颖的连接时，我们实际上是在培养它们的想象力。虽然目前的AI还无法完全媲美人类的创造性思维，但它们已经开始展现出令人惊喜的联想能力。随着技术的不断发展，也许有一天，AI真的能够像人类一样，在看似无关的事物之间发现意想不到的美妙联系。
Q&A
Q1：CREATE基准测试是什么？
A：CREATE是由纽约大学和德州大学研发的AI创造力测试基准，专门评估AI系统的联想创造能力。它要求AI在知识图谱中寻找连接不同概念的创造性路径，比如找出女演员与科幻电影演员之间的有趣联系。与传统创造力测试不同，CREATE能有效避免AI"背答案"的问题。
Q2：为什么现有的创造力测试不适合AI？
A：传统测试如"砖块用途测试"对现代AI来说太简单，而且AI可能在训练中已经见过这些测试题的答案。CREATE基准通过要求AI在真实世界知识网络中寻找新颖连接，创造了一个几乎不可能被"背诵"的创造性挑战，更能真实反映AI的想象力水平。
Q3：哪些AI模型在CREATE测试中表现最好？
A：测试结果显示GPT-5和Gemini-3-pro等前沿模型表现最佳，但令人意外的是，具备深度推理能力的"思维链"模型并不总是比普通模型表现更好。这说明真正的创造力可能需要的不仅是更多计算时间，而是根本不同的思维方式。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

2.8万Star爆款作者竟被谷歌裁了！硅谷大佬火速抢人

硬刚马斯克，软银称已开始量产机器人，将成为“压倒性的世界第一”

iPad/Mac等涨价只是开始？苹果声明暗示后续还有新一轮调价

徕卡发布SL3-P全画幅相机：4400万像素、无可乐标，4.5 万元

大型零售商警告：《GTA 6》或带动今年圣诞节期间主机供不应求

2025年中国具身智能市场规模约9150亿元，预计今年将冲上万亿

全站最新

2.8万Star爆款作者竟被谷歌裁了！硅谷大佬火速抢人

硬刚马斯克，软银称已开始量产机器人，将成为“压倒性的世界第一”

iPad/Mac等涨价只是开始？苹果声明暗示后续还有新一轮调价

徕卡发布SL3-P全画幅相机：4400万像素、无可乐标，4.5 万元

热门推荐

2.8万Star爆款作者竟被谷歌裁了！硅谷大佬火速抢人

硬刚马斯克，软银称已开始量产机器人，将成为“压倒性的世界第一”

iPad/Mac等涨价只是开始？苹果声明暗示后续还有新一轮调价

徕卡发布SL3-P全画幅相机：4400万像素、无可乐标，4.5 万元

大型零售商警告：《GTA 6》或带动今年圣诞节期间主机供不应求

2025年中国具身智能市场规模约9150亿元，预计今年将冲上万亿

紫光同芯联合中国联通首发eSIM智能受理方案

全世界最顶级的MPV爆单！尊界V680、V800双车开售1小时订单破3200台

折叠iPhone触屏Mac 新CEO动真格：苹果下一步棋怎么走

塔塔电子被黑，部分iPhone 18 Pro与苹果A20 Pro资料确认泄露

突发！苹果深夜大涨价，黄牛疯狂囤货，iPhone 18危险了

DeepSeek深夜发文：开启大规模“抢人”

SpaceX IPO后股价动荡 OpenAI倾向于推迟至明年上市

别再说电车像手机了手机半年可出不了500款

全国运营商首个！华为联合湖北移动完成AI推理加速现网测试：Token吞吐率大增372%