AI交互新基准！蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

IP属地中国·北京 机器之心Pro 时间：2026-06-11 00:33:19

想象一下，你问 AI 要一个饮食记录工具，它不再是回你一段文字建议，而是直接给你一个可以点击添加、统计热量的完整应用。人和 AI 的交互，正在从「读文字」走向「用应用」。
Karpathy 早在 X 上反复说过这件事：「App Store 作为一组离散应用供用户选择的模式，正在成为一个日益过时的概念。未来在于利用 LLM 技术将 AI 原生传感器和执行器整合到高度定制化的、即开即用的应用程序中。」

Anthropic Claude Code 团队的 Thariq Shihipar 更是直接宣判：「HTML is the new markdown。我已经停止为几乎所有工作编写 Markdown 文件，改用 Claude Code 帮我生成 HTML。」他从信息密度、可读性、分享成本、双向交互和趣味性五个维度论证了 HTML 对 Markdown 的全面碾压。

这些观点并非小圈子的自嗨，而是引发了广泛共鸣。但当所有人都在谈论 "AI 应该输出 HTML" 的时候，一个更深层的问题被忽略了：生成一个 HTML 页面容易，生成一个真正可交互、逻辑正确、且符合现实世界规律的 HTML 应用，难得多。大模型生成这类交互应用的真实水平到底怎样？没有人量过。
来自蚂蚁集团灵光 App 闪应用团队的研究者做了这件事。他们提出了MiniAppBench，首个专门评测大模型生成「交互式 HTML 应用」能力的基准，结合配套的自动化评估系统 MiniAppEval，对全球 16 个顶尖模型进行了系统性测试。
结果让人警醒：大模型的代码能力，远不足以生成真正能用的交互应用，最强模型通过率也仅 45% 左右，平均只有 17%。
论文以ICML 2026 Spotlight身份被接收：ICML 2026 有效投稿量共 23918 篇，全部接受稿件共 6352 篇（26.6%），Spotlight 仅 536 篇（2.2%）。

论文标题：MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered AssistantsarXiv 地址：https://openreview.net/pdf?id=pwbLmew1aq项目主页：https://miniappbench.github.io/代码仓库：https://github.com/MiniAppBench/miniappbench
3 个看点先读
1.定义 AI 时代人机交互新范式：论文正式提出「MiniApp」概念，即由大模型依据用户单条 Query 即时生成的定制化 HTML 交互应用。当 Markdown 已经无法承载越来越复杂的 AI 输出，MiniApp 代表了从静态文本到可交互应用的范式转移。
2.全球最强模型集体「汗流浃背」：16 个模型评测，最高通过率仅 45.46%，平均仅 17%。在 Hard 难度任务上，几乎所有模型通过率都跌到个位数。这不是一个饱和的 Benchmark。
3.用 AI Agent 当「人类测试员」：MiniAppEval 不靠固定脚本打分，不靠截图比对，而是让一个基于 LLM 的 Agent 模拟人类测试员去点击、拖拽、输入，从意图、静态、动态三个维度全方位测试，与真人打分相关性高达 0.85 以上。
01 从文本到交互：AI 人机交互的新范式
当大模型的输出从「回答问题」变成「交付应用」，交互方式本身也在发生根本性的变化。
过去，你问模型一个问题，它回答一段文字，静态的、一次性的，读完就结束了。但现在，你可以对模型说「帮我做一个牛顿定律演示工具」，它就能给你一个真的能拨动质量滑块、实时看到力学动画的交互界面。你说「帮我记录每周饮食」，它不是给你一个文字版的食谱建议，而是直接给你一个带七天三餐表格、可以点击添加、可以统计热量的饮食记录器。
这就是论文定义的MiniApp：由模型依据单条 Query 即时生成的定制化 HTML 交互应用。

从传统文本输出到 MiniApp 的范式转移
为什么是 HTML？因为 HTML 天然具备四个特性：美观的视觉呈现能力、丰富的交互逻辑支持、跨平台即开即用、无需安装部署。它不是大模型生成的中间产物，而是直接面向用户的终端产品。
关键在于，MiniApp 不只是「好看的网页」。论文明确指出，它有两大核心属性：
原则遵循（Principle Adherence）：模型必须捕捉并构建用户 Query 中隐含的现实世界原则。比如「一周饮食记录」隐含了「一周有七天、一天有三餐」；「水蒸发演示」隐含了粒子运动速度随温度升高的物理定律。定制化交互（Customized Interaction）：应用结构和行为需要根据用户意图动态合成，而非套用固定模板。
前者考察的是模型对世界知识的理解深度，后者考察的是把理解转化为可执行代码的工程能力。两者缺一不可，而现有 Benchmark 对两者都缺乏有效的评测手段。
02 现有 Benchmark 为什么量不了这件事
现有的代码评测和 Web 评测，都很难覆盖 MiniApp 的核心能力。
代码类 Benchmark（HumanEval、MBPP、SWE-Bench 等）：测的是算法逻辑对不对、函数能不能过测试用例。代码在这里是抽象的逻辑符号，跟执行环境、用户交互无关。一个能写快排的模型，不代表它能理解「一周有七天」并把这种常识编码进交互逻辑。
Web 生成类 Benchmark（Pix2Code、FullFront、WebGenBench 等）：测的是视觉还原度和布局一致性。能不能把设计稿还原成 HTML/CSS，跟能不能生成一个功能正确的交互应用，完全是两回事。前者是「画得像」，后者是「用得对」。
已有的 Agent 评测（ArtifactsBench、WebDevJudge 等）：虽然开始关注交互性，但主要依赖 A/B 偏好对比或与参考实现的偏差打分。MiniApp 的本质是开放式的：同一个需求可以有无数种合理的实现方式，不存在唯一的 Ground Truth。拿固定答案去评判开放式产出，要么太松放过错误，要么太严误杀合理方案。
MiniAppBench 要回答的问题是：模型能不能理解用户的隐含需求，并把它变成一个真正能用的、遵循现实世界原则的交互应用？这个问题，之前没有任何 Benchmark 系统性地回答过。
03 MiniAppBench：从一千万条真实交互中蒸馏 500 道题
MiniAppBench 的数据不是拍脑袋想的，也不是用模板批量生成的。
它的起点是大规模真实场景中积累的超过 1000 万条交互需求。研究者从中筛选出真正需要交互式应用才能满足的需求，经过四阶段流水线层层过滤，最终蒸馏出500 个高质量任务，覆盖 6 个领域、25 个细分类别、3 个难度级别。

MiniAppBench 数据集构建流水线与统计概览
Stage 1：识别原则驱动的交互式需求。不是所有需求都适合变成 MiniApp。大量需求是纯信息查询、模糊不清、或者简单到不需要交互。研究团队从千万级数据中先经 LLM 筛选，再由人类专家逐条审核，确保每个需求都隐含了现实世界原则、且需要定制化交互来满足。
Stage 2：扩展覆盖面，保留核心意图。在 1123 条高质量种子需求的基础上，通过 LLM 扩展生成变体，覆盖更多领域和难度，同时严格保留原始需求的主题和意图。扩展后的需求同样经过人工审核，确保扩展过程没有偏离原始意图。
Stage 3：锚定可验证的评测参考（Eval-Ref）。这是 MiniAppBench 区别于其他开放式评测的关键一步。对每个需求，研究者生成了一份结构化的评测参考，列出意图、静态实现和动态交互中需要验证的关键检查点。比如「水蒸发演示」的 Eval-Ref 会明确指出需要检查蒸发是否遵循物理定律、粒子是否有加速逸出行为。但这份参考不是唯一的评判标准，而是辅助评估 Agent 定位潜在问题的指南针。
Stage 4：平衡难度与领域覆盖。最终分层抽样选出 500 个任务，难度分布为 30% Easy / 40% Mid / 30% Hard，六个领域分别为：Science（科学）、Games（游戏）、Tools（工具）、Humanities（人文）、Visualization（可视化）、Lifestyle（生活），每个领域下又有 3-5 个细分类别。
6 个领域各有侧重：Science 考的是物理定律和公式能不能正确实现；Games 考的是游戏逻辑和交互完备性；Tools 考的是鲁棒性和边界处理；Humanities 考的是知识落地和用户驱动的探索；Visualization 考的是视觉编码和精确映射；Lifestyle 考的是生活常识和个性化约束。
04 MiniAppEval：让 AI Agent 当「人类测试员」
评测开放式交互应用，最棘手的问题是：没有标准答案。
同一个「饮食记录器」，你可以做成表格式的，也可以做成卡片式的，交互方式千差万别，但都可能满足用户需求。用固定脚本？覆盖不了开放式实现。用截图对比？看不出交互逻辑对不对。用 A/B 偏好？过于主观，且依赖参考实现。
MiniAppEval 的思路是：让一个 LLM Agent 模拟人类测试员，去真的操作这个应用。
具体来说，MiniAppEval 通过 Playwright 驱动无头浏览器，让 Agent 像人一样点击按钮、输入文本、拖拽滑块，同时实时捕获 DOM 状态、控制台日志和源码。Agent 会根据评测参考的指引，系统性地探索应用的功能和边界，而不是按固定脚本走一遍。
评测从三个维度展开：
Intention 维度：应用是否真正满足了用户的意图？你说「做一个饮食记录器」，它确实是一个饮食记录器，而不是一个通用的备忘录。
Static 维度：静态实现是否正确？页面结构是否合理、代码是否语法正确、必要的元素是否齐全、可访问性是否达标。比如天气仪表盘应该有温度、湿度、位置字段，不管交互与否这些信息都要在。
Dynamic 维度：动态交互是否正常？这是最关键的一环。多步操作后状态是否一致？因果逻辑是否成立？边界输入是否崩溃？比如「添加任务→标记完成→验证从活跃列表消失」这条链路能不能跑通？输入空字符串或无效日期会不会崩？水蒸发演示里粒子运动是否遵循物理定律？
三个维度各给一个 0-1 的分数，最终通过条件采用木桶原则：三个维度都 ≥ 0.8 才算通过。一个应用如果视觉很好但交互全崩，或者功能齐全但违背物理常识，都不能通过。
消融实验也验证了三个组件（Eval-Ref / Code 审查 / Playwright 动态测试）缺一不可的必要性：去掉 Eval-Ref，召回率暴跌 38.89 个百分点；去掉 Code 审查，精度暴跌 51.14 个百分点；去掉 Agent 动态测试，精度只剩 12.90%，说明大量交互问题只有「真的点一下」才能发现。
更关键的是，MiniAppEval 与人类专家评判的一致性很高：实验显示平均 F1 达到 92.4%，跨评估者一致性 κ = 0.89。论文还引入了双盲评估来缓解 Agent 对图形类查询的确认偏差，进一步提升了对纯视觉任务的判断准确性。
05 评测结果：全球最强模型的「不及格」成绩单
16 个模型，500 个任务，结果摆在面前：

16 个模型在 MiniAppBench 上的通过率排名
全部模型的平均通过率只有 17.05%。即使是最强的 GPT-5.2，也只拿到 45.46%。
这组数字背后有几个值得细看的信息：
开源闭源差距巨大，但远未饱和。开源最佳 GLM-4.7 通过率仅 18.31%，而闭源最佳 GPT-5.2 达到 45.46%，差距悬殊。这也说明 MiniAppBench 不是一个已经饱和的测试，而是一片真正有区分度的战场。
难度上升，全线崩溃。头部模型在 Easy 任务上能拿到不错的分数（GPT-5.2 74.71%、GPT-5.1 74.71%、Claude-Sonnet-4-5 68.22%），看起来还行；但一到 Hard 任务，普遍腰斩甚至跌到个位数：GPT-5.2 跌至 18.64%，Claude-Opus-4-5 跌至 22.33%，GPT-5.1 仅剩 3.49%。多数模型在 Hard 任务上几乎全军覆没，多个模型通过率为 0。这说明当任务需要同时处理复杂交互逻辑、领域特定知识和现实世界原则时，现有模型的能力天花板非常明显。
Science 和 Tools 是最难啃的骨头。按领域看，Visualization 和 Lifestyle 通过率相对较高（多个模型超过 30%），因为这类任务目标明确、常识约束相对简单。但 Science 和 Tools 领域表现普遍低迷：Science 需要严格遵循物理定律和科学公式，Tools 需要鲁棒的逻辑处理和边界条件管理，这些对当前模型来说仍是硬挑战。
推理开销与性能正相关，但性价比差异显著。Token 消耗量与通过率的相关系数为 0.84，推理时间与通过率的相关系数为 0.74，更强的模型确实需要更多算力。但同样是通过率 40% 出头的水平，不同模型的 Token 消耗可以相差数倍，GPT-5.2 和 Gemini-3-Pro-Preview 在相近性能下消耗更少 Token，而部分模型在同等能力下推理时间明显更长。这意味着单纯堆算力并非唯一路径，模型架构和训练策略的优化同样关键。
06 这件事意味着什么
MiniAppBench 不只是又一个 Benchmark。它提出的是一个更根本的问题：当大模型的输出从静态文本走向可交互的应用，我们该如何评估它的真实能力？
传统的代码评测测的是「逻辑对不对」，Web 评测测的是「画得像不像」，但 MiniAppBench 测的是「做出来的东西能不能用」。它把评估从代码层面拉到了应用层面，从「能跑」拉到了「好用」。
这个转变有几个值得注意的信号：
第一，交互式应用生成正在成为大模型能力的下一个前沿。从文本到代码到交互应用，输出形态的复杂度在指数级增长。Karpathy 预言「动态 App 替代静态 App Store」，Anthropic 的 Claude Code 团队已经把「HTML 替代 Markdown」变成日常实践。当行业共识已经向交互式输出倾斜，却没有人量过模型到底能不能做好这件事。MiniAppBench 填补的正是这个空白。
第二，当前模型在原则遵循上的短板可能比想象中更严重。即使是最强的 GPT-5.2 也只有 45.46% 的通过率，这个天花板不是靠更多训练数据就能轻松突破的：它涉及模型对世界知识的深度理解、对隐含约束的自动推理、以及对复杂交互逻辑的工程实现。这三件事缺一不可，而 MiniAppBench 第一次把它们放在同一个框架下度量。
第三，评估方法论本身也需要进化。固定测试用例覆盖不了开放式生成，截图对比看不懂交互逻辑，A/B 偏好过于主观。MiniAppEval 展示了一种可行路径：用 LLM Agent 模拟人类测试员，结合静态代码审查和动态浏览器操作，从意图、静态、动态三个维度系统性评估。这套方法论不仅适用于 MiniApp，对任何开放式代码生成场景都有参考价值。
第四，开源模型的空间很大，但距离还很远。MiniAppBench 的数据清晰表明，开源最佳 GLM-4.7 仅 18.31%，与闭源最佳 GPT-5.2 的 45.46% 差距超过一倍，而多数开源模型通过率在个位数。这意味着在交互应用生成这个方向上，开源社区还有大量工作要做。
07 开箱即用：5 分钟本地跑分

https://github.com/MiniAppBench/miniappbench
MiniAppBench 已经完全开源，配套提供了端到端的评测脚手架。只需要一个 OpenAI 格式的 API Key，5 分钟就能在本地启动测试：
1 句命令跑评测python -m examples.pipeline --query-file data/query_validation_100.json --index 1
结语
大模型正在从「把话说对」走向「把应用做对」。MiniAppBench 揭示了一个不容回避的事实：在交互应用生成这个更贴近真实使用场景的维度上，即便是最强的模型也只是勉强及格。17% 的平均通过率意味着，每生成 6 个交互应用，只有约 1 个能真正满足用户需求。
但这也意味着，这里有巨大的提升空间。当模型的交互应用生成能力从 45% 走向 90% 以上，人机交互的形态将彻底改变：每个人都可以用自然语言定制自己需要的工具，而不需要等待 App Store 里的某个开发者恰好做了你想要的东西。
从静态文本到可交互的 HTML 应用，不只是输出格式的变化，而是大模型与人类协作方式的根本性转变。当 AI 不再只是回答问题，而是直接交付一个能用的应用，人机交互才真正进入下一个时代。MiniAppBench 量出了起跑线上的真实差距，也为这条赛道画出了第一个清晰的刻度。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI交互新基准！蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

国内首个海上专用制氢装置成功完成环境适应性试验

讯飞给智慧空间安上“大小脑”，你的房间也有记忆和主动智能了

比亚迪大汉首秀，鸿蒙智行三车连发！工信部这波新车绝了

反其道而行之！上海科学家用“脉冲式”理念颠覆几十年老观念，登上国际顶刊

浙江移动筑牢数字底座赋能中药企业转型升级

全站最新

AI交互新基准！蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

国内首个海上专用制氢装置成功完成环境适应性试验

讯飞给智慧空间安上“大小脑”，你的房间也有记忆和主动智能了

比亚迪大汉首秀，鸿蒙智行三车连发！工信部这波新车绝了

热门推荐

AI交互新基准！蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

国内首个海上专用制氢装置成功完成环境适应性试验

讯飞给智慧空间安上“大小脑”，你的房间也有记忆和主动智能了

比亚迪大汉首秀，鸿蒙智行三车连发！工信部这波新车绝了

反其道而行之！上海科学家用“脉冲式”理念颠覆几十年老观念，登上国际顶刊

浙江移动筑牢数字底座赋能中药企业转型升级

广汽埃安i60 530宁德版上市，限时焕新价10.36万起

美的与阿里巴巴达成战略合作基于全栈AI能力打造智慧家居新范式

美的与阿里巴巴达成战略合作基于全栈AI能力打造智慧家居新范式

人工智能+生态大会将于6月16日在京举行

目睹伊朗，印度“冻结”星链：怕管控不住这家美企

经济热点快评丨你也在用“AI中转站”？小心风险！

同济三大科创项目正式落户普陀，撬动数智健康产业新未来

经济热点快评丨App窗口乱跳转岂能屡禁不止？

Meta裁员8000人，开发岗、管理岗成AI转型最大牺牲品