香港中文大学与上海AI实验室找到一个让AI"边看边想"的新办法

IP属地中国·北京 科技行者 时间：2026-05-30 00:19:38

这项由香港中文大学、上海AI实验室、上海交通大学及上海创新研究院联合开展的研究，于2026年5月发表，论文编号为arXiv:2605.23897，有兴趣深入了解的读者可通过该编号查阅完整原文。
当你面对一道难题时，有时候光靠脑子里想是不够的——你会拿起笔，在纸上圈出重点，画个路线图，或者把拼图重新摆一摆。人类的大脑和眼睛是协同工作的，看和想从来不是分开的两件事。然而，当今最先进的多模态大语言模型（可以理解为那种既能看图又能回答问题的AI）在处理需要"看清楚才能想明白"的问题时，却往往只会在脑袋里绕圈子，用纯文字去描述那些它根本无法亲手画出来的空间状态，结果一步错步步错，越想越乱。
这个研究团队正是注意到了这一根本性的矛盾，并提出了一个颇为直觉化的解决思路：既然问题出在"只想不看"上，那何不让AI在推理过程中真正地"动手"修改图片，把需要关注的信息直接画出来，再根据修改后的图片得出答案？这个思路并不全新，但研究者发现，现有的两类尝试都存在明显的短板，于是他们另辟蹊径，开发了一套名为ETCHR（全称Editing To Clarify and Harness Reasoning，意为"通过编辑来澄清并驾驭推理"）的系统。
ETCHR的核心理念，可以用一个修缮房子的比喻来贯穿理解整篇论文。你手头有一张老房子的照片（原始图片），有人问你"厨房的窗户在哪边"（推理问题）。一个糟糕的帮手可能只会嘴上描述，说不清楚；另一个帮手会拿着固定的工具包，只能在照片上贴几张便利贴，但厨房的全局布局他看不了；还有一种帮手，他既懂看图又懂修图，能根据你问的具体问题，直接在照片上画出最关键的区域，甚至能把你需要换个角度才能看清楚的地方重新渲染出来——ETCHR就是第三种帮手。
一、现有方案各有各的"短板"
现有的"边看边想"方案大致可以分成两类，研究者将它们分别称为"工具调用型"和"统一模型型"。
工具调用型方案的逻辑是：让AI学会发号施令，比如说"在红色的车周围画一个方框"，然后交给一个专门的渲染器去执行这个命令。DeepEyes、Thyme等系统走的就是这条路。这个做法的问题在于，渲染器能做的事情从一开始就被框死了，只能处理"画框"、"裁剪"、"缩放"这类简单的局部操作。如果你要问的是"迷宫该怎么走"或者"这张拼图恢复原状应该是什么样子"，这些操作就完全无能为力了。更麻烦的是，每次要支持一类新操作，就得重新对AI进行专项训练，而这种训练往往会让AI在其他方面的能力下降，就像你把一个全能厨师专门培训成只会做煎饼，他慢慢就忘了怎么炒菜。
统一模型型方案则走向另一个极端：用同一个AI骨干网络同时负责"看图理解"和"生图修图"两件事，期望它能自然地在脑海中交替产生文字和图片。Zebra-CoT、ThinkMorph等系统采用的是这种思路。问题在于，"看懂"和"画好"本来就是两种截然不同的能力，强迫同一套神经网络同时做好两件事，往往两边都做不精。更致命的是，这类系统产生的中间图片质量参差不齐，很多时候图片里的错误反而会误导后续的推理，就像一个帮你修房子图纸的人，反而在图纸上添了一些错误标注，导致施工方向反了。
两类方案还共享了一个盲点：它们都不去检查修改后的图片是否真的正确，而是直接把修改结果扔进后续推理流程。一旦图片改错了，整个推理就会被带偏，而系统自身毫无察觉。
正因如此，研究者决定走第三条路：用一个专门为推理任务设计和训练的图片编辑模型，把"修图"和"理解"彻底分开，同时加入一个"改完先检查"的步骤，确保修改过的图片真的有用才往下推理。
二、AI编辑器面临的两道坎
在正式介绍ETCHR之前，研究团队做了一组诊断性实验，把现有图片编辑模型在推理辅助任务上的弱点摸了个清楚。他们发现，现有编辑器面临两道明显的坎，并将其分别命名为"语言侧推理缺口"和"生成侧推理缺口"。
语言侧推理缺口说的是这样一个问题：现有的图片编辑模型是按照"给我一条明确的指令，我就执行"的方式训练出来的。如果你告诉它"在垃圾桶周围画一个红框"，它能做得很好；但如果你只给它一个问题——"垃圾桶在黑色椅子的左边还是右边？"——它就不知道该怎么下手了，因为它根本不具备从问题本身推断出"我需要做什么样的编辑"的能力。
为了量化这个差距，研究者用Gemini先把问题转成明确的指令，再让编辑器执行；另一种情况则是直接把问题原文喂给编辑器。结果显示，有了明确指令的情况下，编辑正确率远高于只有抽象问题的情况。这说明，现有编辑器"照着指令做事"的能力还可以，但"从问题自己判断该做什么"的能力几乎为零。
生成侧推理缺口则指的是另一个维度的问题：即使已经给了它足够明确的指令，当这个指令本身需要复杂的多步推理才能执行时，编辑器同样会出错。研究者以迷宫路径绘制和冰湖路径绘制为例，在给定了最短路径文本描述的前提下，测试编辑器能否在图片上正确画出来。他们发现，当路径只有1步时，编辑器几乎总能画对；但随着路径长度增加，准确率急剧下降，路径长度达到10步时，准确率接近于零。这就好比你告诉一个木匠要"先量尺、再锯木、再打孔、再拼装……"，他在前两步能跟上，但步骤一多他就开始犯错，整个工序越做越歪。
这两个缺口共同说明了一件事：要把图片编辑器变成一个真正有用的推理助手，既需要教会它"从问题推断需要什么样的编辑"，也需要提升它在执行复杂变换时的准确度。ETCHR的两阶段训练方案，正是为了分别弥合这两道坎而设计的。
三、ETCHR的"两轮培训+一道验收"架构
ETCHR的整体结构可以理解为：把一个经验丰富但只会照章办事的装修工人，通过两轮针对性培训，改造成一个能够独立判断施工方案、并且具备质量自检能力的施工总监，然后再配上一个严格的验收环节。
**第一轮培训：模仿学习**
第一阶段叫做"推理模仿监督微调"。研究者为ETCHR的基础图片编辑模型准备了一批精心设计的训练数据，数据格式是成对的"原图+问题→目标修改图+答案"。这批数据覆盖了五类推理任务，每类任务的编辑方式各不相同。
细粒度感知任务关注的是在高清图片中找到某个细小的目标，训练数据来自V*数据集，目标修改图就是在原图上把对应目标用边框圈出来。图表理解任务要求AI能读懂柱状图、折线图等数据可视化内容，训练数据来自RefChartQA，同样是在图表上圈出与问题相关的数据区域。逻辑推理任务以迷宫为主，目标修改图是在迷宫图上画出正确的通行路径。拼图还原任务则来自Spatial-SSRL数据集，原图是一张被打乱顺序的图片，目标修改图是正确还原后的完整图片。三维空间理解任务使用了DL3DV-10K数据集，里面包含了真实场景的视频和对应的相机位姿参数，原图和目标图来自同一个视频的不同帧，研究者从相机外参中合成了问题和答案。
覆盖这五类差异巨大的任务，是有意为之的设计。如果只训练某一类编辑（比如只画边框），模型会发展成只会干一件事的"专科工人"；而覆盖从局部标注到整图重排的各种变换，才能让模型真正学会"根据问题判断该做什么"的元能力。
为了进一步减少不同任务之间的干扰，研究者为每类任务设计了一个"任务级提示词"，相当于给模型贴上一张任务说明牌。感知类任务的提示词是"在图中用红框标出与问题相关的重要区域"；逻辑类任务的提示词是"用蓝色画出迷宫的最短路径"；拼图类任务的提示词是"画出这道拼图题还原后的原始图片"；三维理解类任务的提示词是"设想一个有助于回答问题的新视角"。这些任务级提示词在训练时帮助模型区分不同任务的编辑空间，在推理时不需要访问理解模型的内部信息，从而让ETCHR可以像插件一样接驳到任何大语言模型上，无需对后者进行额外训练。
在技术实现上，研究者选择了FLUX.2-klein-base-9B作为基础编辑模型，这是一类采用了类语言模型编码器的扩散模型，具备较强的文本理解能力。训练时使用了LoRA（低秩适配）技术，以较小的参数量实现对扩散变换器的高效微调，LoRA秩设置为768，应用于全部线性层，以保证足够的多任务学习容量。
**第二轮培训：强化提升**
第二阶段叫做"推理增强强化学习"。光靠模仿还不够，因为模仿只能让模型做出"看起来像"的编辑，但不能保证编辑真的有用。第二阶段引入了强化学习，用真实的推理效果来评判编辑质量，让模型从"做得像"升级到"做得对、做得有用"。
训练数据的筛选颇为讲究。研究者从五类任务中各取2000个样本，总共10000对，但只保留那些满足特定条件的样本——理解模型在看原图时答不对，但在看目标修改图时能答对。第一个条件确保这道题确实需要视觉辅助，不是模型自己就能搞定的；第二个条件确保目标修改图提供了真实有效的帮助，从而为强化学习提供一个可靠的上界信号，减少训练过程中的噪声和方差。
奖励信号由两个互补的部分构成。第一个叫做"编辑引导奖励"：如果理解模型在看了编辑后的图片之后能回答正确，就给一分，否则零分。这个奖励最直接，优化的就是最终目标——让编辑真的有助于得出正确答案。但它有一个固有的上界限制：如果理解模型本来就不够强，即使编辑完美无误，它也未必能答对，这时候这个奖励就会给出错误的惩罚信号。
第二个叫做"编辑正确性奖励"：不去看最终答案，而是让一个"裁判模型"专门判断编辑本身是否正确——比如红框有没有圈到正确的目标，路径有没有画对。这个奖励不受理解模型能力天花板的限制，但裁判模型本身也可能判断有误，有时候会误判一个正确的编辑。两个奖励各有盲区，各有长处，研究者将两者以相等的权重叠加（各占0.5），让它们互相补充、互相纠错。
优化算法采用了Pref-GRPO，这是GRPO算法的一个改进版本。每次训练时，系统为同一张图和同一个问题生成8张不同的编辑结果，然后用上述综合奖励对这8张图进行两两比较，计算每张图相对于其他图的"胜率"，再用归一化后的胜率作为策略优化的优势估计值。相比直接用绝对奖励值，这种两两比较的方式能放大不同编辑结果之间的细微差异，使奖励信号更加显著，训练更加稳定。
**推理时的验收环节**
ETCHR在推理阶段设计了一个三步流程，研究者称之为"编辑-验证-推理"。第一步，编辑模型接收图片和问题，生成一张候选编辑图。第二步，理解模型检查这张编辑图是否包含了回答问题所需的有效信息，但不在这一步给出最终答案。第三步，如果验证通过，理解模型同时接收原图和编辑图来生成答案；如果验证不通过，则直接回退到只看原图来生成答案。
这个验收环节的必要性在于：编辑错误的代价是不对称的。一张正确的编辑图能提供决定性的视觉线索，帮助模型做出正确判断；但一张错误的编辑图会引入结构性的干扰信息，而大语言模型往往很难从这种干扰中自我纠正，反而会顺着错误的线索越走越偏。与其冒险使用一张可能有问题的图，不如在验证失败时直接回到原图，稳稳地用文字推理解决问题。
四、实验结果：五类任务全面提升
研究者在九个基准测试上对ETCHR进行了全面评估，覆盖了细粒度感知（V*Bench和HRBench 4K/8K）、图表理解（ChartQA和CharXiv描述与推理子任务）、逻辑路径推理（自建的迷宫和冰湖任务各200题）、拼图还原（基于MS COCO图片自建的200道拼图题）以及三维空间理解（ViewSpatial-Bench的人物视角相对方向子任务，以及基于DL3DV场景自建的DL3DV-2k，2000道三维视角变换推理题）。
ETCHR分别与三种规模和来源各异的理解模型配合测试：开源的Qwen3-VL-8B（密集型8B参数模型）、闭源的Gemini-3.1-Flash-Lite，以及参数量高达万亿级别的混合专家模型Kimi K2.5。结果表明，在全部三个理解模型上，ETCHR均带来了稳定的提升。与Qwen3-VL-8B配合时，平均Pass@1从55.95提升到60.77，提升了4.82个百分点；与Gemini-3.1-Flash-Lite配合时，从65.08提升到70.55，提升了5.47个百分点；与体量极大的Kimi K2.5配合时，从76.55提升到81.16，提升了4.61个百分点。
从任务细分来看，ETCHR在逻辑推理和三维空间理解上的提升尤为突出。以Qwen3-VL-8B为基础模型，ETCHR在迷宫任务上将准确率从27.5%提升到38.5%，在三维空间理解的DL3DV-2k任务上从70.8%提升到78.6%，在拼图还原任务上从9.5%提升到13.0%。这些任务正是工具调用型方法完全无法覆盖的领域，因为它们需要全局性的图片变换，而非仅仅在局部画个框。与此同时，细粒度感知和图表理解任务也有稳定的小幅提升，说明ETCHR在局部标注类任务上同样有效。
与工具调用型方法（DeepEyes-V2和Thyme）的比较揭示了一个有趣的现象：这些方法在图表理解和细粒度感知上与ETCHR相近甚至略有优势，但由于它们的工具箱根本不支持逻辑路径绘制、拼图还原和三维视角变换，这三类任务的得分接近于零，综合平均分（约49-51分）远低于ETCHR配合强力模型时的水平。统一模型型方法（Bagel-Zebra-CoT和ThinkMorph-7B）则在所有任务上都低于专门的理解模型基线，分别只有38.27分和44.05分，印证了研究者关于"统一骨干网络的生成和理解能力两边都会打折"的判断。
研究者还额外与闭源的商用图片编辑服务Nano Banana 2进行了比较，在每个基准测试上各取100个样本。结果显示，两者在感知类和图表类任务上表现相近，但ETCHR在逻辑推理、拼图还原和三维理解任务上有更明显的优势，平均提升幅度高于Nano Banana 2。这与研究者的核心假设一致：在需要编码任务结构（而非仅仅重新渲染局部区域）的任务上，推理感知训练而非编辑器本身的规模，才是驱动效果的关键因素。
五、消融实验：每个设计都有它的价值
为了验证ETCHR各个设计选择的必要性，研究者做了三组对照实验。
第一组比较了两个训练阶段各自的贡献。结果显示，基础的FLUX编辑模型在大多数任务上都跟没有视觉辅助的原始理解模型差不多，有时候甚至略差，说明未经针对性训练的编辑模型根本起不到推理辅助的作用。加入第一阶段监督微调之后，所有任务均有明显提升，说明模仿学习成功地赋予了模型从问题推断编辑类型的能力。第二阶段强化学习在感知和图表任务上进一步带来了不到1个百分点的额外提升，而在逻辑推理、拼图和三维任务上提升有限。研究者分析认为，这是因为GRPO的滚动采样对于局部标注类任务（如画框）产生的多张候选图之间差异足够明显，奖励信号能有效区分；而对于需要全局结构性变换的任务（如拼图还原），采样出的多张候选图之间的语义差异往往不够丰富，导致策略优化的空间有限，这也是研究者在论文局限性部分坦承的一个问题。
第二组比较了两种奖励信号单独使用和合并使用的效果。只用编辑引导奖励（只看最终答案是否正确）时，在感知和图表任务上略逊于只用编辑正确性奖励（只看编辑本身是否正确）；在逻辑推理任务上两者相近。合并两种奖励之后，在所有任务上均优于或持平于单独使用任一奖励，验证了两种奖励的互补性设计。编辑正确性奖励提供了一个不受理解模型能力上界限制的质量评估通道；编辑引导奖励则直接优化了最终目标，防止模型只追求"看起来正确的编辑"而忽略实际的推理帮助效果。
第三组测试了"编辑-验证-推理"中的验证环节是否真的必要。实验结果显示，在细粒度感知和图表理解任务上，加入验证步骤的效果明显好于不验证直接推理，两者差距约在0.5到1.7个百分点之间。这两类任务的共同特征是理解模型的基础准确率本来就比较高（约80%），在这个区间内，过滤掉有问题的编辑比提供额外线索更重要。而在逻辑推理和拼图任务上，有无验证的差距不那么明显，甚至在三维任务上出现了轻微的回退。研究者的解释是：在这些任务上，理解模型本来就很难靠自己解答，哪怕是稍有缺陷的编辑图也能提供比原图更多的有用信息，与其验证失败后回退到原图，不如把这些"不够完美但还算有帮助"的编辑图保留下来。这个发现也暗示了一个改进方向：验证步骤最好根据任务类型或模型置信度有选择地启用，而不是对所有情况一律适用。
六、几个有代表性的具体案例
研究者在论文中展示了多个直观的案例，从中可以很清楚地看出ETCHR相比其他方法的具体差别。
在一道关于图中雕像左右位置判断的题目中，DeepEyes和Thyme尝试调用工具但没有成功，最终给出了错误答案；Zebra-Bagel完全没有修改图片；ThinkMorph修改了图片但框选位置出了偏差；Nano Banana 2的框选位置大致正确但范围粗糙，对推理的帮助有限；只有ETCHR给出了精确框选关键目标的编辑图，配合推理模型得到了正确答案。
在迷宫路径绘制任务中，Zebra-Bagel的输出图像出现了明显的损坏，ThinkMorph画出了错误的路径，Nano Banana 2也画错了路径，只有ETCHR准确画出了从起点到终点的正确路径，并在推理时成功引导模型按路径描述出正确的移动序列。
在拼图还原任务中，理解模型在没有编辑辅助的情况下通过镜像反射关系推断出了一个错误的排列顺序；而ETCHR生成了一张还原后的完整图片，让理解模型能够直接比对两张图片，从而得出了正确答案。
在三维视角理解任务中，原图拍摄的是两位女性从正面的画面，问题是从其中穿绿衣女性的视角来看，穿红衣女性在哪个方向。不借助视角变换，模型从图中看到绿衣女性在左边，推断红衣女性在她的右前方，但这是相机视角而非绿衣女性本人的视角，因此答案是错的。ETCHR生成了一张模拟从两人背后拍摄的图片，从这个视角可以清楚看出绿衣女性在右边，红衣女性在她的左边，推理模型据此得出了正确答案。
说到底，ETCHR做的事情其实并不神秘，它只是把人类在解决视觉推理问题时的一个朴素直觉——"看不清就画出来再看"——用工程化的方式实现在了AI系统里。整个设计里有三个关键细节支撑着这个朴素思路的实际落地：训练数据覆盖了五类差异巨大的任务，防止模型只会一种编辑；两阶段训练先打基础再提质量；推理时的验证环节防止错误编辑污染最终答案。这套系统最吸引人的地方或许在于，因为编辑器和理解器被彻底解耦，ETCHR可以像一个通用插件一样接入任何已有的视觉语言模型，无需对那些模型进行任何额外训练——无论是开源的Qwen3-VL还是闭源的Gemini和Kimi，都能直接从中受益。
当然，这项研究也坦诚地指出了自身的局限。GRPO在处理需要全局结构变换的任务时，候选样本之间的语义多样性不足，限制了强化学习阶段的探索效果；整个系统的最终表现仍然受制于理解模型本身的能力上限，即使编辑完美，也无法弥补理解模型推理能力的不足；此外，每次推理都需要额外生成一张图片，相比纯文字推理会增加时间开销。这些都是后续研究值得继续深入的方向。
对这项研究感兴趣的读者，可以通过arXiv编号2605.23897查阅完整论文，代码也已在GitHub上以InternLM/ETCHR为项目名称开放。
Q&A
Q1：ETCHR和普通的图片编辑AI有什么区别？
A：普通图片编辑AI只会按照明确指令操作，比如你告诉它"把天空变成蓝色"它才会执行。ETCHR则不同，它能从一个问题本身（比如"垃圾桶在椅子左边还是右边？"）推断出自己该对图片做什么样的修改，相当于从"被动执行"升级成了"主动判断"，而且修改的目的是帮助AI更好地回答问题。
Q2：ETCHR的"编辑-验证-推理"流程具体是怎么运作的？
A：流程分三步。第一步，编辑模型根据原图和问题生成一张修改后的图片，比如在关键区域画框或者绘制路径。第二步，理解模型检查这张修改图里有没有真正有用的信息，但这一步不给出最终答案。第三步，如果修改图通过检查，理解模型同时看原图和修改图来回答问题；如果没通过，直接只看原图回答。这样能防止错误的修改图把推理带偏。
Q3：ETCHR为什么在迷宫和拼图这类任务上提升比画框圈重点更明显？
A：因为这两类任务需要对图片做全局性的结构变换，而不只是局部标注。现有的工具调用型方法根本不支持这类操作，而ETCHR经过专项训练后具备了绘制完整路径、还原拼图顺序等能力，直接填补了这个空白。相比之下，画框圈重点这类任务很多系统都能做，所以ETCHR的相对优势没那么突出，但依然有稳定的小幅提升。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI短剧，为何共用一张脸？

猛增20倍，百度搭子想让企业敢用AI

行业观察 | 揭秘美团“龙猫”：国产算力秘密训练三年，走进真实开发者世界

软银孙正义：到2040年AI每年需5万亿美元投入，AI泡沫说法很荒谬

小米MIX Fold 5首发！玄戒O3八月登场：基于3nm工艺打造

国产AI安全强势出海！华为与马来西亚签下网络安全协议：总理亲自站台

全站最新

AI短剧，为何共用一张脸？

猛增20倍，百度搭子想让企业敢用AI

行业观察 | 揭秘美团“龙猫”：国产算力秘密训练三年，走进真实开发者世界

软银孙正义：到2040年AI每年需5万亿美元投入，AI泡沫说法很荒谬

热门推荐

分化时代到来，三路玩家如何差异化切蛋糕？

国际品牌换本土自营，是高端酒店好出路吗？

要价400亿的灵心巧手，估值比市场规模还大

《功夫女足》爆了，但周星驰这次有点偷懒

智谱和MiniMax，又撞车了

欧莱雅投资的10亿级药企，冲刺港股IPO

异教徒Anthropic，与全世界结仇

AI陪伴机器人，没有护城河？

苹果的诉讼，可能让OpenAI的硬件野心倒退多年

老黄的赌局

万象城们开始主动帮老铺黄金打折了

中国茶饮，别再道歉了

雅迪守城、九号破圈、小牛逆袭：两轮电动车的格局重塑

2026《中国企业家》未来之星年会在广州举行

中美创新药，究竟谁是甲方？