![]()
如果你最近用过那些时髦的AI绘图工具,可能会有这样一种哭笑不得的体验:你让它画一张海报,结果上面的字像是外星文;你让它画一群人,结果每个人的脸都糊得像隔了一层毛玻璃。明明AI已经能画出媲美照片的风景大片,为什么一遇到文字和人脸就"翻车"?
这个困扰了无数用户的问题,最近被一个来自清华大学和微软研究院的联合团队认真地解决了。这项研究于2026年5月发布在预印本平台arXiv上,编号为2605.14333,团队为它取了一个相当贴切的名字——InsightTok,意思大概是"有洞察力的图像分词器"。如果你对完整的技术细节感兴趣,可以在GitHub的LeapLabTHU/InsightTok项目下找到他们公开的代码和资料。
接下来,让我们用一场"AI厨房的烹饪故事"来理解这项研究到底做了什么神奇的事情。
一、AI画图就像做菜,问题出在切菜环节





京公网安备 11011402013531号