当前位置: 首页 » 资讯 » 科技头条 » 正文

OpenAI打广告后,如何成为爆款?CMU提出AutoGEO解密流量密码

IP属地 中国·北京 机器之心Pro 时间:2026-03-06 12:44:43



AI 搜索引擎正逐渐取代传统搜索入口,「问 AI」已经成为日常习惯。随着 OpenAI 宣布在 ChatGPT 中引入商业推荐,搜索与内容分发的边界正在被重新定义。在这样的环境下,你的内容能否在 AI 搜索中成为「爆款」,不再只取决于标题和流量,而是更大程度取决于 AI 本身的引用偏好。

你不只是和其他网页争排名,而是在争夺被AI「采纳进答案」的份额。被引用的网页未必最权威、也未必最早发布,它往往只是有更「适合被拼进回答」的写法。

卡内基梅隆大学的研究团队发表在 ICLR 2026 的这篇论文把这种新流量密码解码得很直白。

论文、代码、模型参数、试用 Demo 见

Github。



论文标题:What Generative Search Engines Like and How to Optimize Web Content Cooperativelyhttps://github.com/cxcscmu/AutoGEOGithub:

01 GEO:从 ranking 变成

「visibility in answers」


传统搜索的基本动作是「检索 + 排序」:给你一串链接,用户自己点击阅读。

生成式搜索引擎(Generative Engines,GE),例如 Google AI Overview、ChatGPT,正在形成新的流量规则。这类引擎的基本动作通常是「检索 + 综合 + 生成」,先检索候选文档,再让 LLM 把内容整合成一段答案,顺带附上引用来源。

这带来一个结构性变化:内容的曝光不再等于「排第几」,而是等于在答案中被写进多少、写在多靠前的位置、以怎样的方式被引用。也因此,过去那种「写得更 SEO」未必等于「更容易被生成式引擎吸收」。

于是出现了Generative Engine Optimization(GEO),优化网页内容以提高被 AI「采纳进答案」的份额。但现有的 GEO 多靠人工启发,比如加统计、关键词策略、强调流畅等,依靠直觉和经验。

更麻烦的是:如果你为了被引用而改写,可能会伤害生成式引擎输出的可靠性与效用。这就是论文不断强调的「合作式(Cooperative)」立场:优化可见性,不能以牺牲引擎效用为代价。

02 AutoGEO:用最大反差样本,

把偏好从玄学变成规则集


这篇论文的核心贡献是提出 AutoGEO:先从大量「可见性有差异」的对比证据里,自动抽取生成式引擎偏好规则;再用这些规则去改写网页,并且把对引擎效用(Generative engine utility,GEU)的影响纳入评估。他们还训练出一个小模型 AutoGEO Mini,推理成本只有 API 方案的 ~0.0071x。



AutoGEO:规则发现 -> 规则驱动改写(API / 小模型)的整体框架。

AutoGEO 的第一步不是改写网页,而是学习「口味」。作者把生成式引擎抽象为:对每个 query,引擎检索候选网页集合,再用 LLM 生成答案。随后计算每个候选网页在答案中的可见性分数。可见性分数沿用 GEO 系列客观指标衡量:不仅看引用字数(Word),还看引用位置权重(Pos),以及综合指标(Overall)。

关键设计在于「证据选择」:对每个 query,他们不做平均对比,而是挑一对可见性差距最大的网页。使用这样一对一个被大量吸收、一个几乎没被用的文档,也就最容易看出偏好差异的「判别特征」。

接下来是四段式 LLM 处理步骤,把海量对比样本压缩成可执行规则:

Explainer:对比两篇文档与最终答案,生成自然语言解释(它们哪里不同、为何可能导致引用差异)。Extractor:把解释提炼成结构化 insights(偏好因素的要点化表达)。Merger:把成千上万条 insights 合并成候选规则。为了可扩展性,论文设计了 Hierarchical merging,解决「上万样本 -> 稳定规则」的合并瓶颈。Filter:过滤掉噪声、歧义与不稳定规则,得到最终规则集。


03 怎么用:

即插即用与超低成本可部署


AutoGEO 的第二步才是改写:让网页更符合规则,从而更可能被生成式引擎引用。

路线 A:AutoGEO API(Prompt-based,即插即用)

把规则集直接嵌入 prompt 的「Quality Guidelines」,调用强 LLM API 如 Gemini、GPT 完成重写。优点是无需训练、部署快;缺点是成本和吞吐受 API 限制。



路线 B:AutoGEO Mini(RL-based 小模型,超低成本可部署)

作者微调小模型做同样的改写,并用强化学习把「可见性提升」与「合作式约束」绑定在一起。

Cold start:先用 AutoGEO API 做 Teacher 生成改写数据,对小模型做 SFT,避免 RL 初期发散。

GRPO 强化学习:同一文档采样一组候选改写,按奖励学习。奖励由三部分组成:Outcome reward(改写是否提升可见性)、Rule reward(是否满足抽取到的规则)以及Semantic reward(语义是否忠实原文)。

04 怎么评估「有效且不作恶」


这篇论文的评估不只刷可见性指标,还显式评估引擎效用(Utility)是否被破坏。论文实验涵盖三个数据集GEO-Bench、Researchy-GEO、E-commerce,分别测试 AutoGEO 在不同领域、不同意图环境中的性能。

同时,实验考虑基于多种前沿 LLM的 generative engine,包含 Gemini、GPT、Claude。

实验指标主要分两类:

GEO:度量网页在答案中的可见性,沿用 GEO 的三类指标 Word / Pos / Overall;

GEU:衡量合作程度,也即答案质量,度量生成式引擎答案与真实答案的相关性、忠实性与质量。

实验结果表明,AutoGEO API 与 AutoGEO Mini 在多个设置下显著提升可见性指标,尤其 AutoGEO API 的提升幅度很大,比最强的基线模型高 50.99%。



三大数据集上的总体对比:AutoGEO API / AutoGEO Mini 显著优于基线。

论文把合作式的承诺落在 GEU 指标上:在大幅提升 GEO 指标的同时,GEU 多数情况下与 Vanilla 接近。

这点很关键:GEO 如果只看「我被引用了多少」,会不可避免把互联网推向噪声与操纵;但如果把 GEU 纳入硬指标,至少为「优化的边界」提供了可讨论的标准。



不同引擎下,可见性(GEO)与效用(GEU)并列对比。

05 发现:规则并不通用


规则既有共识,也有碎片化风险。

如下图 (a),论文显示不同 LLM 引擎之间偏好规则重叠度不低,说明存在「通用型好写法」;但仍有 engine-specific 的独特规则。更剧烈的是图 (b) domain shift:从开放域数据集迁移到电商意图,规则重叠显著下降;并且电商更偏好 actionable guidance(可操作步骤、建议),研究类更偏好 in-depth explanation(机制、原因、背景的解释深度)。



不同领域 / 任务下的共通规则与独特规则示例:一套写法可能跨域失灵。

这对内容生态是一个直接的信号:未来可能出现「同一页面多版本」,分别迎合不同引擎,甚至按领域意图维护不同写作模板。

06 小结


AutoGEO 给内容方打开了一扇门:偏好可以被抽取、规则可以被更新、改写可以被训练、成本可以被压到极低。

生成式搜索时代的一个新现实是:你写给人看的网页,可能首先要通过「答案机器的消化系统」。下一步怎么走,决定互联网会更透明,还是更像一场模型与模型之间的军备竞赛。接下来真正的竞争不仅在内容方,也在引擎与生态治理:

当大量网页开始「为引用而写」,引擎还能否区分「更有信息量」与「更像会被引用的信息」?

如果平台开始频繁更新偏好以对抗被规模化迎合,是否会出现一场持续的「规则 - 反规则」军备竞赛?

AutoGEO 把 GEO 从玄学推进到工程,也把生成式搜索的下一轮博弈,提前公开了。

作者简介


本文作者来自于卡内基梅隆大学计算机学院语言技术研究所 CX Research Group,指导老师是 Chenyan Xiong 教授。组内研究聚焦于语言模型,主要包括基础模型训练,与深度研究、RAG 有关的信息检索和生成,以及语言模型的应用。团队主页:https://www.cs.cmu.edu/~cxcscmu/。欢迎大家关注我们团队的最新研究成果!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。