![]()
这项由香港大学与哈尔滨工业大学联合开展的研究,于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605.06196v1。感兴趣的读者可通过该编号在arXiv上查阅完整原文。
每当我们对着AI说"你现在是一个担心孩子安全的家长"或者"你是世界银行的行长",AI真的会从内心深处"变成"那个角色吗?还是说,它只不过是换了几个词语,说话的腔调变了一点,骨子里还是那个千篇一律的AI助手?
这个问题听起来像是哲学追问,却有着非常实际的意义。随着越来越多的研究机构开始用AI模拟政策制定、社会辩论甚至公共卫生应对,如果AI扮演"中央银行行长"和"忧心忡忡的普通家长"时,内部反应其实是一样的,那这种模拟就只是一场精心包装的独角戏,而非真正的多方视角对话。
香港大学和哈尔滨工业大学的研究团队决定打开AI的"内部档案",看看当它被要求扮演不同社会层级的角色时,它的神经网络深处究竟发生了什么。他们的发现相当出人意料——AI不仅真的能区分这些角色,而且这种区分遵循着一条清晰的、可以被测量和操控的方向线,研究团队将其命名为"粒度轴"(Granularity Axis)。
这条"粒度轴"的一端是普通个人的视角:焦虑的患者、单亲父母、被驱逐的租户——他们的思考以天为单位,关注的是眼前的账单、身边的孩子、今晚能不能有个地方睡觉。另一端则是宏观机构的视角:联合国大使、世界银行行长、气候条约谈判代表——他们的思考跨越十年乃至百年,关注的是国际框架、制度设计、跨代际的策略规划。研究团队发现,在AI的"大脑"里,这两端之间存在着一条连续的、有序排列的方向线,就像一把尺子,从微观个人到宏观机构,刻度清晰,层次分明。
更关键的是,这条轴不仅仅是描述性的,它还是可以被主动操控的。通过一种叫做"激活引导"的技术,研究团队可以直接拨动AI神经网络里的这把"刻度盘",让原本给出个人建议的AI转变为政策分析师的口吻,或者反过来,让它从宏观框架回归到具体的个人经历。
这项研究的意义在于,它把"AI扮演社会角色"这件事,从一个关于文字风格的表面现象,提升到了一个关于内部表征结构的深层问题。
一、从"扮演角色"到"内心世界":研究团队的思路
要理解这项研究,不妨先思考一个日常场景:同样是被问到"如何解决住房成本上涨的问题",一个刚收到驱逐通知的租户会说"我得赶快找中介,把开销压缩一下",而一个城市规划局局长会说"我们需要重新审视分区规划条例,引入公私合作机制",国家住房政策官员则会说"这需要跨部门协调,配合税收政策和长期基础设施投资"。三个人面对同一个问题,给出的答案在时间跨度、决策层级、涉及主体的范围上都截然不同。
研究团队想知道的是:当AI被提示"你现在是那个刚收到驱逐通知的租户"或者"你现在是城市规划局局长"时,这种差异是发生在AI的"表皮"(仅仅是措辞变了),还是渗透到了AI的"骨骼"(内部的神经网络状态发生了系统性的变化)?
为了回答这个问题,他们借鉴了一个已有的研究工具框架,即"助手轴"(Assistant Axis)的研究思路。此前,另一个研究团队发现,当AI被赋予各种角色时,有一个方向可以衡量AI偏离"默认助手"状态的程度。这个发现启发了本研究团队:也许在社会角色的维度上,也存在类似的可测量方向?
于是他们构建了一个宏大的实验体系。首先,他们需要一套覆盖不同社会层级的角色目录。其次,让AI以这些角色的身份回答大量问题,同时记录AI神经网络的内部状态。然后,通过数学方法分析这些内部状态,寻找其中的规律。最后,通过直接干预神经网络来验证这条规律是否真正影响AI的行为。
整个研究就像是一次系统性的"心理解剖"实验,只不过解剖对象不是生物,而是AI的神经网络。
二、七十五个角色,五个层级:一张社会地图的构建
研究团队首先构建了一套精心设计的社会角色分类体系,共75个角色,分布在五个层级之中。
最微观的第一层(L1-微观个体)包含15个普通个人角色,涵盖日常生活中的各种困境:焦虑的患者、被驱逐的租户、单亲父母、失业的应届毕业生、身处异乡的新移民、过度劳累的护士、在城市谋生的自由艺术家……这些角色的共同特征是:思考以天或月为单位,关注的是眼前具体的、个人层面的生存挑战,信息来源有限,可采取的行动空间也有限。
往上一层(L2-社区群体)是15个社区层面的角色,比如家长教师协会主席、社区组织者、志愿消防队长、租户联盟领袖、社区花园协调员……他们管理的范围从几十户到几百户不等,需要协调多个家庭或小团体之间的关系,关注的问题从个人扩展到了邻里社区的层面。
第三层(L3-组织管理)包含15个管理中型组织的角色:医院院长、大学学院院长、NGO主任、工厂运营总监、媒体总编……他们的决策影响数百乃至数千人,需要在预算、合规、团队、战略之间做出平衡,时间跨度往往是一年或多年。
第四层(L4-制度体系)进入国家制度层面:中央银行行长、公共卫生专员、教育部长、军事将领、能源政策主任、全国住房政策设计者……他们的决策影响整个国家的人口,时间跨度往往是数十年,思考框架是法规、政策、制度和系统性变革。
最宏观的第五层(L5-宏观超级行为者)是全球层面的角色:联合国大使、世界银行行长、气候条约谈判代表、国际法院法官、全球粮食安全战略家……他们的视野跨越国界,涉及的是数十亿人的命运,思考尺度是几十年到几个世纪。
为了确保实验的可靠性,每个角色都配备了五种不同措辞的提示词变体。有的直接声明身份("你是一个……"),有的要求角色扮演("请扮演……"),有的强调该角色的世界观和优先事项,有的强调第一人称视角和时间跨度,有的则强调情感反应和实际约束。五种变体的设计目的是测试研究结论对于提示词措辞是否具有稳定性——如果只有某一种特定的说法才能产生差异,那就意味着这种差异更多是语言层面的,而非深层表征的。
每个角色在五种提示词变体下,又各自回答了240道通用问题,这240道问题来自"助手轴"研究使用的标准题库,涵盖领导力、道德判断、社会问题、个人建议等各类话题。这样算下来,75个角色乘以5种提示词再乘以240道题,外加1个默认助手状态乘以5种提示词再乘以240道题,总共生成了91200条角色条件下的回复。规模相当可观。
三、进入AI的"大脑":如何提取和分析内部状态
AI的神经网络是由很多"层"堆叠而成的,每一层都会产生一组数字向量,代表AI在那个处理阶段对当前内容的"理解状态"。研究团队将这种向量称为"隐藏状态",可以理解为AI在每一层神经网络上留下的"思维印记"。
对于每一条生成的回复,研究团队提取了AI生成回复过程中产生的隐藏状态,具体做法是把生成回复时每一个词所对应的隐藏状态向量取平均,得到一个代表这条回复整体的向量。可以把这个过程类比为:把一首歌的每一个音符记录下来,然后取平均音调,用一个数字来代表这首歌的整体音域位置。
接下来,对于同一个角色,研究团队将它在所有提示词变体和所有问题下产生的回复向量再次取平均,得到一个代表该角色整体状态的"角色向量"。这样,75个角色就对应了75个角色向量,还有一个代表默认助手状态的向量。
有了75个角色向量,就可以用数学方法分析它们在"向量空间"中的分布规律。向量空间可以类比为一个多维地图,每个角色向量是地图上的一个点,点与点之间的位置关系反映了角色之间的相似性和差异性。
研究团队使用了一种叫做"主成分分析"(PCA)的工具,可以理解为一种"找规律的望远镜":它能自动识别这张多维地图上最主要的分布方向。如果75个角色点主要沿着某一个方向分布,PCA就会把这个方向标识为"第一主成分"(PC1),意味着这是解释角色差异最重要的单一维度。
与此同时,研究团队还用了一种叫做"对比法"的方式来定义"粒度轴":把所有第四层和第五层(宏观角色)的向量平均起来,减去所有第一层和第二层(微观角色)的向量平均值,得到的差值向量就是"粒度轴"。这个轴指向的方向,代表的是"从微观角色走向宏观角色"的方向。
真正关键的问题是:这个用对比法定义的"粒度轴",和PCA自动发现的"第一主成分",是否指向同一个方向?如果是,就说明粒度差异不仅是研究团队主观构造的,而是AI内部表征中客观存在的最主要结构。
四、数据说话:一条清晰到令人惊讶的方向线
实验结果给出了非常明确的答案。
在Qwen3-8B模型中,研究团队在第18层神经网络上分析了75个角色向量。粒度轴与第一主成分之间的余弦相似度高达0.9720,这个数字表示两个方向之间的夹角只有约13.5度,几乎可以视为同一个方向。更直接的是,粒度轴单独解释了角色表征空间总方差的52.57%,换言之,决定75个角色在AI神经网络中如何分布的最重要因素,超过一半由"微观还是宏观"这一个维度来解释。
在Llama-3.1-8B-Instruct模型中,对应的数字是余弦相似度0.9596,解释方差42.46%。虽然比Qwen3-8B稍低,但仍然是压倒性的主导维度。
把每个角色在粒度轴上的投影值按照层级排列,可以看到一个漂亮的单调递增模式:第一层角色的投影值最小(最微观),第二层稍高,第三层再高,第四层更高,第五层最高(最宏观)。而且这个排列在两个模型中都成立,尽管Qwen3-8B的绝对数值远大于Llama(前者从L1的0.54增加到L5的23.26,后者从L1的-0.88增加到L5的3.34,相差约七倍),但两者都呈现出相同的递增形状。
一个有趣的细节是:L4和L5之间的差距很小,几乎没有,说明AI对于"国家级制度"和"全球超级行为者"这两个层级的区分并不明显,它们在神经网络中几乎重叠在同一个位置。这是一个值得注意的局限——AI可能对于极端宏观的层级之间的细微差别不够敏感。
还有一个意外发现:当AI处于"默认助手"状态(没有任何角色提示)时,它在粒度轴上的位置大约在第三层附近(Qwen3-8B)或第四层附近(Llama-3.1-8B-Instruct)。这意味着AI的"自然倾向"是偏向中层管理者到机构人员的视角,而不是普通个人的视角。这个发现对于理解AI后来的行为模式非常重要。
为了验证这个结构的稳定性,研究团队做了大量额外测试。他们测试了不同神经网络层(从第6层到第31层,乃至更广的范围),发现排列的单调性在大多数中间层和后期层都成立,说明这不是某一层的偶然现象,而是一种稳定的中期-后期层的表征特征。他们也测试了不同的轴定义方式(用不同层级组合作为端点),以及不同的提示词变体,结果都保持稳定。他们还测试了在只用一部分回复(比如只用高质量、真正完全进入角色的回复)的情况下,结论是否改变——答案是不仅没有改变,还稍微更清晰了一些。
五、拨动刻度盘:激活引导实验
确认了粒度轴的存在之后,研究团队还想知道:这条轴只是一个观察工具,还是一个真正影响AI行为的因果机制?为了回答这个问题,他们进行了"激活引导"(activation steering)实验。
激活引导的原理可以这样理解:在AI生成回复的过程中,每生成一个词,神经网络的某一层会产生一个隐藏状态向量。激活引导就是在这个向量上强行叠加粒度轴向量,然后让AI继续生成下一个词。这就像在一条正在流动的河流里,每隔一段就往水里加一点"宏观方向"的染料,看看最终流出来的水是否颜色变深了。正的强度(α=+4)意味着往宏观方向推,负的强度(α=-4)意味着往微观方向推,零强度则是正常生成。
研究团队设计了两套评估题目:一套是40道通用社会政策问题(如"我们应该如何应对心理健康危机?"),另一套是12道专门设计为更贴近个人日常情境的问题(如"一个租户收到突如其来的涨租通知后应该怎么办?")。
评估的方式是让AI打分——研究团队用GPT-5.4-mini和Gemini-3.1-flash-lite-preview作为裁判,对生成的回复在1到5分的宏观-微观量表上打分(1分=最微观的个人视角,5分=最宏观的机构-政策视角),同时也判断回复是否出现退化(重复、语无伦次等质量问题)。
结果在两个模型上呈现出有意思的差异。
Qwen3-8B在通用问题上,基础状态的得分已经是4.9分(接近满分的宏观端),所以正向引导(+4)只能再提升0.075分,没有太多提升空间;负向引导(-4)也只降了0.167分。这就好比一个水桶已经几乎装满了,无论再往里加多少水都溢不进去,要让它显著降低水位也很费劲。但是在那套专门针对个人情境的问题上,Qwen3-8B的基础分是2.167分,这时候负向引导(-4)把分数拉到了2.000分,正向引导(+4)则把分数推到了2.667分,差值为0.5分,而且全程没有任何回复出现退化现象。
Llama-3.1-8B-Instruct的响应更为明显,但稳定性较差。在通用问题上,负向引导(-4)将得分从4.525分拉低到3.125分,降幅达到1.4分,是非常显著的变化;但代价是42.5%的回复出现了退化现象(重复、错乱等)。在个人情境问题上,正向引导(+4)把得分从2.000分推到了3.167分,涨幅超过1分,而且退化率为零,是最干净的引导效果。
这组数据揭示了一个微妙的规律:AI对于朝着自己"默认状态"相反方向的引导更容易响应,因为那个方向有更大的"操作空间";而朝着已经接近饱和方向的引导效果则微弱,甚至在超出阈值后会引发模型崩溃。Llama的默认状态在L4附近,所以朝L1方向的负向引导空间大、响应强;Qwen的默认状态在L3附近,通用题的基础分本就接近宏观端,所以正向引导空间几乎为零。
研究团队还专门验证了方向特异性:用"助手轴"方向或者随机方向去做引导,都无法复现粒度轴引导产生的宏观-微观变化。这排除了"只要乱动神经网络就会有影响"的可能性,证明粒度轴的效果是特定的。
三位经过校准的人类评估者(研究生层面,对模型和引导强度均不知情)也参与了验证。他们被要求在看到相同问题时,从引导强度为+4和-4的两条回复中,选出哪条更宏观。结果显示,在Llama-3.1-8B-Instruct的两套题目上,人类选出宏观方向的比例都超过了85%,而在Qwen3-8B的通用题上(本来就接近宏观天花板),只有63.9%——仍高于随机水平,但差距较小,与LLM裁判的量化评分吻合得很好。
六、举一反三:一次关于"单轴能告诉我们什么"的清醒反思
研究团队在论文中特别花了一节来讨论这项研究的边界和局限,这本身就是一种值得重视的学术态度。
他们指出,对比法构造的粒度轴,本质上是在寻找"最能区分宏观端和微观端的方向",这意味着与粒度相关联的多个特征——时间跨度、决策层级、权威来源、语言正式程度——可能都会混合压缩到这条轴上。轴的强大解释力部分来自于它把多个相关特征"一网打尽",而非真正代表某种纯粹的单一属性。要想知道这条轴之外是否还有其他重要的结构(例如单独的"权威轴"或"正式程度轴"),需要把粒度轴的影响从向量中去除,再对残差重新做主成分分析——这是一个值得后续研究探索的方向。
此外,这项研究只涵盖了两个80亿参数规模的指令微调模型。更大的模型(如700亿参数)、不同语言的模型、不同训练方式的模型,是否也有同样的轴?暂时不知道。研究团队构建的75个角色也是人工设计的,不一定能覆盖所有文化背景和社会体系下的角色差异。LLM裁判本身也可能带有偏见,尽管人类评估者的验证提供了一定的外部支撑。
在L4-L5层级的重叠现象上,研究团队没有回避这个发现,而是直接指出:AI可能对极端宏观层级之间的区分不够敏感,这意味着在需要精细模拟"国家级行为者"和"超国家级行为者"之间细微差别的场景中,现有模型可能表现不足。
还有一个经济领域的特殊情况值得提及:在按领域划分的子集分析中,经济领域的"家族梯队"(即同一领域中从微观到宏观的角色序列)没能保持完全单调的排列,说明在某些语义密集的领域里,领域特征可能与粒度特征产生竞争,导致轴的纯粹性有所下降。
七、这项研究对普通人意味着什么
说到底,这项研究讲的是AI在"扮演他人"这件事上究竟在做什么。
过去我们可能会认为,AI扮演不同角色不过是换了一套说话腔调——就像演员在舞台上换了服装,内里还是那个人。这项研究表明,情况比这更有趣:当AI被提示扮演不同社会层级的角色时,它的神经网络内部状态确实发生了系统性的、有序的变化,而且这种变化沿着一个清晰的"微观-宏观"轴线分布。
这个发现有几个非常实际的含义。
对于政策研究者和社会科学家来说,当他们用AI来模拟多方利益相关者的争论时(比如让AI同时扮演租户、房产开发商、城市规划官员和国家政策制定者来讨论住房问题),现在有办法检验这些角色在AI内部是否真的被区分开了,还是都在同一个角落里说着高度相似的话。这种"粒度混淆"的检测,是保证AI社会模拟有效性的重要一步。
对于AI产品设计者来说,研究表明可以通过调整粒度轴来主动控制AI的回答风格和视角层级。比如,在心理咨询类应用中,可以确保AI给出的是个人化的、贴近日常经验的建议,而不是满篇政策语言;在政策分析工具中,则可以确保AI能从机构和系统性的角度思考,而不是陷入个案细节。
对于普通用户来说,这项研究揭示了一个有趣的事实:AI的"默认视角"本身就不是中性的,它偏向中层到宏观的位置。换句话说,在没有任何角色提示的情况下,AI更倾向于给出像"政策建议"或"组织管理"层面的回答,而不是像一个普通人那样从个人经验出发。如果你发现AI总是给你一套很"官方"、很"宏观"的答案,可能不是因为你的问题太高深,而是因为AI的默认状态就在那个刻度附近。
当然,研究也清醒地指出了"能观察到这条轴"和"能稳定可靠地控制它"之间的距离。对轴的引导在某些条件下确实有效,但稳定性高度依赖于模型的默认状态和提示词的语境。Llama的"反应更大"并不意味着"控制更好"——更大的响应伴随着更高的退化风险,就像调大收音机音量,声音变大了,但噪音也跟着放大了。
归根结底,这项研究做的是一件很有价值的事:它用严格的实验方法和大量数据,回答了"AI的社会角色扮演是否有内在的结构"这个问题,答案是肯定的,而且这个结构比大多数人预期的更清晰、更可测量。与此同时,研究也诚实地标注了哪些地方还需要进一步探索,哪些结论还需要更多模型和更多场景的验证。
如果你对这个话题感兴趣,可以在arXiv上通过编号2605.06196查到完整的原始论文,研究团队也开放了代码和数据,地址可以通过论文找到。下次你对AI说"你现在扮演一个……"的时候,也许你会用一种新的眼光来看待那段对话背后究竟发生了什么。
Q&A
Q1:什么是"粒度轴"?它在AI的神经网络里具体是什么?
A:粒度轴是AI神经网络中的一个方向向量,代表AI在扮演不同社会角色时内部状态的变化趋势。当AI被要求扮演从普通个人到全球机构代表的不同层级角色时,这些角色在神经网络的隐藏状态空间中会沿着一条清晰的方向线分布,微观角色在一端,宏观角色在另一端。研究发现,这条对比定义的粒度轴与主成分分析自动发现的第一主方向之间的余弦相似度高达0.972,说明它是AI内部表征中最主要的结构轴线。
Q2:AI在没有被指定角色时,默认是站在哪个层级的视角上的?
A:研究发现,Qwen3-8B在默认助手状态下,粒度轴上的位置接近第三层(组织管理层级),Llama-3.1-8B-Instruct则接近第四层(制度体系层级)。这意味着AI的自然倾向是给出类似中层管理者或机构官员的回答,而非普通个人视角。这也解释了为什么AI在没有特别指示的情况下,往往给出的是比较"宏观"或"官方"的回复,而不是贴近日常个人经验的答案。
Q3:激活引导技术改变AI回复风格时,会不会让AI"说胡话"?
A:在这项研究的实验中,引导强度较小时(α=±4),Qwen3-8B几乎没有出现任何回复退化现象,Llama-3.1-8B-Instruct在微观目标问题集上也保持稳定。但在通用问题上负向引导Llama时,有42.5%的回复出现了退化(如重复词语、语无伦次),说明稳定性高度依赖于模型的默认状态与引导方向的关系。当引导方向偏离模型默认状态太远,或者引导强度过大时,退化风险显著上升,这也是研究团队特别强调"能观察到这条轴"和"能稳定控制它"之间存在差距的原因。





京公网安备 11011402013531号