![]()
神经网络是当今最强大AI系统的动力核心,但其内部工作原理依然难以捉摸。我们并非为这些模型编写一步一指令的明确代码,相反,它们通过调整数十亿个内部连接(即“权重”)来自我学习,直至掌握任务。我们设计了训练规则,却无法预知最终涌现出的具体行为,其结果是一个任何人都难以轻易解读的、稠密的连接网络。
现在,OpenAI提出了一种新方法,旨在通过训练模型以更简单、更可追溯的方式“思考”,从而更好地理解它们的工作原理
如何看待可解释性
随着AI系统能力日益增强,并在科学、教育和医疗等领域产生真实世界的影响,理解其工作方式变得至关重要。可解释性,指的是帮助我们理解模型为何产生特定输出的方法。
实现这一目标有多种途径。例如,推理模型被激励在通往最终答案的过程中解释其工作步骤,这种“思维链可解释性”利用这些解释来监控模型行为。这种方法已展现出直接的实用价值,例如当前模型的思维链似乎能有效揭示欺骗等令人担忧的行为。然而,完全依赖此特性是一种脆弱的策略,未来可能会失效。
另一方面,机制可解释性(mechanistic interpretability)——也正是OpenAI本次研究的焦点——旨在彻底逆向工程一个模型的计算过程。尽管它迄今为止的直接应用较少,但原则上,它可以为模型行为提供更完整的解释。通过在最细粒度的层面上解释模型行为,机制可解释性可以减少假设,给予我们更强的信心。但从底层细节到复杂行为解释的路径也因此更长、更艰难。
可解释性支持着几个关键目标,例如实现更好的监督,并为不安全或策略性失调行为提供早期预警。它也补充了OpenAI在其他安全方面的工作,如可扩展监督、对抗性训练和红队测试。
在这项工作中,OpenAI展示了我们通常可以采用某种训练方式,让模型变得更容易解释。他们将这项工作视为对稠密网络进行事后分析的一种有希望的补充。
这是一个比较大的赌注,从当前的工作到完全理解最强大模型的复杂行为,还有很长的路要走。尽管如此,研究发现,对于简单的行为,用这种新方法训练的稀疏模型包含了小型的、解耦的“电路”,这些电路既可被理解,也足以执行该行为。这表明,可能存在一条可行的路径,用以训练出我们能够理解其机制的大型系统。
一种新思路:学习稀疏模型
以往的机制可解释性工作,通常从一个已经训练好的、稠密且纠缠的网络入手,试图去解开它。在这些网络中,每个神经元都与成千上万个其他神经元相连,并且大多数神经元似乎执行着多种不同功能,这使得理解它们变得几乎不可能。
但如果我们换一种思路呢?如果我们训练一个“不纠缠”的神经网络——它拥有更多的神经元,但每个神经元只有几十个连接。那么,最终得到的网络或许会更简单、更容易理解。这就是OpenAI这项工作的核心研究思路
基于这一原则,OpenAI训练了一些语言模型,其架构与GPT-2等现有模型非常相似,但有一个微小改动:强制模型绝大多数权重为零。这限制了模型只能使用其神经元之间极少数的可能连接。研究人员认为,这个简单的改变能极大地解耦模型的内部计算
在传统的的稠密神经网络中,每一层的每个神经元都与下一层的所有神经元相连。而在稀疏模型中,每个神经元只与下一层的少数几个神经元连接。研究人员希望这能让神经元乃至整个网络变得更容易被理解
![]()
如何评估可解释性
为了衡量稀疏模型的计算在多大程度上是解耦的,研究人员考察了各种简单的模型行为,并检查是否能分离出负责每种行为的模型部分——他们称之为电路(circuits)。
他们手工策划了一系列简单的算法任务。对于每项任务,他们将模型剪枝,找到能执行该任务的最小电路,并检查该电路的简洁程度。研究发现,通过训练更大、更稀疏的模型,可以得到能力越来越强、同时电路也越来越简单的模型。
下图是一张可解释性与模型能力的对比图中(左下角为更优),对于一个固定大小的稀疏模型,增加稀疏度(即设置更多权重为零)会降低模型能力,但提高可解释性。而扩大模型尺寸则会将这条能力-可解释性的边界向外推移。这表明,我们或许可以构建出既强大又可解释的大型模型
![]()
深入电路:一个具体案例
为了更具体地说明,可以看一个任务:一个在Python代码上训练的模型,需要用正确的引号来补全一个字符串。在Python中,'hello'必须以单引号结尾,而"hello"必须以双引号结尾。模型可以通过记住字符串开头的引号类型,并在末尾复现它来解决这个问题
![]()
研究发现,最易于解释的模型似乎包含了实现了这一确切算法的解耦电路。
这个预测字符串应以单引号还是双引号结尾的电路,仅使用了5个残差通道、第0层的2个MLP神经元、以及第10层的1个注意力查询-键通道和1个值通道。其工作流程如下:
1.模型在一个残差通道中编码单引号,在另一个通道中编码双引号
2.一个MLP层将此信息转换为一个检测任意引号的通道和另一个区分单双引号的通道
3.一个注意力操作会忽略中间的词元,找到之前的开引号,并将其类型复制到最终词元
4.模型预测出匹配的闭合引号
根据定义,上图所示的连接对于执行该任务是充分的——如果我们移除模型的其余部分,这个小电路仍然能工作。同时它们也是必要的——删除这几个连接会导致模型失败。
研究人员还研究了一些更复杂的行为,例如变量绑定。这些行为的电路更难被完全解释。即便如此,仍然可以获得相对简单的部分解释,这些解释对模型行为具有预测性。例如,在一个电路中,一个注意力操作在变量current被定义时,将变量名复制到set()词元中;后续另一个操作则将类型从set()词元复制到该变量的后续使用中,从而让模型推断出正确的下一个词元
![]()
这些稀疏模型比前沿模型小得多,其计算的很大一部分仍未被解释。
接下来,研究团队希望将这些技术扩展到更大的模型,并解释模型更多的行为。通过在有能力的稀疏模型中枚举出更复杂推理背后的电路基元,或许能发展出一种有助于更有针对性地研究前沿模型的理解
为了克服训练稀疏模型的低效问题,研究人员看到了两条前进的道路:
1.从现有的稠密模型中提取稀疏电路,而不是从头开始训练稀疏模型。因为稠密模型在部署上本质比稀疏模型更高效
2.开发更高效的可解释性训练技术,这可能更容易投入生产。
需要注意的是,目前的发现并不能保证这种方法会延伸到能力更强的系统上,但这些早期结果充满希望。最终目标是逐步扩大我们能够可靠解释的模型范围,并构建工具,使未来的系统更容易分析、调试和评估
参考:
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/
paper:
https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf




京公网安备 11011402013531号