大模型的黑箱问题有解了?2 月 23 日,三名 MIT 博士在美国旧金山创办的 Guide Labs 初创公司开源了一个 80 亿参数的语言模型 Steerling-8B。它最特别的地方在于,所生成的每一个词都可以追溯到三个源头:输入了哪些提示词、动用了哪些概念、参考了哪些训练数据。之所以能做到这些,是因为 Guide Labs 在设计之初就给模型 Steerling-8B 事先埋了功能。
![]()
(Guide Labs)
创始团队的三个人在 AI 领域已经泡了十几年。
Guide Labs 的 CEO 朱利叶斯·阿德巴约(Julius Adebayo)是尼日利亚裔,本科在杨百翰大学学习机械工程,后来在麻省理工学院拿了三个学位。2017 年他在谷歌做 AI 研究院,随后进入基因泰克子公司 Prescient Design 做数据科学。他的博士论文研究方向就是调试机器学习模型的工具,2018 年他那篇被广泛引用的论文证明了一个结论:现有的深度学习模型解释方法根本不可靠。
![]()
图 | Guide Labs 的 CEO 朱利叶斯·阿德巴约(领英)
Guide Labs 的首席科学家阿雅·阿卜杜勒萨拉姆·伊斯梅尔(Aya Abdelsalam Ismail)在马里兰大学帕克分校拿的计算机科学博士,在 NeurIPS、ICLR 这些顶级会议上发了十几篇论文。她在 2021 年那篇论文里提出使用显著性指导训练来提升深度学习解释性,同时还建立了一套时间序列数据的解释性评估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解释性 AI 研究。
![]()
图 | 阿雅·阿卜杜勒萨拉姆·伊斯梅尔(领英)
第三位联合创始人富尔顿·王(Fulton Wang)是麻省理工学院计算机科学博士,2015 年拿过美国统计协会统计学习与数据挖掘分会的最佳学生论文奖。
![]()
图 | 富尔顿·王(Fulton Wang)(领英)
这三个人凑在一起就是希望解决同一个问题:如何让 AI 的解释变得可信。
当前市面上流行的方法,就像给一个陌生人做脑部扫描,试图通过观察这个人的神经活动来推断他在想什么。Guide Labs 的 CEO 阿德巴约把这叫做对模型做神经科学。但 Guide Labs 换了个思路,他们放弃从外部解读的方法,转而从内部设计。也就是从一开始就把模型架构做成可解释的,让每一层计算都留下痕迹。
他们在模型里嵌入了一个概念层,相当于给数据分了类,贴上了可追溯的标签。这个层里有大约 3.3 万个已知概念,是人工预先标注好的,比如基因编辑、量子计算这些话题。还有大约 10 万个发现概念,是模型自己在训练过程中学会的。
![]()
(Guide Labs)
当你让 Steerling-8B 生成一段文字,它输出的每一个词块,都可以点开并查看以下三张清单。第一张清单是输入特征归因,会告诉你这个词主要受到了提示词里哪些词的影响。第二张清单是概念归因,会列出它动用了哪些概念,包括形容词类的比如“临床感”,也包括名词类的比如“基因改造”方法。第三张清单是训练数据归因,会告诉你这个词涉及的概念主要来自哪些训练数据源,比如是来自 arXiv、维基百科还是 FLAN 数据集。
这意味着如果模型输出了一段涉及版权的内容,你可以直接追溯到是哪篇训练文章影响了它。如果模型在回答医疗问题时表现得有偏见,你可以查看到底是哪些概念在起作用,然后就能精准关掉那个概念的开关。
说到开关,这个模型还有一个能力叫做概念控制。你在推理的时候,可以手动放大或者压制某个概念的影响,不需要重新训练模型。比如说你想让回答更专业一点,就把“专业”这个概念对应的向量调大。再比如你想避免模型谈论暴力,就把“暴力”概念的权重调低。Guide Labs 称,这相当于使用几十个概念的调节,取代了以往需要成千上万条安全训练数据才能做到的护栏效果。
在性能上,Steerling-8B 训练使用了 1.35 万亿个 tokens,在各种基准测试上的表现和使用了 2 到 7 倍数据量的模型差不多。Guide Labs 表示,80% 以上的 tokens 贡献来自概念层,而不是其他通道。这意味着模型的预测确实是沿着概念走的,而不是表面上给个解释、暗地里使用其他方式干活。
![]()
(Guide Labs)
要想验证这一点其实很简单:把其他通道关掉,看看模型还能不能正常工作。Guide Labs 的测试结果显示,在各种任务上性能变化很小,这反过来证明了模型主要依靠概念在运转。
阿德巴约告诉媒体,把可解释性做进模型的基因里,对于人类来说是一件长期的好事。据了解,Guide Labs 于 2024 年浮出水面,当时从 Initialized Capital 拿了 900 万美元种子轮融资,阿德巴约也是 Y Combinator 的毕业生。这次开源的 Steerling-8B 是他们目前为止最大的概念验证。下一步,他们打算做更大的模型,并将开放 API 接口让更多人用上这套可追溯的 AI 系统。
![]()
(Guide Labs)
Guide Labs 也在公司官网的博客里介绍了一些接下来要深挖的方向:概念控制、概念发现、无需微调的对齐、训练数据溯源,这些目标的每一条背后都用论文支撑,有的是几年前发的,有的是刚发的,总共二十多篇,分布在 NeurIPS、ICML、ICLR 这些地方。
七年前,阿德巴约在麻省理工学院写博士论文的时候,开头第一句话大意是随着机器学习系统部署到越来越多的高风险领域,确保它们可靠、公平、安全变得至关重要。但是,如果没有有效工具来理解这些系统为何做出某个决定,这些目标就很难实现。
现在,Guide Lab 走出了第一步。Steerling-8B 还不能回答所有问题,每个解释也不是完美无缺的,但它证明了这样一条走得通的新路,那就是对着 AI 黑箱瞎猜是不行的,要在一开始就给黑箱安个灯。
参考资料:
Huggingface:https://huggingface.co/guidelabs/steerling-8b
GitHub:https://github.com/guidelabs/steerling
软件包:https://pypi.org/project/steerling/
https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/
https://www.guidelabs.ai/post/steerling-8b-base-model-release/
https://www.linkedin.com/in/juliusadebayo/
https://www.linkedin.com/in/ayaabdelsalamismail/
https://www.linkedin.com/in/fulton-wang-aa904a75/
运营/排版:何晨龙





京公网安备 11011402013531号