大模型黑箱被撬开：MIT华人联创，造出能追溯思考过程的大模型

IP属地中国·北京 DeepTech深科技 时间：2026-02-24 20:17:40

大模型的黑箱问题有解了？2 月 23 日，三名 MIT 博士在美国旧金山创办的 Guide Labs 初创公司开源了一个 80 亿参数的语言模型 Steerling-8B。它最特别的地方在于，所生成的每一个词都可以追溯到三个源头：输入了哪些提示词、动用了哪些概念、参考了哪些训练数据。之所以能做到这些，是因为 Guide Labs 在设计之初就给模型 Steerling-8B 事先埋了功能。

（Guide Labs）
创始团队的三个人在 AI 领域已经泡了十几年。
Guide Labs 的 CEO 朱利叶斯·阿德巴约（Julius Adebayo）是尼日利亚裔，本科在杨百翰大学学习机械工程，后来在麻省理工学院拿了三个学位。2017 年他在谷歌做 AI 研究院，随后进入基因泰克子公司 Prescient Design 做数据科学。他的博士论文研究方向就是调试机器学习模型的工具，2018 年他那篇被广泛引用的论文证明了一个结论：现有的深度学习模型解释方法根本不可靠。

图 | Guide Labs 的 CEO 朱利叶斯·阿德巴约（领英）
Guide Labs 的首席科学家阿雅·阿卜杜勒萨拉姆·伊斯梅尔（Aya Abdelsalam Ismail）在马里兰大学帕克分校拿的计算机科学博士，在 NeurIPS、ICLR 这些顶级会议上发了十几篇论文。她在 2021 年那篇论文里提出使用显著性指导训练来提升深度学习解释性，同时还建立了一套时间序列数据的解释性评估框架。加入 Guide Labs 之前，她也在 Prescient Design 做解释性 AI 研究。

图 | 阿雅·阿卜杜勒萨拉姆·伊斯梅尔（领英）
第三位联合创始人富尔顿·王（Fulton Wang）是麻省理工学院计算机科学博士，2015 年拿过美国统计协会统计学习与数据挖掘分会的最佳学生论文奖。

图 | 富尔顿·王（Fulton Wang）（领英）
这三个人凑在一起就是希望解决同一个问题：如何让 AI 的解释变得可信。
当前市面上流行的方法，就像给一个陌生人做脑部扫描，试图通过观察这个人的神经活动来推断他在想什么。Guide Labs 的 CEO 阿德巴约把这叫做对模型做神经科学。但 Guide Labs 换了个思路，他们放弃从外部解读的方法，转而从内部设计。也就是从一开始就把模型架构做成可解释的，让每一层计算都留下痕迹。
他们在模型里嵌入了一个概念层，相当于给数据分了类，贴上了可追溯的标签。这个层里有大约 3.3 万个已知概念，是人工预先标注好的，比如基因编辑、量子计算这些话题。还有大约 10 万个发现概念，是模型自己在训练过程中学会的。

（Guide Labs）
当你让 Steerling-8B 生成一段文字，它输出的每一个词块，都可以点开并查看以下三张清单。第一张清单是输入特征归因，会告诉你这个词主要受到了提示词里哪些词的影响。第二张清单是概念归因，会列出它动用了哪些概念，包括形容词类的比如“临床感”，也包括名词类的比如“基因改造”方法。第三张清单是训练数据归因，会告诉你这个词涉及的概念主要来自哪些训练数据源，比如是来自 arXiv、维基百科还是 FLAN 数据集。
这意味着如果模型输出了一段涉及版权的内容，你可以直接追溯到是哪篇训练文章影响了它。如果模型在回答医疗问题时表现得有偏见，你可以查看到底是哪些概念在起作用，然后就能精准关掉那个概念的开关。
说到开关，这个模型还有一个能力叫做概念控制。你在推理的时候，可以手动放大或者压制某个概念的影响，不需要重新训练模型。比如说你想让回答更专业一点，就把“专业”这个概念对应的向量调大。再比如你想避免模型谈论暴力，就把“暴力”概念的权重调低。Guide Labs 称，这相当于使用几十个概念的调节，取代了以往需要成千上万条安全训练数据才能做到的护栏效果。
在性能上，Steerling-8B 训练使用了 1.35 万亿个 tokens，在各种基准测试上的表现和使用了 2 到 7 倍数据量的模型差不多。Guide Labs 表示，80% 以上的 tokens 贡献来自概念层，而不是其他通道。这意味着模型的预测确实是沿着概念走的，而不是表面上给个解释、暗地里使用其他方式干活。

（Guide Labs）
要想验证这一点其实很简单：把其他通道关掉，看看模型还能不能正常工作。Guide Labs 的测试结果显示，在各种任务上性能变化很小，这反过来证明了模型主要依靠概念在运转。
阿德巴约告诉媒体，把可解释性做进模型的基因里，对于人类来说是一件长期的好事。据了解，Guide Labs 于 2024 年浮出水面，当时从 Initialized Capital 拿了 900 万美元种子轮融资，阿德巴约也是 Y Combinator 的毕业生。这次开源的 Steerling-8B 是他们目前为止最大的概念验证。下一步，他们打算做更大的模型，并将开放 API 接口让更多人用上这套可追溯的 AI 系统。

（Guide Labs）
Guide Labs 也在公司官网的博客里介绍了一些接下来要深挖的方向：概念控制、概念发现、无需微调的对齐、训练数据溯源，这些目标的每一条背后都用论文支撑，有的是几年前发的，有的是刚发的，总共二十多篇，分布在 NeurIPS、ICML、ICLR 这些地方。
七年前，阿德巴约在麻省理工学院写博士论文的时候，开头第一句话大意是随着机器学习系统部署到越来越多的高风险领域，确保它们可靠、公平、安全变得至关重要。但是，如果没有有效工具来理解这些系统为何做出某个决定，这些目标就很难实现。
现在，Guide Lab 走出了第一步。Steerling-8B 还不能回答所有问题，每个解释也不是完美无缺的，但它证明了这样一条走得通的新路，那就是对着 AI 黑箱瞎猜是不行的，要在一开始就给黑箱安个灯。
参考资料：
Huggingface：https://huggingface.co/guidelabs/steerling-8b
GitHub：https://github.com/guidelabs/steerling
软件包：https://pypi.org/project/steerling/
https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/
https://www.guidelabs.ai/post/steerling-8b-base-model-release/
https://www.linkedin.com/in/juliusadebayo/
https://www.linkedin.com/in/ayaabdelsalamismail/
https://www.linkedin.com/in/fulton-wang-aa904a75/
运营/排版：何晨龙

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

玉米的“高蛋白秘籍”，上海科学家找到了！两位“老祖宗”基因联手，营养翻倍

能以极低内存、更快速度处理数据，量子计算有望突破算力瓶颈

“现在几点？”当你这么问，就在创造时间！科学最大谜团正在被破解

微软前沿科技上新：全系7款自研模型，还有二代量子芯片

让构网无处不在，让AI无所不及 | 华为举办智能光伏战略&新品发布会

蒸馏了20多年的公开言论，我们终于可以跟马斯克同频思考了

全站最新

玉米的“高蛋白秘籍”，上海科学家找到了！两位“老祖宗”基因联手，营养翻倍

能以极低内存、更快速度处理数据，量子计算有望突破算力瓶颈

“现在几点？”当你这么问，就在创造时间！科学最大谜团正在被破解

微软前沿科技上新：全系7款自研模型，还有二代量子芯片

热门推荐

玉米的“高蛋白秘籍”，上海科学家找到了！两位“老祖宗”基因联手，营养翻倍

能以极低内存、更快速度处理数据，量子计算有望突破算力瓶颈

“现在几点？”当你这么问，就在创造时间！科学最大谜团正在被破解

微软前沿科技上新：全系7款自研模型，还有二代量子芯片

让构网无处不在，让AI无所不及 | 华为举办智能光伏战略&新品发布会

蒸馏了20多年的公开言论，我们终于可以跟马斯克同频思考了

市场监管总局网络餐饮专项抽检结果公布：覆盖美团、淘宝、京东等14个平台，不合格率2.3%

谷歌推出AI个性化故事应用Dreambeans，仅向Ultra订阅用户开放

搞心态的“AI押题”不要也罢

巴菲特为什么重仓谷歌，而非英伟达？

桥水达利欧：随着财富转化为现金，AI泡沫终将破裂

微信AI要来了？“这一动作，或助推腾讯AI翻盘”

马斯克旗下xAI招聘中文AI导师，时薪超300元还可远程兼职

谷歌推出电诈克星：精准拦截AI伪造语音来电

大模型公司“回A”的深层考量