文:Web3天空之城| 未经许可不得转载
在最近的YC现场讲座中,谷歌DeepMind的约翰·朱佩详细阐述了其从物理学到计算生物学的个人历程,并深入剖析了革命性AI系统AlphaFold的诞生。他强调,真正的突破源于新颖的研究思路,而不仅仅是数据和计算能力的堆砌。AlphaFold的成功不仅在于解决了长达50年的“蛋白质折叠问题”,更在于通过开源和建立公共数据库,极大地赋能了全球科学界,催生了药物研发、疫苗设计等领域的无数新发现,展现了AI作为科学研究放大器的巨大潜力。
核心观点
• 研究的价值被低估 :在AI开发中,新颖的研究思路和算法思想是核心驱动力,其价值可能远超单纯的数据规模或计算资源。
• 组合创新的力量 :AlphaFold的成功并非依赖单一的革命性技术,而是源于众多中等规模想法的巧妙组合与系统性集成。
• 开放与可及性的催化作用 :将复杂的AI工具(如AlphaFold)以易于访问的形式(代码开源、公共数据库)提供给科学界,是引爆其应用潜力和建立信任的关键。
• AI作为科学的放大器 :AI工具的核心价值在于增强和加速实验科学家的工作,通过提供高质量的预测和假设,使其能更快地进行验证和创新,而非取代实验本身。
从物理学到人工智能:一段探索之旅
约翰·朱佩: 这真是个令人愉快的改变。我做过很多科学讲座,但当我上台时,没有人会鼓掌欢呼。通常情况下,即使我上台也不会。这真的很令人兴奋,很高兴能来到这里。我想我应该从假设这个巨大的礼堂里并非所有人都认识我开始。我是谁?我是从事人工智能科学研究的人,我坚信我们可以利用人工智能系统、这些技术、这些想法,以一种非常具体的方式改变世界,使科学发展得更快,从而实现新的发现。
我认为这真的,真的非常棒。我们有机会利用这些工具、这些想法,并将它们瞄准一个问题,即我们如何构建正确的人_智能系统,以便病人能够康复并从医院回家。对我来说,最终走到这里,这是一段非常精彩且曲折的旅程。我最初接受的训练是物理学。我曾经以为我会成为一个研究宇宙定律的物理学家。如果我非常、非常幸运,我所做的事情最终可能会出现在教科书中的一句话里。我学了物理,然后实际上去攻读了物理学博士。后来我所研究的东西并没有真正吸引我。我只是觉得,那不是我想要做的事情。我退学了。我没有创办一家初创公司,那会非常符合本次活动的主题。但我辍学了,最终在一家从事计算生物学的公司工作。我们如何让计算机对生物学说出一些聪明的东西?
我喜欢它。我喜欢它,不仅仅是因为它很有趣,而且它能让我做我认为自己擅长的事情,编写代码,操作方程式,认真思考世界的本质,并将其用于这个非常实际的目的。最终,我们想要制造药物。我们想要使其他人能够制造药物。我真的有点成了生物学家和机器学习者,实际上是机器学习者,因为我离开了那份工作,然后回到生物物理学和化学的研究生院。我不再能获得我在之前工作时拥有的那些令人难以置信的计算机硬件。事实上,他们有定制的专用集成电路(ASIC),用于模拟蛋白质(我将要谈论的你身体的这部分)的运动方式。
既然我不再拥有那些了,但我仍然想研究同样的问题,好吧,我不想仅仅用更少的计算能力做同样的事情。我开始学习,并且对统计学和机器学习非常感兴趣。那时我们不称之为人工智能。事实上,我们甚至不称之为机器学习。那有点不体面。我说我在做统计物理。但是我们将如何开发算法?我们将如何从数据中学习,并用它来代替非常大的计算量?我想事实证明,就人工智能而言,除了非常大的计算量,还需要解决新的问题。
在这之后,我加入了谷歌DeepMind,真正加入了一家想要表明如何利用这些强大的技术和所有这些想法的公司。它们正变得非常、非常明显,这些技术是多么强大,尤其是在游戏,以及数据中心和其他方面都有应用。我们要如何利用这些技术来推动科学发展,真正地推进科学前沿?我们如何在工业环境中以极快的速度,与一些非常聪明的人一起,利用强大的计算机资源来做到这一点?有了这一切,你最好能取得一些进展。这真的,真的很有趣。我能站在这里就表明我们取得了一些进展。
AlphaFold的诞生:直面生物学的核心挑战
约翰·朱佩: 我认为对我来说,真正的指导原则是,当我们做这项工作时,最终,我们正在构建能够使科学家们做出发现的工具。我认为我们所做的工作中最令人鼓舞的是,以及真正触动我内心深处的部分是,AlphaFold大约有35000次引用,但其中有成千上万的例子,人们正在使用我们的工具来进行我个人无法完成的科学研究,而是利用它来进行发现,无论是疫苗、药物开发,还是身体的运作方式。我认为这真的,真的非常令人兴奋。今天我想和大家分享的部分以及我想讲述的故事是关于问题本身,关于我们如何解决问题,以及特别是研究和机器学习研究的作用,以及它不仅仅是现成的机器学习。然后我想告诉大家,当你创造出伟大的事物时会发生什么,人们如何使用它,以及它对世界有什么作用。
我将从世界上最短的生物学课程开始。细胞是复杂的。对于那些只在高中或大学学过生物学的人来说,你们可能会认为细胞只有几个带有标签的部分,而且很简单,但实际上它看起来更像你在屏幕上看到的那样。它是密集的。它是复杂的。就拥挤程度而言,它就像7月4日的游泳池,充满了巨大的复杂性。人类大约有20000种不同类型的蛋白质。这些是你在屏幕上看到的一些斑点。它们聚集在一起,几乎可以执行你细胞中的所有功能。你可以看到那种绿色的尾巴是大肠杆菌的纤毛。大肠杆菌。这就是它移动的方式,而且实际上你可以看到它是如何移动的。你可以看到那个看起来像在转动的东西,实际上,它转动并驱动这个马达。所有这些都是由蛋白质构成的。
当人们说DNA是生命的说明书时,实际上,它是在告诉你如何做。它在告诉你如何构建这些微小的机器,而且生物学已经进化出一种令人难以置信的机制来构建它所需要的机器,字面意义上的纳米机器,并用原子来构建它们,所以你的DNA会给你指令说,构建一种蛋白质。现在,你可能会说你的DNA是一条线,而且在某种意义上蛋白质也是。它是关于如何一个接一个地连接珠子的指令,其中每个珠子都是一种特定的原子分子排列。你应该想知道,如果我的DNA是一条线,而我绝不是一维的,那么中间发生了什么?答案是,在你制造出这种蛋白质并一次组装好一个部件后,它会自发地折叠成一种形状,就像你打开了你的宜家书架,而且你不用做任何辛苦的工作,它就能自行构建。你会得到这种相当复杂的结构。你可以看到非常典型的蛋白质,一种激酶,在场的生物学家们应该很熟悉。你可以看到这种非常复杂的原子排列,而且这种排列是具有功能的。你身体里的大部分蛋白质,并非所有,都会经历这种转变,而这才是发挥功能的方式。而且它非常小。所以,光本身只有几百纳米大小,而这个只有几纳米大小,所以它比你在显微镜下能看到的还要小。
长期以来,科学家们一直想了解这种结构,因为他们可以用它来预测蛋白质的变化可能如何影响疾病。这是如何运作的?生物学是如何运作的?通常,如果你制造一种药物,它是为了中断某种蛋白质的功能,就像这种蛋白质一样。现在,科学家们通过大量的聪明才智,弄清楚了许多蛋白质的结构,而且直到今天,这仍然是极其困难的,对吧?你不应该把它想象成,我想确定一种蛋白质的结构,所以我应该打开蛋白质结构测定的实验室规程,然后按照步骤进行。它包含着聪明才
智、想法,以及找到许多方法,在这种情况下,我描述的是一种蛋白质结构预测,或者说是蛋白质结构(抱歉),测定,实验测量的方法,在这种方法中,你要说服我刚才给你们看的那种又大又丑的分子形成规则的晶体,有点像食盐。没有人有简单的配方,所以他们尝试了很多方法,他们有想法,而且这极其困难,充满了失败,就像科学中的许多事情一样。
你实际上看到的是,可以这么说,了解这件事有多困难的一种方式,只是我们正在使用的一种普通的论文。我翻到背面,上面写着,你知道,在他们的规程中,经过一年多的时间,晶体开始形成,对吧?所以他们不仅做了所有这些困难的实验,而且还必须等待大约一年才能知道它是否有效,而且可能那一年不是用来等待的,而是尝试了其他一千种同样无效的方法。一旦你完成了那一步,你就可以把它送到同步加速器,一个适度的设备,你可以看到汽车环绕着这个仪器的外部,这样你就可以用极其明亮的X射线照射它,并获得所谓的衍射图样。而且你可以解出它,你可以将它存放在所谓的PDB,或蛋白质数据库中。让我们能够完成这项工作的原因之一是,50年前的科学家们有远见卓识,他们认为这些数据很重要,它们很难获取,我们应该把它们都收集在一个地方。因此,有一个数据集,基本上代表了该领域所有关于蛋白质结构的学术成果,并且对所有人开放。所以我们的工作是基于非常公开的数据。
大约有20万个已知的蛋白质结构。它们通常以每年大约12000个的速度增加。但是,这比需求要小得多得多。获得输入信息,即告诉你关于蛋白质的DNA,要容易得多得多得多得多得多。因此,数十亿的蛋白质序列正在被发现。大约快3000倍的是我们学习蛋白质序列的速度,而不是蛋白质结构。好的,这些都是科学内容,但我应该和你们谈谈我们做的小事,它有这样一种示意图。我们想构建一个人工智能系统。事实上,我们甚至不在乎它是否是一个人工智能系统。这就是在人工智能领域做科学研究的好处之一,你不在乎你如何解决它。如果最终它是一个计算机程序,如果最终它是其他任何东西,我们想要找到某种方法从左边开始,其中每个字母代表蛋白质的一个特定构建块,按顺序考虑,我们想把一些东西放入AlphaFold,然后我们想要在右边得到一些东西。如果你仔细看,你会看到那儿有两个结构,蓝色的是我们的预测,绿色的是实验结构,它花了某人一两年时间的努力。如果你想给它赋予一个经济价值,大约在10万美元的量级。你可以看到我们能够做到这一点,我想告诉你我们是如何做到的。
解构AlphaFold:数据、计算与研究的力量
约翰·朱佩: 做这件事,或者做任何机器学习问题,实际上有三个组成部分。你可以说你拥有数据,拥有计算能力,并且拥有研究。我觉得我们过多地讲述了前两者,而对后者讲述得不够。在数据方面,我们有20万个蛋白质结构。每个人都有相同的数据。在计算方面,这属于大型语言模型(LLM)的规模。最终的模型本身使用了128个TPUv3核心,大约相当于每个核心配备一个GPU,持续运行了两周。这再次说明,这仍然在学术资源的范围内。但值得注意的是,实际上,当你考虑需要多少计算能力时,不要被最终模型的数字分散注意力。真正的计算成本是那些没有奏效的想法的成本。你为了达到目标所必须做的一切。
然后最终是,研究。我想说,参与这项研究的人员大约只有两个。最终完成这项工作的是一小群人。所以实际上,当你看到这些机器学习的突破时,参与的人数可能比你想象的要少。实际上,这才是我们工作的不同之处。我们提出了一套关于如何将机器学习应用于这个问题的新想法。我可以说,早期的系统,主要基于卷积神经网络,表现尚可。它们当然取得了一些进展。如果你用Transformer取代它,说实话,结果差不多。如果你采用Transformer的思想,并进行大量的实验和更多的想法,那么你就会开始获得真正的改变。并且在今天你几乎能看到的所有人工智能系统中,都涉及到大量的研究和想法,以及我所谓的中间规模的想法。这不仅仅是人们会说的头条新闻,例如Transformer,你知道的,扩展,测试时间推理。这些都很重要,但它们只是一个真正强大的系统中众多要素之一。
事实上,我们可以衡量我们的研究价值多少。比如,AlphaFold2是一个非常著名的系统,也是一个相当大的改进。AlphaFold1是当时世界上最好的。但是,Al Qureshi实验室做了一个非常细致的实验,他们采用了AlphaFold2的架构,并用1%的可用数据对其进行了训练。他们可以证明,用1%的数据训练的AlphaFold2与AlphaFold1一样准确或更准确,而AlphaFold1是之前的最先进的系统。因此,有一个非常明确的结论,即这些要素中的第三个要素,即研究,其价值是这些要素中的第一个要素,即数据的100倍。我认为这通常非常非常重要。当你们都在思考,当你们都在创业公司或者考虑创业公司的时候,要考虑想法、研究、发现,对数据和计算的放大作用有多大。他们与它协同工作。我们不希望使用比我们拥有的更少的数据。我们不希望使用比我们可用的更少的计算资源。但当你在进行机器学习研究时,想法是核心组成部分,它们确实有助于改变世界。
我们甚至可以回去,我们可以做消融实验,我们可以说哪些部分是重要的。不要太关注细节。我们从论文中提取了这些。你可以在这里看到,这是与基线的差异。你可以采用其中任何一种。你可以看到,你可能从我们的最终系统中移除的每一个想法,都是某种离散的可识别的想法,其中一些是该领域内非常受欢迎的研究领域。就像这项工作出现时,其中一部分是等变性的。人们会说,等变性!这就是答案。AlphaFold是一个等变系统,它很棒。我们必须对等变性进行更多的研究,以获得更棒的系统。嗯,我对此感到非常困惑,因为那里的第六行,没有IPA,不变点注意力,它移除了AlphaFold中的所有等变性。这有点损害,但只是一点点。AlphaFold本身在这个GDT尺度上,你可以在左边的图表中看到,AlphaFold 2比AlphaFold 1好大约30个GDT。而等变性解释了其中的两到三个。这不是关于一个想法。而是关于许多中等规模的想法,它们加起来构成了一个变革性的系统。
超越预测:AlphaFold的颠覆性影响与未来展望
约翰·朱佩: 当你构建这些系统时,非常非常重要的是要思考我们在这个背景下称之为的生物学相关性。我们本可以有更好的想法。我们让我们的系统每次改进1%。但真正重要的是,当我们超过了对不关心机器学习的实验生物学家来说很重要的准确度时。你必须通过大量的工作和努力才能达到那个水平。当你这样做时,它会带来难以置信的转变。我们可以沿着这个轴进行衡量。我们是深蓝色轴。当时可用的其他系统,并且经过评估,蛋白质结构预测在某些方面远远领先于大型语言模型或通用机器学习领域。并且自1994年以来,每两年进行一次盲测,所有对预测蛋白质结构感兴趣的人都会聚集在一起,预测100种蛋白质的结构,这些蛋白质的答案除了刚刚解决它的研究小组之外,无人知晓,尚未发表。所以你真的知道什么有效。在这次评估中,我们的误差约为其他任何小组的三分之一。但这很重要,因为一旦你处理不知道答案的问题,你就可以真正衡量事情有多好。而且你会发现,在他们的研究过程中,许多系统都达不到人们所期望的水平。并且因为即使你有一个基准,我们都会过度拟合我们对基准的看法,除非你保留了数据。事实上,你在现实世界中遇到的问题几乎总是比你训练时遇到的问题更难,因为你必须从大量数据中学习。你将其应用于非常重要的独特问题。所以,衡量标准非常非常重要,无论是在你开发时,还是在人们试图决定是否应该使用你的系统时。外部基准对于弄清楚什么有效至关重要。这才是真正推动世界前进的动力。这里有一些我们典型的性能的精彩例子。这些是盲预测。你可以看到它们非常出色。
同样重要的是,我们使其可用。我们认为它是。我们做了很多评估。但我们认为以两种方式提供它是非常重要的。一是我们开源了代码。实际上,我们在发布预测数据库大约一周前就开源了代码,最初从30万个预测开始,后来增加到2亿个,基本上是来自基因组已被测序的生物体的每一种蛋白质。这产生了巨大的影响。其中一个最有趣的社会学现象是,当我们发布一段专家可以使用的代码时,我们获得了一些信息;然后当我们向全世界提供它时,这两者之间存在着巨大的差异。以这种数据库形式,这真的很有趣,你知道,你发布了一些东西,每天你都会查看Twitter或查看X,以了解发生了什么。我们真正看到的是,即使在CASP评估之后,我也会说,结构预测者确信这显然是解决这个问题的巨大进步。但一般的生物学家,我们希望使用它的人,那些不关心结构预测,而是关心蛋白质以进行实验的人。他们不太确定。他们说,好吧,也许CASP很简单。我不知道。然后这个数据库出现了,人们开始好奇,然后点击进入。这种证明具有的社会性程度是非同寻常的,人们会看并说,DeepMind是如何访问到我未发表的结构的?你知道,在这一刻,他们真的相信了,每个人要么有一个他们尚未解决的蛋白质,要么有一个朋友拥有一个未发表的蛋白质,并且他们可以进行比较。而这才是真正起作用的。拥有这个数据库,这种可访问性,这种便利性,让每个人都尝试并弄清楚它是如何工作的。口口相传才是建立这种信任的真正方式。
你可以看看其中的一些证明,对吧?我挣扎了3到4个月,试图完成这项科学任务。你知道吗,今天早上我得到一个AlphaFold预测,现在它好多了。我想要回我的时间,对吧?你知道,当你用AlphaFold运行一个蛋白质时,你会真正欣赏它,这个蛋白质在一年的时间里一直拒绝表达和纯化,这意味着一年来他们甚至无法获得材料来开始实验。这些真的很重要。当你构建了正确的工具,当你解决了正确的问题,它就很重要,它改变了那些正在做事的人的生活,不是说你会去做,而是建立在你的工作之上。而且我认为看到这些真是非同寻常。我和很多人聊过,我真正意识到这个工具很重要。事实上,该工具发布几个月后,科学杂志上有一期关于核孔复合体的特刊。这期特刊全是关于这个特殊的非常大的,由几百个蛋白质组成的系统。其中科学杂志上关于这个的四篇论文中有三篇大量使用了AlphaFold。我想我在科学领域统计了超过100次提到AlphaFold这个词,但我们与它毫无关系。我们不知道这件事正在发生。我们没有合作。仅仅是人们在我们构建的工具之上进行新的科学研究,这是世界上最棒的感觉。
事实上,用户会做最出人意料的事情。他们会以你不知道的方式使用工具。左边来自森胁良隆的推文在我们代码可用后的两天就发布了。我们已经预测了单个蛋白质的结构,但我们正在构建一个可以预测蛋白质如何结合在一起的系统。但这位研究人员说,好吧,我有AlphaFold。为什么我不把两个蛋白质放在一起,然后在它们之间放一些东西呢?你可以把它看作是提示工程,但对象是蛋白质。然后突然,他们发现这是世界上最好的蛋白质相互作用预测,对吧?当你用这些训练一个非常非常强大的系统时,它将具有额外的,在某种意义上来说,涌现出来的技能,只要它们是对齐的。人们开始发现AlphaFold可以解决我们没有预料到的各种各样的问题。实时观察科学领域对这些工具的反应,发现它们的局限性,发现它们的可能性,这非常有趣。这种情况还在继续。人们在蛋白质设计和其他方面,基于我们的想法和我们构建的系统,做了各种令人兴奋的工作。
我想讲这个故事有两个原因。一是我认为这是一个非常酷的应用。但第二个是它如何真正改变科学的工作。人们常常会说科学就是关于实验和验证。所以,你有所有这些AlphaFold预测非常好。现在我们所要做的就是以经典的方式解决所有蛋白质的问题,这样我们才能知道你的预测是对还是错。他们说对了一件事。科学是关于实验的。科学是关于做这些实验的。但他们说错了另一件事。科学是关于提出假设并检验它们,而不是关于特定蛋白质的结构。在这种情况下,问题是,他们取了左边这种叫做收缩注射系统的蛋白质。但这太拗口了。他们喜欢称之为分子注射器。它的作用是附着到细胞上,并将蛋白质注入其中。麻省理工学院姜实验室的科学家们在说,那么,我们能否利用这种蛋白质进行靶向药物递送?我们能否利用它将像Cas9这样的基因编辑器导入细胞?他们尝试了100多种方法来弄清楚如何利用这种蛋白质,而他们并没有这种蛋白质的结构。这只是事后的一种演绎。然后说,我们如何改变它识别的东西?我认为它最初与植物防御有关或其他类似的东西。他们不知道该怎么做。他们运行了一个AlphaFold预测。你可以看到左边的那个。我甚至不会说这是一个很棒的AlphaFold预测。但几乎立刻,他们看到了那个并说,等一下。底部的那些腿一定是它识别并附着到细胞的方式。为什么我们不直接用一个设计的蛋白质来替换它们呢?所以几乎立刻,一旦他们得到了AlphaFold预测,他们就重新设计,添加了你在红色中看到的这个设计蛋白质,以靶向一种新型细胞。他们采用了这个系统。然后他们证明,事实上,他们可以选择小鼠体内的细胞。而且他们可以注射蛋白质,在这种情况下,是荧光蛋白质。所以在那里你会看到颜色。而且他们可以靶向小鼠大脑中他们想要的细胞。因此,他们正在利用这个来开发一种新型的靶向药物发现系统。
我们看到了更多这样的例子。我们看到一些科学家正在使用这个工具尝试成千上万次的互动,以找出哪些互动最有可能发生。事实上,发现了一个关于卵子和精子如何在受精中结合的新成分。许多,许多这样的发现都建立在这个基础上。我喜欢认为我们的工作使整个被称为结构生物学的领域,即处理结构的生物学,快了 5% 或 10%。但这对世界的影响是巨大的。我们将会有更多这样的发现。而且我认为,最终,结构预测和更广泛的科学人工智能应该被视为一种令人难以置信的能力,可以作为实验工作者的放大器。我们从这些零散的观察结果,这些自然数据开始。这相当于我们拥有互联网上的所有词语。然后我们训练一个通用模型,它可以理解其底层的规则,并可以填充图片的其余部分。而且我认为我们将继续看到这种模式。它会变得更加通用。我们将找到正确的基础数据来源来做到这一点。而且我认为真正成为一个属性的另一件事是,你从拥有数据的地方开始,然后找到它可以应用于哪些问题。因此,我们发现巨大的进步,巨大的能力来理解其他方面发生的交互,这些交互是提取这些预测的科学内容之后的下游。然后,他们使用的规则可以适应新的目的。我认为这正是我们看到AlphaFold或其他狭义系统作为基础模型之处。事实上,我认为我们将开始在更通用的系统上看到这一点,无论是大型语言模型还是其他系统,我们都会在其中发现越来越多的科学知识。我们将把它们用于重要的目的。我认为这正是发展方向。我认为人工智能在科学领域中最令人兴奋的问题是它能有多通用?我们会发现几个狭窄的领域,并在其中产生变革性的影响吗?还是我们会拥有非常、非常广泛的系统?我预计最终会是后者,当我们弄清楚的时候。谢谢。