当前位置: 首页 » 资讯 » 科技头条 » 正文

胚胎发育最初1小时的秘密,被MIT新模型精准破解了

IP属地 中国·北京 DeepTech深科技 时间:2025-12-22 22:19:29

一个胚胎从一团细胞变成有头有尾、有器官有结构的生命体,中间到底发生了什么?这个问题已经困扰了发育生物学家一百多年。我们知道细胞会分裂、会移动、会折叠,但具体到某一个细胞在下一分钟会做什么,是继续老老实实贴着邻居,还是突然折叠、分裂或者挣脱原有的连接?这类问题此前几乎无法预测。

来自 MIT 团队的一项研究有望改变这一局面。近期,他们在《自然·方法》(Nature Methods)期刊发表了一项名为 MultiCell 的几何深度学习方法,首次实现了在单细胞分辨率下,逐分钟预测果蝇胚胎发育过程中每一个细胞的行为变化。这项工作由 MIT 机械工程系副教授郭明(Ming Guo)、博士生 Haiqian Yang 以及来自密歇根大学和东北大学的合作者共同完成。

在测试中,该模型对约 5,000 个细胞的预测准确率达到了 90%,不仅能判断某个细胞是否会发生特定行为,还能精确到“七分钟后还是八分钟后”这样的时间粒度。


图丨MultiCell 概览(Nature Methods)

这听起来似乎有点像 AlphaFold 预测蛋白质折叠,只不过视角从分子尺度切换到了细胞尺度。实际上,研究团队在论文中也明确提到了这层类比:正如 AlphaFold 从氨基酸序列预测蛋白质三维结构那样,MultiCell 试图从细胞群落的几何特征预测多细胞系统的自组织过程。不同的是,蛋白质折叠是一个相对“静态”的目标,你最终得到一个稳定的结构;而胚胎发育是动态的、充满时序演化的,细胞之间的互动关系也远比蛋白质内部的化学键复杂得多。

在理解 MultiCell 解决了什么问题之前,我们先来了解一下过去的研究者是怎么建模多细胞系统的。

长久以来,研究者在建模多细胞系统时主要有两种思路。一种是“颗粒视角”(granular perspective),把每个细胞简化为空间中的一个点,关注它们的轨迹和堆积行为;另一种是“泡沫视角”(foam-like picture),把细胞看作紧密贴合的气泡,强调细胞边界的张力和连接关系,这种思路最早可以追溯到 1917 年达尔西·汤普森(D’Arcy Thompson)的经典著作《论生长与形态》。

两种视角各有优势,也各有局限:颗粒视角擅长捕捉细胞迁移和玻璃态动力学,但丢失了细胞形状和连接的细节;泡沫视角保留了边界信息,却不容易整合细胞核位置、基因表达等与单个细胞相关的特征。


图丨达尔西·汤普森(WikiPedia)

MultiCell 的核心设计是一个被称为“双图”(dual-graph)的数据结构,将两种视角统一起来。在这个框架中,细胞既是图中的节点(nodes),也通过细胞间的邻接关系构成边(edges);同时,细胞顶点和细胞边界又构成另一套图结构。这样一来,模型既能追踪每个细胞的位置、面积、周长、曲率等几何属性,也能记录相邻细胞之间是否共享边界、边界长度如何变化。输入特征还包括这些几何量的变化率,用以捕捉动态信息。

在此基础上,研究者采用多层消息传递机制的图编码器(graph encoder),比如多头图变换器层(multiheaded graph transformer layers),来聚合每个细胞周围高度异质的邻域信息,最终生成高维的隐藏状态,再通过解码器或池化操作输出预测结果。

这套流程被应用于果蝇早期胚胎发育中最关键的阶段之一:原肠胚形成(gastrulation)。在这个大约持续一小时的窗口里,原本表面光滑的椭球形胚胎会经历剧烈的形态变化,细胞在分钟级别的时间尺度上不断重排。腹沟(ventral furrow)、头沟(cephalic furrow)、后中肠内陷(posterior midgut invagination)等关键结构相继出现。

研究团队使用光片显微镜(light-sheet microscopy)拍摄的四维全胚胎数据进行训练和测试,这些数据来自密歇根大学,具有亚微米级分辨率和较高的帧率,每个胚胎包含约 5,000 个被标注边界和细胞核的细胞,这种数据在发育生物学领域相当稀缺。

模型在三个胚胎视频上训练后,被用于预测第四个全新胚胎的演化过程,测试时未来帧被完全遮蔽。结果显示,模型在预测细胞连接丢失(junction loss)方面达到了约 90% 的准确率,在预测细胞是否会内陷、分裂或发生重排方面,与真实值的皮尔逊相关系数(Pearson correlation)分别达到 0.79、0.87 和 0.78。


图丨同时预测内陷、分裂和重排发生的时间(Nature Method)

为了验证模型学到的究竟是什么,研究者做了两项额外分析。

一是神经激活图(neural activation map)的可视化。在执行胚胎时序对齐任务时,研究者发现模型在训练中自动识别出了腹沟、头沟、后中肠等关键区域的特征,尽管它从未被明确告知这些解剖学标签。有意思的是,模型甚至能在组织级折叠肉眼可见之前就“感知”到腹沟和后中肠区域的异常,这暗示着细胞几何特征中隐藏着早于形态变化的前兆信号。


图丨使用激活图的可解释几何视频序列对齐(Nature Method)

二是模型消融实验(ablation study)。研究者分别移除细胞几何、连接几何和顶点几何三类特征后重新训练模型,发现单独使用边界长度信息只能达到 0.821 的 AUC(曲线下面积),加入变化率后提升到 0.869,但仍远低于完整模型的 0.950。

这表明,细胞连接的丢失并非仅由局部边界几何决定,而是涉及更大范围的空间模式——这一结论与无定形材料塑性流动的理论相吻合,即局部重排是雪崩式行为,受缺陷空间分布和应力再分配的复杂相互作用支配。

从方法论上看,MultiCell 的贡献在于为介观尺度(mesoscale)的发育过程提供了一套标准化的数据驱动建模策略。此前,虽然已有工作尝试用连续场描述、个体轨迹规则推断、图神经网络等方法分析多细胞系统,但大多聚焦于分子或蛋白质尺度,真正在细胞-组织尺度实现单细胞精度预测的框架几乎没有。研究者在论文中直言不讳地写道:“这是我们所知的第一个能够在多细胞自组装过程中实现各类细胞行为单细胞精度预测的算法。”

当然,这项工作也面临明显的瓶颈。首先是数据。高质量的四维全胚胎追踪数据极其稀缺,目前公开可用的只有少数几组,样本量和物种覆盖都相当有限。郭明坦言,从模型角度讲,MultiCell 已经准备好了,真正的瓶颈在于数据;如果能获得特定组织的高质量视频,模型可以直接迁移应用。

其次是温度敏感性和个体差异。果蝇发育速率对温度高度敏感,不同胚胎之间的时序可能并非简单地线性缩放,这给定义统一的时间对齐度量带来挑战。研究者希望未来能系统性地比较不同温度、营养或基因扰动条件下的胚胎,借此量化这些因素如何重塑发育的整体时序与协调性。

此外,当前模型仅基于几何信息,尚未整合基因表达、蛋白质定位、机械力场等多模态数据。作者在讨论部分提到,未来加入细胞机械性质、连接张力以及多组学信息,有望更全面地揭示物理与生物信息之间的相互作用。

在应用前景方面,研究者特别点名了哮喘和癌症。哮喘患者的肺组织与健康组织在细胞动力学上存在可检测的差异,而 MultiCell 可能捕捉到这些微妙的模式,从而改进早期诊断或药物筛选流程。博士生 Haiqian Yang 在 MIT 新闻稿中表示:“我们设想我们的模型可以捕捉这些细微的动态差异,提供更全面的组织行为表征。” 癌症的早期演进同样涉及细胞重排的异常,理解正常与病变组织在预测景观上的偏差,或许能揭示维持组织稳态的关键机制。

论文结尾还抛出了一个更大的愿景:正如今天可以用 AlphaFold 预测蛋白质结构,未来或许能设计一个通用的多细胞发育预测模型,实现“数字胚胎”的计算机模拟。这样的模型不仅能用于药物筛选,甚至可能指导人工组织的设计。考虑到 AlphaFold 在短短几年内从 CASP 竞赛的突破走到 2024 年诺贝尔化学奖(David Baker 与 Demis Hassabis、John Jumper 共同获奖),多细胞发育领域的类似突破也许并不遥远。

当然,两者面临的挑战也并不完全对等。蛋白质折叠虽然复杂,但最终产物是相对稳定的结构,训练数据(PDB 蛋白质数据库)也已积累了超过 20 万条实验解析结构。而胚胎发育是一个开放的、不断演化的动态过程,细胞之间的互作关系随时间剧烈变化,高质量标注数据的获取成本极高。在这个意义上,MultiCell 更像是一个概念验证,证明几何深度学习在单细胞精度上具备预测能力,但要真正构建跨物种、跨发育阶段的通用模型,路还很长。

值得注意的是,近期发育生物学领域的另一些进展也在佐证这一方向的潜力。2025 年 7 月,一篇发表于《自然·通讯》(Nature Communications)的研究首次利用布里渊显微镜(Brillouin microscopy)绘制了果蝇原肠胚形成期间细胞材料属性的时空动态图谱,发现不同命运的细胞群落在机械性质上存在显著差异。

这类实验数据未来若能与 MultiCell 的预测框架对接,或将催生更具物理可解释性的发育模型。

参考资料:

1.https://www.nature.com/articles/s41592-025-02983-x

2.https://news.mit.edu/2025/deep-learning-model-predicts-how-fruit-flies-form-1215

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。