当前位置: 首页 » 资讯 » 科技头条 » 正文

科学家设计覆盖免疫全流程的AI引擎,助力疫苗设计和精准免疫治疗

IP属地 中国·北京 编辑:沈如风 DeepTech深科技 时间:2025-07-17 18:23:14

如果把身体看作一座城市,病毒或癌细胞便是潜在的入侵者,但是否发起反应、反应有多强,取决于免疫系统能否正确识别、有效传达“入侵警报”。而 CD4+ T 细胞免疫过程就像是一整套城市安保系统,涵盖了从侦察、信息传递,到动员反应的层层环节。

最近,澳大利亚莫纳什大学宋江宁教授和南京理工大学於东军教授的联合团队,开发了一种名为 ImmuScope 的弱监督深度学习框架,集成了精确的主要组织相容性复合体 II 类(MHC-II,Major Histocompatibility Complex-II)抗原呈递、CD4+ T 细胞表位和免疫原性预测。

其作用相当于高智能的“安保指挥中心”,通过分析成千上万种“可疑信号”(抗原肽段),判断它们是否能被展示给 CD4+ T 细胞、是否能激发真正的免疫反应。不仅告诉系统“这里有问题”,更进一步预测“这个问题是否严重、是否值得启动响应”。

也就是说,ImmuScope 不是在前线作战,而是在幕后决策,它像一个会学习、会判断的免疫情报分析系统,帮助人们在面对癌症或病毒变异时,更快、更准地找出哪些目标应该被优先“通缉”(可能的突变),有望为新型疫苗设计、肿瘤新抗原筛选以及自身免疫疾病相关表位的识别等实际应用场景提供辅助。

疫苗开发方面,它可以更高效地筛选出可能激发 CD4+ T 细胞反应的抗原,提高早期设计的精准性。在免疫治疗中,有望辅助识别个体化的治疗靶点,优化治疗策略。在黑色素瘤的新抗原研究中,ImmuScope 也展现出应用潜力。它能帮助解突变如何影响抗原呈递和免疫识别,为未来肿瘤免疫治疗中的个体化靶点发现提供启示。

宋江宁对 DeepTech 表示:“更重要的是,ImmuScope 能够识别在抗原-抗体相互作用中有贡献的接触残基,并确定哪些相互作用重要。同时,还能提供决定序列模体的残基位置,这对于指导新抗原设计具有重要价值。”


图丨宋江宁(左)与申龙晨(宋江宁)

近日,相关论文以《自迭代多示例学习算法实现 CD4+ T 细胞免疫原性表位预测》(Self-iterative multiple-instance learning enables the prediction of CD4+ T cell immunogenic epitopes)为题发表在Nature Machine Intelligence上[1]。南京理工大学博士生申龙晨是第一作者,莫纳什大学宋江宁教授和南京理工大学於东军教授担任共同通讯作者。


图丨相关论文(Nature Machine Intelligence)



不仅能“看到”抗原呈递,还能“理解” T 细胞响应强度

传统 CD4+ T 细胞表位预测方法主要依赖单等位基因(SA,single-allelic)数据。这类数据提供了非常清晰的一对一信息,即某个肽段确切地和某个 MHC-II 分子结合。它就像是在做一项“精密配对”的工作——每条信息都很可靠,但问题在于数据量不够,尤其对于 HLA-DQ 和 HLA-DP 这类等位基因覆盖严重不足。

然而,追求这种高质量数据的代价往往是牺牲广度。实际上,现在已经积累了大量的多等位基因(MA,multi-allelic)数据,但这些数据是弱标记的。例如,你可能知道某个肽段与某些 MHC-II 分子发生了结合,但不知道更具体的信息。

过去很多模型没办法处理这种模糊的信息,所以干脆忽略 MA 数据。该团队意识到,如果不能利用这类数据,就很难突破预测模型的广度限制。因此,他们的研究目标是解决核心问题:如何从模糊中提炼出可靠的信息,让模型学会从“混合样本”中识别出准确的肽-MHC 配对关系。

宋江宁团队的主要研究方向是利用异构数据建模、先进的机器学习和分析技术来应对感染与免疫、癌症生物学和药物信息学领域的关键挑战(DeepTech 此前报道:科学家提出深度学习新模型,精准预测T细胞受体与抗原相互作用)。


(Nature Machine Intelligence)

本次研究提出的 ImmuScope 是通过自我迭代的多示例学习方法,结合高质量注释筛选,把原本模糊的多等位基因数据“逐层剥离”。

这就像是有多个上了锁的盒子和一把钥匙,但不知道钥匙对应能打开哪个盒子,只知道“至少有一个盒子被打开了”。ImmuScope 通过反复推理与筛选,最终找出钥匙真正对应的盒子,从而有效扩展了等位基因的覆盖范围,并显著提升了预测的准确性与鲁棒性。

从抗原与 MHC-II 分子的结合开始,到被 T 细胞识别,最终决定是否触发免疫反应,这一系列过程实际上构成了一个层层递进的级联反应,每个环节都是一道关键的筛选关卡,缺一不可。

而 ImmuScope 把这个免疫“闭环”建模成一个可学习的系统,不仅训练模型预测抗原是否能被 MHC-II 分子呈递,还进一步评估它的结合特异性、是否会被 CD4+ T 细胞识别,甚至它最终是否具备免疫原性。

更进一步,该团队并不仅仅停留在抗原呈递这一环节,而是试图构建一个覆盖整个 CD4+ T 细胞免疫反应流程的统一框架,从 MHC 结合到 T 细胞识别、再到免疫原性预测。“我们相信,只有真正把这些步骤串联起来,才能更好地理解 T 细胞免疫机制,并推动它在癌症、病毒感染等疾病中的实际应用。”宋江宁说。

从技术层面来看,该研究整合了来自单等位基因和多等位基因的大规模数据(包含 142 个等位基因的超 60 万个配体),用多示例学习的方法充分吸收弱标注信息。同时,引入了正锚三元组损失(positive-anchor triplet loss)来提高模型辨别能力,能更精准地识别正负样本的特征差异。

在结构上,ImmuScope 的多个子模块分别对应抗原呈递预测、特异性分析、表位预测和免疫原性评估,并通过统一的特征表示联通。此外,研究人员还在多个疾病背景下验证了它的适用性,包括黑色素瘤新抗原识别和新冠病毒变异的免疫逃逸分析。

简单来理解,ImmuScope 就像是一个覆盖全流程的免疫建模引擎,不仅能“看到”抗原呈递,还能“理解” T 细胞是否会响应、响应多强,为疫苗设计和个体化免疫治疗提供了一站式解决方案。



首次把 CD4+ T 细胞免疫流程整合到统一的 AI 框架

实际上,很多现有工具只聚焦于 CD4+ T 细胞免疫过程中的某一个环节,比如只预测抗原是否能与 MHC-II 结合,或单独评估表位的免疫原性。尽管这些方法各有优势,但很难全面把握整个免疫反应的多步骤启动过程。

ImmuScope 的独特之处在于,首次把整个 CD4+ T 细胞免疫流程整合到统一的 AI 框架中。它能帮助科研人员解决一系列下游问题,包括:预测抗原呈递、识别 MHC-II 结合特异性、预测 T 细胞是否能识别表位,以及判断这个表位是否可能激发免疫反应(即评估免疫原性)。

另一个关键优势是利用了弱标注的多等位基因数据,这类数据虽然复杂,但覆盖范围广,能极大扩展模型在真实人群中不同 MHC-II 亚型上的适用性。ImmuScope 通过自迭代学习的方式有效“净化”这些数据,从中提取出高置信样本,这在以前的模型中很少见。

这个过程就像“沙里淘金”:先用现有经验找出最亮眼的“金粒”,再把这些样本反过来继续训练模型,提升它在复杂数据下的判断力。通过不断迭代这个过程,让模型越来越擅长从模糊、弱标注的数据中提取出高质量信息,从而大幅提升了预测的广度和准确性。

此外,他们还设计了特定的损失函数和注意力机制,让模型不仅准确,还具备较强的可解释性和泛化能力。在多个任务和数据集上对比测试,ImmuScope 在预测准确性和稳定性上都超过了现有的主流方法。


(Nature Machine Intelligence)

除了 CD4+ T 细胞表位测试基准的平均 AUC(Area Under the Curve)达到 0.825,领先于 NetMHCIIpan-4.3 和 MixMHC2pred-2.0 之外,最具代表性的优势体现在两个方面:

一是对不同 HLA 等位基因的适应性更强。分析结果表明,ImmuScope 在绝大多数等位基因上都取得了更高的 AUC,尤其在 HLA-DQ 和 HLA-DP 这些过去数据较少、预测困难的等位基因上,依然保持了较强的稳定性。

二是对不同肽段长度的预测也更稳健。不论是短肽还是长肽,ImmuScope 基本都保持了领先表现,显示出模型的泛化能力非常强。

这些性能提升关键在于两个模块:首先是自迭代的多示例学习机制,它可以有效利用弱标注的多等位基因数据,提取出高置信样本,显著扩大了训练数据的广度和质量;其次是引入的正锚三元组损失函数,提升了模型在正负样本之间的判别力,特别有助于发现精细的 MHC 结合特征。

整体来说,ImmuScope 并不是依赖某一个“神奇算法”,而是通过多个创新模块协同工作,形成了一个既精准又稳健的免疫预测框架。



有望在疫苗设计和个体化治疗发挥关键作用

据介绍,ImmuScope 的研究过程是一条不断迂回探索的路径。在研究伊始阶段,该团队在尝试将多等位基因数据有效引入模型训练的过程中,模型表现一直不太稳定。尽管经过反复调整方案,效果却始终不理想,研究人员一度感到有些困惑。

后来他们逐步引入了自迭代伪标签筛选机制,并结合注意力模块优化样本选择策略。那一次,模型在验证数据上的表现终于有了明显提升。虽然只是一个阶段性的进展,但给团队带来很大的鼓励,也确认了该方向的可行性。

还有一个让团队印象深刻的瞬间,是把模型应用到黑色素瘤新抗原和 SARS-CoV-2 变异表位的预测中。前者验证了模型在肿瘤免疫中的潜力,而在 SARS-CoV-2 的应用中,ImmuScope 能够识别出变异对免疫识别的影响,有效捕捉了病毒免疫逃逸的信号。

宋江宁表示:“这让我意识到,ImmuScope 不仅具备理论上的优势,也展现出了一定的应用潜力,未来有望在疫苗设计和个体化治疗中发挥作用。”


(Nature Machine Intelligence)

据介绍,由于澳大利亚盛行咖啡文化,宋江宁与团队成员经常在咖啡馆进行比较轻松的讨论。大家会点上一杯咖啡,打开笔记本电脑,一起交流科研想法。“一路走来,有过技术卡点,也有灵光一现的时刻,但最让我难忘的,是团队一起头脑风暴、不断试错、不断突破的过程。这也是科研中最有价值、最有成就感的部分。”他回忆道。

需要了解的是,ImmuScope 当前处于基础研究阶段,距离真正应用到临床还有一段距离,仍有一些关键问题需要逐步解决。比如,对免疫反应的理解、模型的解释性和数据的全面性等方面,并需要更多临床和实验研究来进一步验证。

目前,ImmuScope 的相关代码已经开源。在接下来的研究阶段,团队将继续打磨模型的整体能力,同时也希望结合更多真实场景的数据,拓展它在疾病研究和个体化治疗中的应用潜力,例如通过开发新的 AI 框架来解决非常见的免疫细胞类型相关的问题。

此外,除了使用现有的数据或基于建模后的预测数据之外,他们也在考虑整合多模态数据、跨模态数据,甚至病理图像数据、肿瘤微环境数据以及空间多组学数据,以推进该框架进一步演化和发展。

“当然,这需要一个循序渐进的过程,我们会持续在这条路上探索和推进,未来也期待可以与合作伙伴为疫苗设计和精准免疫治疗提供更扎实的工具支持。”宋江宁说道。

参考资料:

1.Shen, LC., Zhang, Y., Wang, Z.et al.Self-iterative multiple-instance learning enables the prediction of CD4+ T cell immunogenic epitopes.Nature Machine Intelligence(2025). https://doi.org/10.1038/s42256-025-01073-z

运营/排版:刘雅坤、何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。