从 AlphaFold 精准预测蛋白质三维结构,到大语言模型解析复杂的基因组语法。在过去的几年里,人工智能在生命科学领域的突破令人瞩目。然而,在合成生物学和精准医疗领域,除了“阅读”和“预测”生命密码,关键还在于“改写”与“精准控制”。如果我们能像调节音量旋钮一样,在特定的细胞内极其精准地控制某个基因的表达剂量,疾病治疗将迎来更高阶的突破。
而基因表达调控元件正是解决这一难题的关键。它被视为自然界赋予细胞的“开关与旋钮”,编码时空特异性逻辑,确保基因在正确的时间、正确的细胞中以恰当强度开启。长期以来,细胞与基因疗法的安全性瓶颈正源于我们对这些元件的控制不足:传统设计方法多依赖重复已知基序或随机拼接,既难以获得可靠候选分子,也难以实现连续梯度调控。
3 月 13 日,Y Combinator 支持的 AI 生物技术初创公司 Origin Bio 宣布,向全球科研社区开源 10,000 条完全由 AI 设计生成的近端增强子样序列(proximal enhancer-like sequences, pELS),并同步上线免费平台 Switch。这将为大规模平行报告基因分析(MPRA)等功能性实验提供海量的数据储备,有望为传统的扰动生物学(Perturbation Biology)注入全新的 AI 协作机制。
公司仅 4 人,专注 AI 驱动的调控 DNA 设计
Origin Bio 成立于 2025 年,总部位于旧金山,近期已入选 Y Combinator Winter 2026 批次,团队规模极小,仅有 4 人。CEO 亚什·拉托德(Yash Rathod)与 CTO 马尔哈·比德(Malhar Bhide)均来自伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学专业,曾从事计算机视觉与强化学习研究,其中,亚什曾获得 2022 年 OpenCV AI Research Competition 一等奖,马尔哈高中时期就在《科学报告》(Scientific Reports)发表过疾病建模论文。
2025 年 10 月 8 日,Origin Bio 正式发布自研模型 Axis,这是业内首个同时具备生成与预测功能的调控 DNA AI 模型。它统一了 DNA-to-DNA、DNA-to-function 与 function-to-DNA 三类任务:既能从头生成序列或基于提示优化,也能预测序列的功能属性。
Axis 基于共享 Transformer 骨干网络实现多任务训练,采用 ENCODE V4 注册表中的独立顺式调控元件数据进行无污染分割训练。在预测调控元件活性基准测试中,Axis 平均超越 Google DeepMind 的 AlphaGenome 模型 6.7%。在“高结合亲和力”的提示下,Axis 生成的序列中目标转录因子结合位点可富集高达 9 倍。
![]()
(Origin Bio)
Origin Bio 正致力于“用 AI 打造更安全的细胞与基因疗法”,核心是设计新型调控 DNA 元件,如增强子与启动子,实现治疗基因表达的精准编程,主要面向癌症、中枢神经系统疾病等需要条件性激活的适应症。未来,其希望构建全球最大规模的合成调控序列专有数据集,通过高通量实验验证积累数百万条跨多种细胞状态的功能注释序列。
10,000 个 AI 设计的生物学“微调旋钮”
本次发布的 10,000 条序列正是由 Axis 针对特定细胞状态提示生成的 pELS 序列,这是一类位于基因转录起始位点(TSS)附近约 2 kb 范围内、能够显著增强基因转录活性的短 DNA 序列。这批 AI 设计的序列专门针对三种在医学研究中极具代表性的细胞系:SK-N-SH(神经母细胞瘤细胞系)、HepG2(肝细胞癌细胞系)和 K562(红白血病细胞系)。
为了让这批序列在真实科研环境中的可用性更高,每条序列均附带完整质量控制数据和多维度的预测数据。其底层序列质量指标包括最差发夹结构稳定性(worst hairpin stability, ΔG)、GC 含量、核苷酸组成比例以及最长同聚物(homopolymer)长度。并为转录因子结合位点(TFBS)提供注释,支持用户进行高级过滤与可视化,帮助研究者理解序列招募特定蛋白质、启动基因表达的具体机制。
在跨细胞系活性预测中,Origin 调用了由哈佛-麻省理工博德研究所(Broad Institute)独立开发、经过体外验证的深度卷积神经网络模型 Malinois。该模型能够仅凭 DNA 序列,高精度地预测顺式调控元件(CRE)的活性。
为了直观展示 DNA 双链分子的空间构象,Origin 还使用了字节跳动开源的 AlphaFold 3 复现模型 Protenix。Protenix 能够精准预测包括蛋白质、DNA、RNA 在内的复杂生物分子 3D 结构。
![]()
(Origin Bio)
所有序列及其元数据已全部上传至 Switch 平台。平台不仅提供浏览、下载与可视化功能,还将持续托管公司与社区的湿实验验证结果,支持研究者上传自身评估数据,形成协作积累。Origin Bio 明确表示,将继续向库中添加针对原代细胞与组织的更多设计序列。
范式转移:从“二元开关”到“连续调控”
为什么 Origin 要耗费巨大算力去大规模设计并测试这些调控元件库?答案在于对细胞命运的极致掌控。
在传统的扰动生物学中,科学家们主要依赖两种手段来研究基因功能:其一是 CRISPR 等基因敲除(Knockouts)或敲降(Knockdowns)技术。这在很大程度上是一种“二元操作”,基因要么被完全破坏、不表达,要么存在。其二是化学药物处理,虽然可以通过药物浓度实现“剂量控制”,但化学小分子往往缺乏靶向特异性,容易同时引发多条信号通路的脱靶效应。
真实的生命系统远比“0 和 1”复杂。细胞的命运决定本质上是由基因表达的“剂量”驱动的,蛋白质的合成数量、时空表达都会影响最终表型。公司强调,调控 DNA 元件能编码时空特异性逻辑,使药物更具可编程性,从而提升特异性并响应细胞状态变化。这对细胞与基因疗法安全性至关重要。
Origin 通过 AI 设计出具有梯度转录强度的调控元件库,这将为扰动生物学代带来更精细、更高效率的基因调控策略。科学家可以对特定基因的表达水平进行连续性的精准控制,并基于此系统绘制剂量-响应图谱。
例如,科学研究表明,肿瘤微环境中存在一条极其关键的“代谢-表观遗传轴”:坏死肿瘤会触发 T 细胞的“功能性热量限制”,进而耗竭核质内的乙酰辅酶 A(acetyl-CoA)。这会剥离效应基因和耗竭基因位点上激活性的组蛋白修饰标记,从而“塞翁失马”地保留了 T 细胞的干性,这正是产生持久抗肿瘤反应的关键状态。白细胞介素-10(IL-10)似乎可以通过类似途径重编程终末耗竭的 CD8+ T 细胞,恢复其抗肿瘤功能。
目前,研究人员还不了解是否存在一个完美的表达阈值,能让 IL-10 刚好将耗竭的肿瘤浸润淋巴细胞(TILs)翻转到有利状态,而又不会“用力过猛”引发免疫抑制。有了 Origin 提供的梯度调控元件库,研究人员终于可以系统性地绘制这一阈值图谱,彻底告别过去仅靠单一“过表达构建体”盲目猜测的时代。
再比如,T 细胞疗法的临床数据中有两个决定疗效的最强预测指标:T 细胞干性以及多克隆肿瘤反应性。但在现有的细胞疗法制造过程中,当 T 细胞在体外大规模扩增时,这两种极其宝贵的特性会迅速流失。能够识别肿瘤的克隆型被选择性淘汰,而剩余的细胞则走向“终末分化”,失去了持续战斗的潜力。
如果科学家能在体外扩增期间,利用 AI 设计的梯度调控序列,精确滴定干性相关转录因子(如 TCF7 或 BACH2)的表达,就有望找到一个极其精确的“黄金剂量”:在这个剂量下,T 细胞既能完美维持自我更新能力,又不会牺牲其对肿瘤的杀伤效应潜能。
开源共建“可编程药物”的未来
Origin Bio 也承认自家公司在这项研究中的局限性:“需要开展的实验、有待发现的机制以及将要产生的影响,远远超出了任何一家单一机构的能力范围。”
因此,随着 10,000 条 AI 设计的序列向全网开放,Origin 明确表示,他们希望全球的科研工作者能将这些序列应用于 MPRA 研究,以及 ATAC-seq、ChIP-seq 等遗传组学功能性检测实验中。随着实验数据的回流,Origin 承诺将在平台上公开验证结果,并允许其他科研团队同步分享他们的数据。未来,他们还计划将生成的序列库扩展到原代细胞和更多组织类型中。
![]()
(X@garrytan)
社交媒体与社区讨论迅速展开,各路专家对此评价不一。Y Combinator CEO Garry Tan 称“AI×bio 是几乎未被触及的领域”。斯坦福大学计算基因组学家安舒尔·昆达杰(Anshul Kundaje)则在 X 转帖评论,此次发布“更像是炒作而非严肃努力”:三种细胞系区分过于简单、缺少与开源工具的 benchmark 对比,且缺乏湿实验验证。
![]()
(X@anshulkundaje)
无论如何,Origin Bio 或许正在推动 AI 生成调控 DNA 从实验室走向社区协作的新阶段。生命科学正从“盲人摸象”式的试错发现,迈向编写计算机代码般精准的“可编程生物学”时代。
参考
https://origin.bio/blogs/switch/
https://origin.bio/
https://www.ycombinator.com/companies/origin-bio
https://origin.bio/introducing-axis
https://x.com/garrytan/status/2032565231847629215
https://x.com/anshulkundaje/status/2033006691873337710
运营/排版:何晨龙





京公网安备 11011402013531号