“AI制药”热潮之后：智能算法如何加速药物靶点发现？

澎湃新闻记者季敬杰

2026-04-24 08:44

来源：澎湃新闻

前几年，“AI制药”曾是科技与医药界最炙手可热的名词之一。很多人一度想象，只要把海量数据喂给AI算法，很快就能造出灵丹妙药。而几年过去，当我们走进药房，真正由AI完全自主研发并获批上市的药物依然寥寥无几。这不禁让人产生疑问：AI在药物发现中到底扮演着怎样的角色？

日前，英矽智能（Insilico Medicine）、安斯泰来制药（Astellas Pharma）等多家机构的科学家在《自然综述·药物发现》（Nature Reviews Drug Discovery）上联合发表了一篇综述文章，系统性地解答了这个问题。该研究指出，目前AI最为深刻的影响发生在新药研发的最前端——靶点发现与评估。科学家已经能够通过日益丰富的AI算法工具，大大加快靶点筛选与发现的过程，但仍面临实验验证、可解释性等问题。

通过数据“理解”疾病

“药物发现与开发极其耗时、昂贵且充满风险，而找准正确的药物靶点，是提高研发成功率的关键。”该论文写道。“靶点”就是药物要“击中”的目标，它们通常是人体内某种特定的蛋白质或基因，在疾病发生的过程中扮演关键角色。药物分子就像一把钥匙，只有找到疾病对应靶点并与之有效结合，才能改变细胞的运行状态，从而治愈疾病。

传统的靶点发现无异于大海捞针。人类大约有两万个蛋白质编码基因，但迄今为止，全球所有获批药物所针对的靶点只有716个。找到靶点之后，还要筛选和设计出针对它的药物分子，再进入漫长且昂贵的动物和人体实验验证阶段。

传统的靶点发掘过程极度依赖科学家的直觉乃至偶然的运气。如果一开始找的靶点不对，药物分子在实验中效果不佳，就意味着大量的资源浪费。面对广阔且未知的疾病靶点的“海洋”，人类的算力显得捉襟见肘，而这正是AI大展拳脚的地方。

AI算法的基本原理是通过数据的学习，发现隐藏的模式，进而做出预测。人类的生命科学以及疾病研究已经产生了大量数据，AI能够高效解析其中的关联。首先是各种科研项目中得到的“组学”数据，比如基因组、蛋白质组，它们记录着疾病发生时分子层面的细微变化。其次是细胞图像数据，AI可以通过观察细胞形态的微妙变化来寻找线索。

此外，还有人类已经发现的蛋白质网络、代谢通路等“知识图谱”，其中记录着生物体和细胞内部的复杂关系。AI还可以学习海量科学文献、临床试验记录甚至专利报告，从中自动挖掘出连人类专家都可能忽略的潜在联系。当这些线索被拼凑起来，AI就有可能找出人类没有注意到乃至从未设想过的疾病靶点。

AI算法：总结经验与探索未知

如何让AI学会像顶尖生物学家一样思考？该研究指出，不同的AI算法能够在靶点发现中承担不同任务。

最常用的是“监督学习”。科学家把已知成功的“药物-靶点”配对信息交给AI，AI如同学生“刷题”一般，通过学习这些成功案例的特征并寻找它们的共性，最终在未知的蛋白质中，预测出哪些也有潜力成为新药物的靶点。

例如，文章中提到了一种名为BANDIT的监督学习模型，它成功推断出一种原本作用机制不明的抗癌药物（ONC201），其实是精准打击了一个名叫DRD2的靶点，这直接推动了该药物在特定脑瘤中的临床试验并最终获得加速批准。

而面对那些没有标准答案的领域，则可以使用“无监督学习”和“表征学习”算法，将那些表现出相似异常的基因或蛋白质归类，从而在混乱中寻找规律，发现隐藏的疾病通路。比如，“图神经网络”（GNN）算法能够在学习分子数据后建立起疾病、基因、蛋白质之间的关系网络，通过分析关键枢纽位置来找到重要靶点。

近年来备受瞩目的生成式AI和大语言模型也开始进入靶点发现领域。就像语言模型可以写诗写代码一样，经过海量生物医学知识训练的“生物大模型”可以充当虚拟的疾病生物学家，甚至通过学习基因语言来预测基因变化。比如谷歌开发的“AI联合科学家”（AI co-scientist）系统，能够自主生成科学假设，互相辩论，并在肝脏纤维化等疾病中成功挖掘出全新的治疗靶点。

找到靶点只是第一步，一些生成式AI算法还能帮助进行成药性与安全性评估。AlphaFold等模型能精准预测蛋白质三维结构，模拟靶点的立体结构，评估它是否适合开发药物。一些模型甚至能生成逼真的虚拟细胞数据，在计算机里模拟基因被敲除后的反应。

数据质量与可解释性难题

目前成功进入临床的AI靶点仍然不多。论文列举了几个已经走进临床试验的案例，如 TNIK（用于肺纤维化）和 PIKfyve（用于渐冻症），说明 AI 的确能够帮助找到新方向，但这些案例也暴露出现实的困难，例如有些靶点最终在临床中仍未表现出足够疗效。

论文梳理了AI在药物靶点发现中面临的挑战。首先是数据质量，许多公开的组学数据库存在标注不一致、背景信息缺失、样本偏向欧美人群等问题，使模型难以泛化到更广人群。科研文献也存在研究无法被重复验证的情况。该论文指出，某大型复现项目中只有约40%实验被成功重复，意味着AI可能会从错误数据中学习，自然也难以进行有效的预测。

其次是可解释性。靶点发现关乎重大科研投资，科研人员和药企需要知道 AI预测靶点背后的逻辑和证据，否则很难采纳它的建议。因此，新一代AI模型正尝试在提供预测的同时给出证据路径，比如引用关键文献或解释网络中的重要关系。

论文指出，在未来，真正有潜力改变行业的是AI驱动的闭环实验平台，其中由AI模型先提出潜在的靶点假设，再由自动化的机器人实验室接管工作，对活体细胞进行药物测试。实验产生的海量结果会实时传回给AI，AI据此修正自己的错误，不断进化，并马上提出下一轮假设。如果这一模式成熟，靶点发现的速度与可靠性都可能实现质的飞跃。

责任编辑：宦艳红

图片编辑：李晶昀

校对：姚易琪