“AI制药”热潮之后:智能算法如何加速药物靶点发现?
前几年,“AI制药”曾是科技与医药界最炙手可热的名词之一。很多人一度想象,只要把海量数据喂给AI算法,很快就能造出灵丹妙药。而几年过去,当我们走进药房,真正由AI完全自主研发并获批上市的药物依然寥寥无几。这不禁让人产生疑问:AI在药物发现中到底扮演着怎样的角色?
日前,英矽智能(Insilico Medicine)、安斯泰来制药(Astellas Pharma)等多家机构的科学家在《自然综述·药物发现》(Nature Reviews Drug Discovery)上联合发表了一篇综述文章,系统性地解答了这个问题。该研究指出,目前AI最为深刻的影响发生在新药研发的最前端——靶点发现与评估。科学家已经能够通过日益丰富的AI算法工具,大大加快靶点筛选与发现的过程,但仍面临实验验证、可解释性等问题。
通过数据“理解”疾病
“药物发现与开发极其耗时、昂贵且充满风险,而找准正确的药物靶点,是提高研发成功率的关键。”该论文写道。“靶点”就是药物要“击中”的目标,它们通常是人体内某种特定的蛋白质或基因,在疾病发生的过程中扮演关键角色。药物分子就像一把钥匙,只有找到疾病对应靶点并与之有效结合,才能改变细胞的运行状态,从而治愈疾病。
传统的靶点发现无异于大海捞针。人类大约有两万个蛋白质编码基因,但迄今为止,全球所有获批药物所针对的靶点只有716个。找到靶点之后,还要筛选和设计出针对它的药物分子,再进入漫长且昂贵的动物和人体实验验证阶段。
传统的靶点发掘过程极度依赖科学家的直觉乃至偶然的运气。如果一开始找的靶点不对,药物分子在实验中效果不佳,就意味着大量的资源浪费。面对广阔且未知的疾病靶点的“海洋”,人类的算力显得捉襟见肘,而这正是AI大展拳脚的地方。
AI算法的基本原理是通过数据的学习,发现隐藏的模式,进而做出预测。人类的生命科学以及疾病研究已经产生了大量数据,AI能够高效解析其中的关联。首先是各种科研项目中得到的“组学”数据,比如基因组、蛋白质组,它们记录着疾病发生时分子层面的细微变化。其次是细胞图像数据,AI可以通过观察细胞形态的微妙变化来寻找线索。
此外,还有人类已经发现的蛋白质网络、代谢通路等“知识图谱”,其中记录着生物体和细胞内部的复杂关系。AI还可以学习海量科学文献、临床试验记录甚至专利报告,从中自动挖掘出连人类专家都可能忽略的潜在联系。当这些线索被拼凑起来,AI就有可能找出人类没有注意到乃至从未设想过的疾病靶点。
AI算法:总结经验与探索未知
如何让AI学会像顶尖生物学家一样思考?该研究指出,不同的AI算法能够在靶点发现中承担不同任务。
最常用的是“监督学习”。科学家把已知成功的“药物-靶点”配对信息交给AI,AI如同学生“刷题”一般,通过学习这些成功案例的特征并寻找它们的共性,最终在未知的蛋白质中,预测出哪些也有潜力成为新药物的靶点。
例如,文章中提到了一种名为BANDIT的监督学习模型,它成功推断出一种原本作用机制不明的抗癌药物(ONC201),其实是精准打击了一个名叫DRD2的靶点,这直接推动了该药物在特定脑瘤中的临床试验并最终获得加速批准。
而面对那些没有标准答案的领域,则可以使用“无监督学习”和“表征学习”算法,将那些表现出相似异常的基因或蛋白质归类,从而在混乱中寻找规律,发现隐藏的疾病通路。比如,“图神经网络”(GNN)算法能够在学习分子数据后建立起疾病、基因、蛋白质之间的关系网络,通过分析关键枢纽位置来找到重要靶点。
近年来备受瞩目的生成式AI和大语言模型也开始进入靶点发现领域。就像语言模型可以写诗写代码一样,经过海量生物医学知识训练的“生物大模型”可以充当虚拟的疾病生物学家,甚至通过学习基因语言来预测基因变化。比如谷歌开发的“AI联合科学家”(AI co-scientist)系统,能够自主生成科学假设,互相辩论,并在肝脏纤维化等疾病中成功挖掘出全新的治疗靶点。
找到靶点只是第一步,一些生成式AI算法还能帮助进行成药性与安全性评估。AlphaFold等模型能精准预测蛋白质三维结构,模拟靶点的立体结构,评估它是否适合开发药物。一些模型甚至能生成逼真的虚拟细胞数据,在计算机里模拟基因被敲除后的反应。
数据质量与可解释性难题
目前成功进入临床的AI靶点仍然不多。论文列举了几个已经走进临床试验的案例,如 TNIK(用于肺纤维化)和 PIKfyve(用于渐冻症),说明 AI 的确能够帮助找到新方向,但这些案例也暴露出现实的困难,例如有些靶点最终在临床中仍未表现出足够疗效。
论文梳理了AI在药物靶点发现中面临的挑战。首先是数据质量,许多公开的组学数据库存在标注不一致、背景信息缺失、样本偏向欧美人群等问题,使模型难以泛化到更广人群。科研文献也存在研究无法被重复验证的情况。该论文指出,某大型复现项目中只有约40%实验被成功重复,意味着AI可能会从错误数据中学习,自然也难以进行有效的预测。
其次是可解释性。靶点发现关乎重大科研投资,科研人员和药企需要知道 AI预测靶点背后的逻辑和证据,否则很难采纳它的建议。因此,新一代AI模型正尝试在提供预测的同时给出证据路径,比如引用关键文献或解释网络中的重要关系。
论文指出,在未来,真正有潜力改变行业的是AI驱动的闭环实验平台,其中由AI模型先提出潜在的靶点假设,再由自动化的机器人实验室接管工作,对活体细胞进行药物测试。实验产生的海量结果会实时传回给AI,AI据此修正自己的错误,不断进化,并马上提出下一轮假设。如果这一模式成熟,靶点发现的速度与可靠性都可能实现质的飞跃。
