编者按:随着人工智能在蛋白质研究中的重要性日益提升,预测静态的蛋白质晶体结构已不再是难题。然而,如何在原子级别精确刻画蛋白质动态变化仍是一项亟需解决的挑战。微软研究院科学智能中心王童研究员及其团队,历时四年研究推出的基于 AI 的分子动力学模拟系统 AI2BMD,对蛋白质等生物大分子进行量子级精度的全原子模拟,实现了比经典模拟更高的精度,和比密度泛函理论更快的速度,为包括生物分子建模等在内的生物研究提供了新的可能性。
“所有生物体的行为都可以通过原子的颤动和摆动来理解。”正如诺贝尔物理学奖得主 Richard Feynman 的名言所说,生物世界的本质是原子永不停歇的运动过程。探索生物分子的运动过程以及分子之间的相互作用,对于破译生命活动背后的机理以及设计和发现新的药物、疫苗以及生物材料都至关重要。
近年来,随着深度学习技术的发展和 GPU 算力的飞速提升,人工智能在蛋白质研究领域扮演着越来越重要的角色。2024年的诺贝尔化学奖就授予了蛋白质结构预测和蛋白质设计的研究。尽管通过计算手段预测静态的蛋白质晶体结构已经接近或达到生物学实验解析的精度,但如何利用 AI 在原子级别精确地刻画蛋白质动态变化的行为是一项仍需解决且更为困难的挑战。
日前,微软研究院科学智能中心(Microsoft Research AI for Science)王童研究员及其团队,历时四年在人工智能驱动的分子动力学模拟研究中取得了重要进展,其成果已通过长文(Article)的形式在世界顶级科学杂志《自然》(《Nature》)正刊在线发表。
长文链接:
https://www.nature.com/articles/s41586-024-08127-z
GitHub 链接:
https://github.com/microsoft/AI2BMD
AI驱动的分子动力学模拟
分子动力学(Molecular Dynamics,简称 MD)是模拟分子和原子在真实生物细胞中运动的技术手段。动力学模拟一般以1飞秒(10-15秒)为一步模拟,通过数亿以至数千亿步的模拟,反映细胞中蛋白质分子的时空运动过程。历经半个多世纪的发展,分子动力学模拟可以分为两类:经典模拟(Classic MD Simulation)和量子模拟(Quantum Simulation)。
经典模拟以牛顿力学作为力场来驱动原子和分子的运动,具有速度快、适用性广等特点。半个多世纪以来,经典模拟被广泛应用于蛋白质等生物大分子的动态研究中,并于2013年获得诺贝尔化学奖。然而,采用牛顿力场的经典模拟,力场的准确性欠缺,且无法模拟分子成键断键等电子迁移的行为,在高精度的自由能计算、药物虚拟筛选、生物化学反应等方面捉襟见肘。
与经典模拟相对的是以密度泛函理论(Density Functional Theory,简称 DFT)为代表的量子模拟方法,该方法采用量子力学力场,对原子的运动描述可达到从头计算的精度。凭借其完备的理论基础和在计算化学领域的广泛应用,1998年密度泛函理论获得了诺贝尔奖。但由于极高的计算代价,量子模拟既无法直接应用于蛋白质等生物大分子的研究,又无法进行长时间的模拟仿真。
如何打破经典模拟和量子模拟之间的技术瓶颈,实现对蛋白质等生物大分子量子级精度的全原子模拟,是该领域半个多世纪以来的一大挑战。
为了解决这一重大挑战,微软研究院科学智能中心的研究员们设计了基于 AI 的分子动力学模拟系统 AI2BMD (AI powered ab initio biomolecular dynamics)。该系统以从头计算的精度(即量子级的精度)高效地对各类蛋白质进行了全原子模拟仿真。这一创新在生物分子模拟中实现了一种此前标准模拟技术无法达成的权衡——比经典模拟具有更高的准确性,其计算成本虽然高于经典模拟,但计算速度领先 DFT 和其他量子力学方法数个数量级。AI2BMD 有望在生物分子建模中解锁更多新的能力,特别是在如蛋白质与药物相互作用这种需要进行高精度计算的研究过程中。
深入AI2BMD技术创新
分子动力学模拟最重要的组件之一是力场的构建。在模拟的每一步中,力场计算分子的能量和每个原子所受的力,从而驱动整个分子的运动。经典模拟采用牛顿力场,量子模拟采用量子力学力场。要构建 AI 驱动的分子动力学模拟,最大挑战是深度学习模型的泛化性,即在已知分子上训练的模型对各类未知蛋白质分子的能量和力的预测准确性。为此,研究团队设计了一种基于蛋白片段的、可泛化的分割技术,将各类蛋白质分子分割成21种通用的蛋白质片段。数据集的构建和模型的训练全都基于通用蛋白质片段进行,从而实现对各类蛋白质分子的通用解决方案(如图1)。
图1:AI2BMD 技术流程图
基于蛋白质通用分割方案,研究团队进一步构建了包含二千多万条数据、目前世界上最大的量子级精度蛋白质片段数据集 Protein Unit Dataset(https://github.com/microsoft/AI2BMD)。研究员们选取了此前研发的通用分子几何结构建模的网络模型 ViSNet,并在 Protein Unit Dataset 上对其进行训练,来作为 AI2BMD 的力场。考虑到分子模拟的效率问题,研究团队提出了一种全新的主从式架构(client-server),通过对 CPU 和 GPU 的动态调度,该架构可以将每步模拟时间压缩至数十毫秒量级。研究员们利用 AI2BMD 对各类蛋白的动力学和热力学进行了分析,分析结果展现了比经典模拟在蛋白质折叠自由能计算、构象空间探索等多个方面更好的结果。
生物分子模拟的技术创新
AI2BMD 在如下几个方面展示了与此前蛋白质分子经典模拟不同的创新性变化:
量子级精度:AI2BMD 通过可泛化“机器学习力场”——一种通过机器学习模型构建的原子和分子之间相互作用的模型,实现了量子级精度的全原子蛋白质动力学模拟。
图2:AI2BMD 和经典动力学模拟对不同蛋白质能量计算的误差对比
泛化性:AI2BMD 首次解决了机器学习力场在模拟蛋白质动力学方面的泛化挑战,展示了对各种蛋白质全原子模拟的鲁棒性。
全原子模拟的兼容性:相比于结合量子模拟和经典模拟的混合模拟技术,AI2BMD 将量子级精度的计算拓展到了整个蛋白质分子上,且不需要任何关于蛋白质的先验知识。这消除了蛋白质的量子模拟和经典模拟计算之间潜在的不兼容性,并将量子模拟区域的计算速度提高了几个数量级,使全原子蛋白质的近从头计算更接近现实。因此,AI2BMD 为许多下游应用铺平了道路,并为表征复杂生物分子动力学提供了新的视角。
高效性:AI2BMD 比 DFT 和其他量子模拟的速度快几个数量级。AI2BMD 支持超过1万个原子的蛋白质的量子级精度计算,使其成为众多学科领域中最快的 AI 驱动的分子动力学模拟程序之一。
图3:AI2BMD 与 DFT 以及其他 AI 驱动的动力学模拟软件速度的比较
构象探索的多元性:不同于经典模拟,AI2BMD 不会对键长、键角、二面角等施加任何约束。如图4,在用 AI2BMD 和经典模拟分别模拟蛋白质折叠和去折叠的过程中,AI2BMD 探索了经典模拟无法检测到的更多可能的构象空间。因此,AI2BMD 为研究药物靶标结合过程中蛋白质的柔性运动、酶催化、变构调节、内在无序蛋白等提供了更多的机会和可能。
图4:AI2BMD 与经典模拟在蛋白 Chignolin 折叠过程的模拟表现
生物实验的一致性:与经典模拟和混合模拟相比,AI2BMD 在J-耦合、焓变、热容、折叠自由能、熔化温度和 pKa 等指标上都展现出了与生物学实验更高的一致性。
应用与展望
在生物分子模拟中实现量子级精度是极具挑战性的,但它在揭示生物系统的奥秘以及设计新型生物材料和药物方面具有巨大潜力。这一突破证明了 AI for Science 的远见,即利用人工智能的能力革新科学探索。AI2BMD 实现了机器学习力场在分子动力学模拟应用中准确性、稳定性和泛化性等方面的平衡,在提升能量和原子受力计算精度的同时,AI2BMD 也带来对蛋白质各类性质更为准确的计算和估计。
AI2BMD 一个关键的应用场景是药物发现中高精度的靶点蛋白和药物分子之间的结合能计算。在2023年首届全球人工智能药物开发竞赛中,AI2BMD 和其 AI 力场 ViSNet 准确识别出了与新冠病毒多个靶点相结合的潜在药物分子,在所有任务中都取得了最佳预测,赢得了冠军。
2022年,微软研究院还与全球健康药物研发中心( Global Health Drug Discovery Institute, 简称 GHDDI)展开合作,将人工智能技术应用于药物设计。GHDDI 是盖茨基金会、北京市政府和清华大学联合成立的非营利机构,旨在研发用于治疗对中低收入国家(LMIC)造成严重影响的结核病和疟疾等疾病的药物。微软研究院正在与 GHDDI 密切合作,希望通过 AI2BMD 和其他人工智能技术加速药物发现过程。
AI2BMD 不仅推进了对科学问题的研究,还促进了药物发现、蛋白质设计和酶工程等领域的新的生物医学研究。利用 AI2BMD 准确、高效地表征蛋白质的动态特性正在推动科学技术创新发展,激发科学界对生物机理探索的广泛兴趣。
AI2BMD 研究团队主要成员