蛋白质结构预测属于生物学领域的一项重要研究,而 AI 中的深度学习能够帮助其上到一个新的台阶。研究人员只需要提供输入和输出的数据,就能训练出自主学习预测过程的深度学习模型。不过,这类模型往往非常庞大,参数数量能达到上亿个,人脑很难真正理解如此复杂的模型,只能从直观上对其有一定的理解,做不到定量分析模型。
为此,美国芝加哥丰田计算技术研究所的许锦波教授团队开发了一个大型的深度学习卷积残差神经网络 ResNet,其不须共进化(co-evolution)信息也能完成高水平的蛋白质结构预测,相关论文以《不考虑协同进化信息的深度学习改进蛋白质结构预测》(Improved protein structure prediction by deep learning irrespective of co-evolution information)为题发表在 Nature Machine Intelligence 上。
从蛋白质角度来说,共进化是指如果两个氨基酸在三维空间当中靠得比较近,其中一个氨基酸变异了,另一个氨基酸也会发生变异,以保证蛋白质结构的稳定性。许教授之前开发的蛋白质结构预测算法主要利用的就是共进化信息,该信息对自然界的蛋白质来说是必要的。
而该团队此次不使用共进化信息,针对的是另外两种应用场景,一是人工设计的蛋白质,二是两个或者三个蛋白质的结合体。
此外,研究结果表明,ResNet 并不是简单地去除共进化信号中的噪音,而是可以学习重要的蛋白质序列结构关系。这对蛋白质设计和工程有重要意义,尤其是在无法获得共进化的情况下。
随后,他们又在另一项研究中使用图神经网络提出新的蛋白质预测模型优化策略 GNNRefine,该策略不仅代替了需要耗费过多计算资源的传统物理学方法,而且在蛋白质模型优化方面胜过了 ResNet。
那么 ,为什么深度学习能够在蛋白质结构预测领域取得成功呢?近日,在未来论坛主办的 2022《理解未来》首期科学讲座——“AI + 蛋白质结构和功能预测”活动中,许锦波教授分析了相关原因。
他指出,深度学习基于的是现有的理论基础,特别是进化论;而同一个家族的蛋白质结构是相似的,同一个蛋白质空间相邻的氨基酸是互相影响、共同进化的。因此,在好的理论基础及充足训练数据的帮助下,研究人员可以开发出非常有效的深度学习算法。他们之所以现在能够把蛋白质结构预测做好,就是因为其有大量的蛋白质序列和一定数量的蛋白质结构,可以根据同一个家族里的蛋白质的进化关系推断原子在空间中的距离,并学习到同一个蛋白质中氨基酸的共进化关系。
事实上,不止蛋白质结构预测,当前,AI 在生物学上的应用已越来越广泛。许锦波表示,生物学领域有太多没有解决的问题,而AI能够通过已有的生物学数据理解、解决并且优化这些问题。未来,AI 还将在蛋白质的优化和设计、基因编辑、基因组学、药物递送等方面发光发热。
除学术类的应用外,AI 与生物学的结合也在现实生活中发挥了非常大的作用,如可用于疾病诊断的 AI 影像、自动化 AI 制药等。
需要注意的是,在这些过程中,AI 也需要克服一些问题。例如,虽然在 AI 做结构预测做得很好,但是有些预测出的结构并不是那么准确,还是有不少错误,所以在运用 AI 方法时最好能够把它跟一些其他的数据做交叉验证,以保证最终结果的可靠性。
此外,许锦波谈到,目前中国在 AI+生物学计算方面发展较不错,有许多把AI跟生物技术结合得很好的计算生物学家,政府现在还设立了 AI for Science方面的专项基金。未来要想有进一步提升的话,政府或者民间组织可以提供更多的支持,且在培养学生上做一些工作,从本科时期就开始给他们打基础,让学生既有计算方面的学科背景又有科学背景。
据了解,许锦波是在 2001 年进入到蛋白质预测领域。他本科时期研究的是计算机算法,硕士期间研究的是计算机系统。读博时,他在导师的提议下开始研究蛋白质折叠问题,并在 2002 年的一场蛋白质结构预测比赛中自动组取得了最好的成绩,后来就一直在持续做这方面的研究。
去年,许锦波以访问学者的身份正式回国。当前,他正在做创业方面的事情,打算将其学术成果产业化。他表示,中国非常重视 AI 和生物医疗产业,支持科研人员将学术成果产业化,“我希望做一些真正原创且能落地的东西出来,推动科研与产业化的融合发展。”
许锦波称,生物学里的很多问题还是很难的,不是用到了 AI 就能快速解决,很多时候还是要真正理解这些问题的本质,而他们团队的丰富科研经验与全面背景是其在业界的一个优势。
-End-
参考:
1、Jinbo Xu et al. Improved protein structure prediction by deep learning irrespective of co-evolution information. Nature Machine Intelligence 3, pages601–609(2021)
https://doi.org/10.1038/s42256-021-00348-5