打开APP

AI+生命=?

  1. AlphaFold,AlphaFold2,蛋白质结构,天壤

来源:生物谷 2021-12-25 16:34

目前,生命科学领域正在不断孕育新的技术革命,正如施一公所述“人类蛋白质组里能够被预测的以单个蛋白为单位的空间三维结构,已经基本都被 AlphaFold 预测了。总体而言,预测结果可信、也比较准确。这是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。”毫无疑问,运用AI技术预测蛋白质结构生物技术的又一成功革命,生命充满未知,技术创新无限。
AI预测蛋白质结构和蛋白质预测者入选年度十大突破科学发现和人物
 
2021年收官之际,蛋白质结构人工智能技术预测和蛋白质预测者John Jumper分别被《科学》和《自然》评为年度十大突破科学发现和年度人物。
 
利用人工智能进行蛋白质的结构预测技术,是基于深度学习的技术,有望大大加快科学发现的速度,对涉及多种疾病的研究来说可能也意义非凡。蛋白质的许多结构与人类健康直接相关,有些蛋白质与脂质代谢、炎症性疾病和癌细胞生长相关,也因此被《科学》评为本年度十大突破科学发现[1]。
 
如果确定蛋白质的结构像网络搜索一样简单,那将意味着什么?蛋白质预测者John Jumper博士被《自然》评为年度十大人物,他在2017年加入Alphabet旗下的人工智能实验室Deepmind,通过构建合适的算法来预测蛋白质的3D形状。他领导研发的AlphaFold最早在2018年的国际蛋白质结构预测竞赛(CASP)上亮相。而在去年的CASP上,DeepMind的AlphaFold2系统表现惊艳,在接受检验的近100个蛋白靶点中,AlphaFold2对三分之二的蛋白靶点给出的预测结构与实验手段获得的结构相差无几[2]。 
 
蛋白质结构预测瓶颈,如何破?
 
蛋白质是生命的基本组成部分,它的功能几乎是所有生物过程的基础,且与其三维形状直接相关。近50年来,科学家们一直在努力研究这些结构是如何折叠的,传统的方法结构生物学家为探测蛋白质结构发展出了三大实验手段:X射线晶体学、核磁共振和冷冻电镜。但实验方法成本高、周期长。就目前人类已知有数十亿蛋白质序列,还原出结构的却只有十几万。生物学发展因此颇受掣肘[3]。
 
2005年,《科学》杂志在创刊125周年之际,将预测蛋白质结构列为125个最具挑战性的科学问题之一[4]。
 
然而,随着AI技术的发展,AI能力逐渐被各行业内化,其中“AI+生命科学”应用的创新结合迎来了全新格局。就在今年,被称为AlphaFold(由谷歌收购的“深层思维”公司开发)和RoseTTAFold的两个人工智能完成了一场史无前例的科学革命——它们能够根据蛋白质包含的氨基酸,准确、快速地预测蛋白质的结构,能在几天、甚至以分钟级预测出具有高置信度的蛋白质结构,这在以前甚至要花费数十年时间。
 
AlphaFold和RoseTTAFold是“AI+生命科学”的创新结合与应用,是继大众最先对人工智能的实体认知——AlphaGo之后的跨领域版本——“生化版”AlphaGo。这也是AI对生命科学领域的重大贡献。生物物理学家、西湖大学校长施一公曾表示 “这是人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一。” “这是一个了不起的突破。” 诺贝尔化学奖得主、复旦大学复杂体系多尺度研究院名誉院长迈克尔·莱维特表示。结构生物学家Petr Leiman评论道:“我用着价值一千万美元的电镜努力了好几年,Alphafold2竟然一下就算出来了”。马普所的演化生物研究所所长Andrei Lupas评论称:“它会改变一切。”
 
显而易见,AI预测蛋白质结构这项技术,即是一项基础性的科研工作,也是人类首次可以用微观的方式精准地模拟到蛋白质变化层面的工作,从此之后诸如疾病的认识、靶点的寻找,药物的制造等工作的进程都有机会加速,甚至重塑。
 
 
“AI+生命”技术应用,我国已进入世界第一梯队
 

今年,中国工程院外籍院士、美国艺术与科学院院士、澳洲国家工程院院士、清华智能产业研究院院长张亚勤在人工智能赋能生命科学的报告中表示“最好的人工智能赋能生命科学的例子就是蛋白质预测模型 AlphaFold2。”
 
AlphaFold2 成功预测蛋白质结构方向是科学界的重大突破,但是围绕蛋白质结构功能问题的实际落地解决方案仍然需要AI技术的更大赋能。
 
当下,可以媲美AlphaFold2的,有华盛顿大学医学院蛋白质设计研究所与哈佛、剑桥、德克萨斯大学西南医学中心、劳伦斯伯克利国家实验室联手,共同研发的基于深度学习的蛋白质结构预测工具——RoseTTAFold[7],以及深势科技团队推出的蛋白质结构预测工具——Uni-Fold、天壤XLab团队自主研发的——TRFold。
 
TRFold是由我国深入研究生物科技的AI公司天壤自研的深度学习蛋白质折叠预测平台,该预测平台在基于CASP14(2020年第14届国际蛋白质结构预测竞赛)蛋白质测试集的评估中获得82.7/100的成绩,位列全球第二。
 


图注:基于CASP14蛋白质结构预测的测试数据集进行内测,TRFold获得82.7分,仅次于 全球第一名AlphaFold2
 
天壤 XLab 基于第十四届国际蛋白质结构预测竞赛(CASP14)的蛋白质测试集进行企业内测,TRFold 取得 82.7 分(TM-Score,评估蛋白质结构拓扑相似性的指标),目前是国内所有公开蛋白质结构预测模型中最好成绩,已超过 华盛顿大学Baker Lab 在 GitHub 公布的 RoseTTAFold 预测结果的 81.3 分,仅次于 全球第一名AlphaFold2。
 
这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,标志着我国计算生物学领域的表现已经处于世界第一梯队。
 
在CASP14期间,CASP官方发起了一次针对新型冠状病毒肺炎(COVID-19)的蛋白质结构预测,天壤XLab基于TRFold提交的模型(nsp6-D2)预测结果被CASP选为六个“最具可信度模型”之一。[6]
 
目前,生命科学领域正在不断孕育新的技术革命,正如施一公所述“人类蛋白质组里能够被预测的以单个蛋白为单位的空间三维结构,已经基本都被 AlphaFold 预测了。总体而言,预测结果可信、也比较准确。这是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。”毫无疑问,运用AI技术预测蛋白质结构生物技术的又一成功革命,生命充满未知,技术创新无限。
 
参考资料:
[1]《科学》公布2021年度十大科学突破(https://baijiahao.baidu.com/s?id=1719652669626665999&wfr=spider&for=pc)
[2]刚刚,《自然》年度十大人物揭晓!我国科学家张荣桥入选(https://mp.weixin.qq.com/s/vteovon-rrPiF_2IPfH0-A)
[3]AI角逐生命科学的新风口中国暂时占住了(https://baijiahao.baidu.com/s?id=1718917359286274147&wfr=spider&for=pc)
[4]“生化版”阿尔法狗来了,生命密码的马奇诺防线崩了(https://m.thepaper.cn/baijiahao_10255129)
[5]张亚勤:未来 10 年 AI+ 生物制药大有可为,我们正开展破壁计划(http://www.myzaker.com/article/61c02b34b15ec003d52e7f4e)
[6]特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意(https://baijiahao.baidu.com/s?id=1719026323426984879&wfr=spider&for=pc)
[7]谷歌提前开源AlphaFold 2!Nature、Science同时公开两大蛋白质结构预测工具(https://new.qq.com/omn/20210716/20210716A05EI600.html)

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->