新功能、新界面、新体验,扫描即可下载生物谷APP!
首页 » 生物研究 » Nat Methods:计算神经网络驱动下一代“蛋白质预测技术”的诞生

Nat Methods:计算神经网络驱动下一代“蛋白质预测技术”的诞生

来源:本站原创 2019-10-23 02:53

2019年10月23日 讯 /生物谷BIOON/ --一直以来,合成生物学家一直试图通过改变自然界中存在的蛋白质,甚至是从头合成蛋白质,将其进化的途径掌握在自己手中。通过人工构建不同类型的蛋白,可以设计药物,感测生物信号,以及生产高价值化学品,等等。

为了设计蛋白质,科学家们使用了两种截然不同的方法。其一,在“定向进化”中,通过随机改变编码天然蛋白质的氨基酸残基的一级序列,并筛选具有所需活性的变体。其二,通过“合理设计”,即根据其实际3D结构对蛋白质进行建模,以识别可能影响蛋白质功能的氨基酸。然而,“定向进化”策略只能覆盖整个蛋白质序列库的很小一部分,而“合理设计”策略则依赖于蛋白质3D结构的解析,这也是十分困难的部分。

(图片来源:Www.pixabay.com)

如今,由哈佛大学George Church博士领导的研究团队创建了第三种工程化蛋白质的方法,该方法利用深度学习直接从其氨基酸序列中提取蛋白质的基本特征,而无需其他信息。该方法可稳健地预测天然的,以及从头设计的蛋白质的功能,并将计算机程序代替费时费力的人力实验,与现有方法相比,该新方法可将成本降低两个数量级之多。相关结果发表在《nature methods》杂志上。

文章作者之一Surojit Biswas说:“蛋白质设计过程需要通过广泛了解蛋白质的特征以了解其设计原理。我们通过神经网络在公共数据库中系统地寻找大量原始蛋白质序列中的模式,并且以一种无偏见的方式学习这些规则。通过神经网络许的研究,我们不仅学到了许多以前已知的规则,除此之外,还发现了蛋白质的许多新功能。”

研究人员将这种新型的蛋白质设计原则命名为“统一表示”(UniRep)。它可以比喻为学习一种语言,在这种语言中,学习者可以对由字母和单词的字符串构成的复杂句子建立语义理解。在蛋白质语言中,UniRep经过培训,可以探索公共数据库中包含的蛋白质序列中的所有可能性,从而从其第一个氨基酸开始预测蛋白质序列中的下一个氨基酸。重要的是,在继续处理蛋白质的其余部分(一次一个氨基酸)的同时,UniRep制作并利用了当前挖掘得到的蛋白质序列的内部“摘要”。再加上对个别顺序和结构特征的考虑,最后将这些信息以及其它蛋白质的结果反馈算法本身,UniRep能够逐渐优化对“摘要”部分的理解,从而随着时间的推移提高了其预测能力。

“我们对UniRep进行了大约3周的约2400万种蛋白质序列“培训”,以使其能够预测序列及其与诸如蛋白质稳定性,二级结构以及内部序列对蛋白质内周围溶剂的可及性之类的特性之间的联系,”文章作者之一Grigory Khimuly说道“ UniRep准确地描述了来自多种不同类型的蛋白质家族的特征。”

该团队将UniRep进一步优化,将其用作预测单个氨基酸取代如何影响蛋白质功能的工具。该神经网络以多种生物学功能(包括酶催化,DNA结合,分子传感)可靠地量化了8种不同蛋白质中单个氨基酸突变的影响。此外,他们使用GFP作为模型,并使用UniRep分析该蛋白的64,800个变异体,每个变异体各自带有1-12个突变。

Church博士说:“与其他策略相比,我们的数据驱动方法在预测蛋白质的多种特性方面达到了最先进的性能,这将使它成为蛋白质工程师真正能够使用的下一代工具。”(生物谷Bioon.com)

资讯出处:Listening in to how proteins talk and learning their language

原始出处:Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church. Unified rational protein engineering with sequence-based deep representation learning. Nature Methods, 2019; DOI: 10.1038/s41592-019-0598-1
版权声明:本文系生物谷原创编译整理,未经本网站授权不得转载和使用。如需获取授权,请点击
温馨提示:87%用户都在生物谷APP上阅读,扫描立刻下载! 天天精彩!


相关标签

最新会议 培训班 期刊库