2021年终盘点：人工智能重磅级研究成果！

来源：本站原创 2021-01-02 17:00

时至岁末，转眼间2021年已经接近尾声，迎接我们的将是崭新的2022年，在即将过去的2021年里，科学家们在人工智能研究领域获得了多项重要研究成果，本文中，小编就对本年度科学家们在该研究领域取得的重磅级研究成果进行整理，分享给大家！

时至岁末，转眼间2021年已经接近尾声，迎接我们的将是崭新的2022年，在即将过去的2021年里，科学家们在人工智能研究领域获得了多项重要研究成果，本文中，小编就对本年度科学家们在该研究领域取得的重磅级研究成果进行整理，分享给大家！

参与转录、翻译和DNA修复的蛋白复合物。

图片来源：Science, 2021, doi:10.1126/science.abm4805。

doi：10.1126/science.abm4805

在一项新的研究中，来自美国德克萨斯大学西南医学中心和华盛顿大学等研究机构的研究人员利用人工智能（AI）和进化分析构建出真核生物蛋白相互作用的三维模型。他们首次鉴定出100多种可能的蛋白复合物，并为700多种以前未被描述的蛋白复合物提供了结构模型。对成对或成组的蛋白如何结合在一起执行细胞过程的深入了解可能会带来大量新的药物靶标。相关研究结果于2021年11月11日在线发表在Science期刊上。

Cong博士说，“我们的结果代表了结构生物学新时代的一个重大进展，计算在其中发挥着基本作用。”Cong博士解释说，蛋白经常以成对或成组的方式（形成蛋白复合物）运作以完成让有机体存活所需的每一项任务。虽然这些相互作用中的一些得到了很好的研究，但许多仍然是一个谜。构建全面的相互作用组（interactome）---即描述细胞中完整的分子相互作用---将阐明生物学的许多基本方面，并为科学家们开发促进或阻止这些相互作用的药物提供一个新起点。Cong博士工作于将生物信息学和生物学结合在一起的相互作用组学这一新兴领域。

直到最近，构建相互作用组的一个主要障碍是许多蛋白质结构的不确定性，这是科学家们半个世纪以来一直试图解决的问题。2020年和2021年，一家名为DeepMind的公司和Baker博士的实验室独立发布了两项名为AlphaFold（AF）和RoseTTAFold（RF）的人工智能技术，这两种技术根据产生蛋白的基因序列使用不同的策略来预测蛋白结构。

【2】Nat Mach Intell：新型人工智能技术或能预测人类机体的抗癌免疫力

doi：10.1038/s42256-021-00383-2

新抗原（neoantigens）在T细胞识别肿瘤细胞上扮演着关键角色，然而，仅有一小部分新抗原能真正引起T细胞反应，而且关于哪些新抗原能被哪些T细胞受体识别到的线索也非常少；近日，一篇发表在国际杂志Nature Machine Intelligence上题为“Deep learning-based prediction of the T cell receptor–antigen binding specificity”的研究报告中，来自德克萨斯大学西南医学中心等机构的科学家们通过研究开发了一种人工智能技术，其或能识别出被机体免疫系统所识别的癌细胞表面的肽类，即新抗原。

这种名为pMTnet的新型人工智能技术或有望帮助研究者开发新方法来预测癌症患者的治疗预后以及对免疫疗法的潜在反应。研究者Tao Wang教授表示，确定哪些新抗原能与T细胞受体结合，哪些不能结合似乎是一项不太可能完成的任务；但利用机器学习手段，我们就能取得重大进展。癌细胞中基因组的突变会导致其表面展现出不同的新抗原，其中一些新抗原就能被捕捉癌症迹象和外来入侵者的免疫T细胞所识别，从而就会促进癌细胞被宿主机体免疫系统所破坏，然而，其它新抗原似乎对T细胞隐身了，从而就会促进癌症受控生长。

对于免疫系统来讲，新抗原的存在是正常细胞和肿瘤细胞之间最大的区别之一，如果我们能弄清楚哪些新抗原能刺激机体的免疫反应，随后就能以多种方式来利用这一知识从而对抗癌症。能够预测哪些新抗原被T细胞所识别能够帮助科学家们开发个体化癌症疫苗，并设计更好的基于T细胞的疗法，或预测患者对其它免疫疗法的反应程度，但有数以万计的不同的新抗原，而且预测哪种新抗原能诱发T细胞反应的方法也被证明比较耗时，且在技术上具有一定的挑战性，成本也较为高昂。

【3】Nat Commun：新型人工智能血液检测技术或能高效识别出肺癌患者准确率高达90%以上！

doi：10.1038/s41467-021-24994-w

对机体游离DNA（cfDNA）评估的无创手段能为癌症检测和干预提供很好的机会；近日，一篇发表在国际杂志Nature Communications上题为“Detection and characterization of lung cancer using cell-free DNA fragmentomes”的研究报告中，来自约翰霍普金斯大学医学院等机构的科学家们通过研究开发了一种新型人工智能血液检测技术，其能在来自约800名患癌或不患癌个体的样本中检出超过90%的肺癌病例。

这种名为DELFI（对早期截留片段的DNA评估，DNA evaluation of fragments for early interception）的检测技术能发现循环在血液中的癌细胞脱落的DNA片段的独特模式，研究人员将这一技术应用到了来自丹麦、荷兰和美国的796名个体机体所采集的血样中，结果发现，DELFI技术能准确区分出肺癌患者和非肺癌患者。将这种检测技术与临床风险因素、蛋白质生物标志物结合起来，随后利用计算机断层扫描成像，DELFI技术就能帮助检测出94%的各期和各亚型的癌症患者；这其中就包括91%的早期或侵入性较低的I/II期癌症患者和96%的晚期III/IV期癌症患者。

肺癌是引发癌症死亡最常见的原因之一，每年全球大约会有200万人因肺癌而死亡；然而仅有不到6%的存在肺癌风险的美国人群会接受推荐的低剂量计算机断层扫描筛查，尽管预测可以避免数以万计的患者死亡，但全球接受筛查的人群少之又少；这或许是多种原因所造成的；包括对调查假阳性成像结果的潜在危害的担忧、辐射暴露或担心侵入性手术所产生的并发症等。很显然，开发替代性的无创检测技术或能改善高风险个体的癌症筛查，并最终改善一般人群的癌症筛查，而这是目前临床上迫切需要解决且未得到满足的一项挑战；研究者相信，针对肺癌的血液检测或液体活检或许是增强筛查工作的一个好方法，因为其很容易就能做到，而且可以被广泛使用，且具有一定的成本效益。

全链结构预测。

图片来源：Nature, 2021, doi:10.1038/s41586-021-03828-1。

【4】Nature：利用人工智能系统Alphafold发布最完整的预测人类蛋白质三维结构数据库

doi：10.1038/s41586-021-03828-1

2021年7月22日，DeepMind宣布与欧洲分子生物学实验室（EMBL）合作，为人类蛋白质组的预测蛋白质结构模型建立迄今为止最完整、最精确的数据库。这将涵盖人类基因组所表达的全部约20000种蛋白质，并且这些数据将免费向科学界公开提供。该数据库和人工智能系统为结构生物学家提供了探究蛋白质三维结构的强大的新工具，并提供了一个宝贵的数据宝库，可能开启未来的进步，并预示着人工智能驱动的生物学的新时代。

AlphaFold于2020年12月被蛋白质结构预测关键评估（Critical Assessment of protein Structure Prediction， CASP）的组织者认可为解决蛋白质结构预测这一具有50年历史的巨大挑战的方案，这对该领域是一个惊人的突破。AlphaFold蛋白质结构数据库建立在这一创新和几代科学家的发现之上，从早期的蛋白质成像和晶体学的先驱，到后来成千上万的花了数年时间对蛋白质进行实验的预测专家和结构生物学家。该数据库极大地扩展了积累的蛋白质结构知识，使科学家们可用的高精度人类蛋白质结构的数量增加了一倍以上。推进对这些构成生命的基石（即蛋白）的理解，将有助于各个领域的研究人员加速他们的工作。这些基石支撑着每种生物中的每一个生物过程。

Alphafold是去年12月宣布的支持这些结构预测的先进人工智能系统。2021年7月15日，Nature期刊公布了Alphafold最新高度创新版本背后的方法及其开放源代码（Nature， 2021， doi：10.1038/s41586-021-03819-2）。7月22日的最新成果以论文的形式发表在Nature期刊上，论文标题为“Highly accurate protein structure prediction for the human proteome”。该论文提供了构成人类蛋白质组的蛋白质的最完整图片，并发布了来自另外20种对生物研究很重要的有机体的蛋白质结构图片。

【5】Science：利用新型人工智能软件工具RoseTTAFold仅需10分钟就可准确地计算出蛋白质三维结构

doi：10.1126/science.abj8754

自从DeepMind在2020年的“结构预测关键评估（Critical Assessment of Structure Prediction）”（CASP14）会议上展示了该领域的显著进展以来，科学家们已经等待了数月，以便获得高度准确的蛋白质结构预测的机会。现在等待已经结束。

在一项新的研究中，来自美国多个研究机构的研究人员在很大程度上重现了DeepMind在这项重要任务上取得的性能。相关研究结果于2021年7月15日在线发表在Science期刊上。与DeepMind不同的是，这些作者开发的方法，他们称之为RoseTTAFold，可以免费使用。世界各地的科学家们如今正用它来建立蛋白质模型，以加速他们自己的研究。自7月以来，该程序已被140多个独立研究团队从GitHub下载。

蛋白质由一串串氨基酸组成，它们折叠成复杂的微观形状。这些独特的形状反过来又引起了生物体内几乎所有的化学过程。通过更好地了解蛋白质的形状，科学家们可以加快开发针对癌症、COVID-19和其他数千种健康疾病的新疗法。

论文通讯作者、华盛顿大学医学院生物化学教授、华盛顿大学医学院蛋白质设计研究所所长David Baker博士说，“在蛋白质设计研究所，这是忙碌的一年，设计了COVID-19药物和疫苗并将其投入临床试验，同时开了发RoseTTAFold用于高精度蛋白质结构预测。我很高兴科学界已经在使用RoseTTAFold服务程序来解决突出的生物学问题。”

【6】Sci Rep：新型人工智能技术或有望实时检测患者机体中的癌变组织

doi：10.1038/s41598-021-90089-7

将吲哚菁绿（ICG，indocyanine green）与近红外内窥镜技术（near-infrared endoscopy）技术相结合能够增强手术中组织微灌注的实时评估能力，同时还能动态揭示肿瘤组织与正常组织的区别，尤其是通过视频软件荧光分析的技术。近日，一篇发表在国际杂志Scientific Reports上题为“Digital dynamic discrimination of primary colorectal cancer using systemic indocyanine green with near-infrared endoscopy”的研究报告中，来自都柏林大学等机构的科学家们通过研究开发了一种新型外科技术，其能利用人工智能技术来在手术中实时检测癌变组织，这或能从根本上改善患者的治疗结局。

文章中，研究者所开发的新方法揭示了他们如何利用数码相机和染料相结合，在手术过程中来观察活体组织中组织的癌变过程。这或许就能帮助外科医生在手术中观察到癌症的确切范围，从而确保通过手术切除最大的癌变组织。研究者Ronan Cahill教授说道，如果癌症能被完全探查出来，那么其更有可能在一次手术中就被治愈，或者我们就能利用组合型疗法来确保降低病人的癌症复发风险以及并发症产生风险。

在介入过程中对癌症进行动态学数码判别意味着外科手术医生能更好地在第一时间为个别病人进行完善正确的介入。如今研究人员正在开发的工具能直接部署和使用软件来帮助用户轻松地解释结果，而并不必进一步发展专业性的知识。此前，外科医生在实验室对组织类型进行正式鉴别之前或许还需要相当长的等待时间。通过间隔放射成像评估对疗法反应时也会出现这种延迟；相比之下，本文中，研究人员共同开发的新方法不仅能通过外观，还能通过其行为来检测癌变组织，这就能使其与附近的正常组织有效区分开来。

图片来源：CC0 Public Domain

【7】Nature：新型人工智能系统或能改善多种人类复杂转移性癌症的诊断

doi：10.1038/s41586-021-03512-4

原发不明癌症（CUP，Cancer of unknown primary）是一组非常神秘的癌症诊断形式，即肿瘤起源的主要原发性位点并不能被确定，这对于科学家们而言是一项巨大的挑战，因为现代的治疗方法主要针对原发性肿瘤；最近的研究集中在使用基因组学和转录组学来识别肿瘤的起源；然而基因组的检测并不总是能奏效，而且在较低资源环境中缺乏一定的临床渗透性。

为了改善复杂转移性癌症患者的诊断，日前，一篇发表在国际杂志Nature上题为“AI-based pathology predicts origins for cancers of unknown primary”的研究报告中，来自哈佛医学院等机构的科学家们通过研究开发出了一种人工智能系统，其能利用常规获得的组织学切片来准确寻找转移性肿瘤的起源，同时还能产生一种“鉴别诊断”策略，用于对原发性不明癌症患者进行诊断。

在1%-2%的癌症病例中，研究人员无法确定肿瘤起源的原发性位点，由于很多现代癌症疗法都会靶向作用原发性肿瘤，针对原发不明癌症的诊断技术往往相对缺乏，而且患者的中位总生存期仅为2.7-16个月，为了能够进行更为具体的诊断，癌症患者通常必须接受广泛的诊断，其中包括额外的实验室检测、活组织检查和内窥镜检查程序，这无疑中就会延误患者的治疗。

这项研究中，研究人员开发的人工智能系统就能够帮助改善复杂转移性癌症患者的诊断，尤其是在低水平资源的地区；其能利用常规获得的组织切片来寻找转移性肿瘤的起源，同时还能针对原发不明原因的癌症患者产生一种鉴别诊断策略。文章通讯作者Faisal Mahmood指出，几乎每一名接受癌症诊断的患者都会有一张组织学切片，这在一百多年来一直是诊断的标准，本文研究就为科学家们提供了一种方法来利用普遍获得的数据和人工智能的强大力量，帮助改善这些通常需要大量诊断工作的复杂癌症病例的诊断。

【8】Nature：利用真实数据和人工智能评价肿瘤临床试验的入组标准取得进展

doi：10.1038/s41586-021-03430-5

在药物开发过程中，人类的临床试验是必要的步骤。临床试验的入组标准是导致临床试验低入组率的一个关键障碍。例如，研究发现约80%的晚期非小细胞肺癌患者不符合临床试验的标准。结果，86%的临床试验未能在目标时间内完成招募受试者。美国国家癌症研究所认为，临床试验入组标准任意排除患者，应简化和扩大。美国FDA也强调，在没有确凿的临床证据的情况下，某些人群通常被排除在临床试验之外。限制性临床试验并不能完全反映药物在批准后使用人群中的有效性和安全性。因此，非常需要有更快的临床试验累积和更好的普遍性的数据驱动的临床入组标准。然而，如何扩大临床入组标准仍然是一个重大挑战。即使是针对同一疾病的类似机制的试验，也常常使用不同的入组标准，越来越多的人关注如何使临床试验更有包容性，但临床试验入组标准的设计仍然具有挑战性。

数据驱动的算法结合真实世界的数据可以改善临床试验中的这些问题。人工智能可以筛选符合的患者，预测哪些患者更有可能参加试验，并从电子健康记录（EHR）中提取特征。近期，美国斯坦福大学的James Zou研究团队在Nature上发表了题为"Evaluating eligibility criteria of oncology trials using real-world data and AI"的论文。

美国斯坦福大学的James Zou研究团队使用Trial Pathfinder的计算框架，用真实世界的数据系统地评估了不同入组标准对癌症试验人群和结果的影响。研究人员应用Trial Pathfinder来模拟已完成的晚期非小细胞肺癌试验，数据来自美国全国范围的电子健康记录数据库，包括61094例晚期非小细胞肺癌患者。研究显示，许多共同入组标准，包括基于几个实验室值的排除，对试验危险比的影响最小。

【9】Nat Biomed Eng ：人工智能能够预测死亡风险

doi：10.1038/s41551-020-00667-9

Geisinger的研究人员发现，使用心脏超声心动图视频开发的计算机算法可以预测患者一年内的死亡率。研究结果表明，该算法（所谓基于机器学习或人工智能（AI）的范例）优于其他临床使用的预测指标，包括汇总队列方程式和Seattle Heart Failure得分。研究结果发表在Nature Biomedical Engineering杂志上。

“我们很高兴发现机器学习可以利用诸如医学图像和视频之类的非结构化数据集来改善各种临床预测模型，”该系共同资深作者兼助理教授Chris Haggerty博士说。

成像对大多数医学专业的治疗决策至关重要，并且已成为电子健康记录（EHR）中数据最丰富的组成部分之一。例如，心脏的单次超声可产生约3，000张图像，心脏病专家在众多其他诊断数据的背景下，只有有限的时间来解释这些图像。这为利用诸如机器学习之类的技术来管理和分析该数据并最终为医生提供智能计算机帮助创造了巨大的机会。

【10】Science子刊：利用人工智能预测哪些女性将可能患乳腺癌

doi：10.1126/scitranslmed.aba4373

一个由来自美国、瑞典的成员组成的研究小组表示已经开发出一种人工智能(artificial intelligence， AI)系统，可以在肿瘤出现前数年预测乳腺癌，并发表在Science Translational Medicine杂志上。近年来，人工智能应用已经在医学诊断领域取得了非凡的进展。它们可以通过训练数千个例子来寻找癌症或其他疾病，然后应用到实际案例中。在这项新的研究中，该团队描述了他们如何开发和训练他们的系统，以及在测试时它的工作效果如何。

多年来，科学家一直在寻找确定乳腺癌风险的方法。一些基因组学研究鉴定出一些列增加患病风险的变异。其他研究也使用各种因素和分析来预测风险，但迄今为止，它们还没有被证明足够准确。在这项新的研究中，研究人员使用了多年来多次筛查的女性的乳房X光照片数据。他们训练该系统来研究最终患上乳腺癌的女性的乳房X光片，然后利用该系统根据自己的乳房X光片数据来预测未来患乳腺癌的风险。

（生物谷Bioon.com）

生物谷2021年终盘点正在进行！更多精彩盘点！敬请期待！

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->