清华大学程功团队开发AI语言模型，预测新冠病毒突变和进化

来源：生物世界 2024-12-27 10:14

该研究开发的SVEP模型，显著提高了数据处理效率，减少了计算资源的消耗，使模型能够更有效地模拟组合突变。

清华大学程功团队在Signal Transduction and Targeted Therapy 期刊发表了题为：A predictive language model for SARS-CoV-2 evolution 的研究论文。

该研究开发了一种语言模型——突变进化预测语义模型（semantic model for variant evolution prediction， SVEP），利用规律性和随机性来预测可能流行的候选SARS-CoV-2突变株和重要突变。

由于人工智能（AI）技术的进步，生物医学正在经历一场革命性的变化。已有研究将病毒序列表示为字母字符串，并使用自然语言处理（NLP）评估了现有序列的语法和语义适合性。

由于突变病毒必须保持其传染性和进化适应性才能实现免疫逃逸，因此它必须遵守生物规则的“语法”。以类似的方式，可以将蛋白质基序和结构域类比为人类语言（例如单词、短语和句子），用于建模分析和预测。与所有其他物种一样，虽然不可避免地会发生突变，但SARS-CoV-2等病毒的蛋白质仍然有其较保守的位点和较不保守的位点。

通过分析突变发生的氨基酸特征，一些研究预测了保留传染性和适应性的突变，有可能揭示更常见的突变。例如，所有奥密克戎亚亚型（包括最近的JN.1和EG.5）均具有K417N替换，这有助于病毒逃逸体液免疫，提示了这一突变可能在未来的变异体中持续存在。然而，突变也会以随机模式发生，导致在短时间内发生特定突变。例如，在BA.1、BA.2、BA.4和BA.5奥密克戎亚型中很少发现F486V、K444T和F456L突变，但在随后流行的亚型（例如BQ.1和BQ.1.1）中迅速出现。

鉴于目前的研究在仅基于现有病毒序列预测突变方面存在局限性，该研究研究设计了一种精细的语言模型，命名为突变进化预测语义模型（semantic model for variant evolution prediction， SVEP），该模型结合了组合突变的保守规律性和非保守随机性，用于预测即将出现的SARS-CoV-2突变的序列。SVEP模型使我们能够预测即将出现的SARS-CoV-2突变株的序列，而不需要系统发育树、深度突变扫描（DMS）或三维蛋白结构信息。然后，研究团队使用包含SARS-CoV-2的刺突蛋白（S蛋白）的HIV-1假病毒检测法验证了该模型的预测能力。

具体来说，该研究开发的SVEP模型，利用规律性和随机性来预测可能占主导地位的SARS-CoV-2突变株和突变，构建了可用的S1序列的“语法框架”，以实现维度减少和语义表示，从而捕捉模型的潜在规律性。将突变谱（即突变频率）引入模型中，以引入随机性。

利用该模型，研究团队通过湿实验成功地识别并验证了几种显著增强病毒感染性和免疫逃逸的突变株。通过输入三个不同时间点的序列数据，该模型成功地在XBB.1.16、EG.5、JN.1和BA.2.86等毒株出现之前检测到了其循环株或关键突变。此外，该研究还预测了可能导致未来流行的先前未知的突变株。

有了数据验证和实验证据的支持，这项研究代表了一种快速响应、简洁且具有潜力的语言模型，理论上还可以应用于其他病毒病原体，预测病毒的进化并检测关键的热点突变位点，从而为可能出现的新兴突变株发出预警。

消除或缓解COVID-19和其他病毒大流行持续爆发的两大障碍是病原体不断突变的性质和疫苗开发的耗时过长，后者导致更新疫苗无法赶上病毒突变速率。

因此，预测可能流行的突变株对于疫苗与病毒突变保持同步至关重要，这与“红皇后假说”（Red Queen Hypothesis）类似，该假说认为，在环境条件稳定时，一个物种的任何进化改进都可能构成对其他物种的竞争压力，即使物理环境不变，种间关系也可能推动生物进化。

该研究开发的SVEP模型，显著提高了数据处理效率，减少了计算资源的消耗，使模型能够更有效地模拟组合突变。因此，该模型在及时预测新出现的病毒突变株方面具有独特优势，有助于疫苗开发的快速反应。此外，该研究结果提供了对未来SARS-CoV-2突变株的潜在见解，从而显著促进了COVID-19干预措施的开发，并可能扩展到其他潜在的大流行。

清华大学基础医学院程功教授、军事医学研究院魏从文研究员、清华大学博士后郭璇为共同通讯作者，清华大学博士生麻恩浩与郭璇博士为共同第一作者

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->