Nature Methods：GPT-4领衔，大语言模型（LLMs）推动基因功能探索新高度

来源：生物探索 2024-12-13 10:00

研究发现，LLMs不仅能够提供与现有数据库一致的基因功能描述，还在某些情况下提出了更广泛且合理的生物学解释。

近年来，随着组学技术（omics technologies）的迅猛发展，研究人员能够以前所未有的深度和广度揭示基因、蛋白质以及代谢物在不同生物学过程中的作用。然而，这些高通量技术所产生的大量数据也带来了前所未有的分析挑战。如何从这些复杂数据中识别出具有生物学意义的基因集功能，成为现代基因组学研究的重要课题之一。

传统的基因功能富集分析（functional enrichment analysis）是解读基因集的主流方法，依赖于如Gene Ontology (GO)、KEGG和Reactome等人工整理的数据库。这些数据库为基因的生物学功能分类提供了重要依据，但其局限性也日益显现。首先，这些数据库往往不完整，对新发现的基因或功能的覆盖不足；其次，对于尚未深入研究的基因簇，即使统计显著性结果明显，实际生物学关联仍可能不强。在这种背景下，研究人员需要借助文献和其他数据集，通过费时费力的方式推断基因集的潜在功能。

最近，生成式人工智能（Generative AI）的兴起为基因功能分析带来了全新的解决方案。大语言模型（Large Language Models, LLMs）作为生成式人工智能的核心技术，具备从庞大文献数据中学习复杂模式的能力，能够生成具有逻辑性的文本。研究者们已经开始探索利用LLMs提取基因组学数据中隐藏的信息，生成可能的功能假设，并验证其合理性。

11月28日Nature Methods的研究报道Evaluation of large language models for discovery of gene set function，首次系统性评估了五种前沿LLMs（包括GPT-4、Gemini Pro和Mixtral等）在基因功能发现中的表现。通过两项任务：文献整理基因功能的能力及组学数据中基因簇功能的探索，研究验证了LLMs在生物学功能分析中的潜力，并指出了其局限性。研究发现，LLMs不仅能够提供与现有数据库一致的基因功能描述，还在某些情况下提出了更广泛且合理的生物学解释。这一发现为LLMs在基因组学中的应用开辟了新的可能性，也为未来的智能化科学研究奠定了基础。

为了探讨大语言模型（Large Language Models, LLMs）在基因集功能发现中的潜力，该研究设计了一套系统化的评估流程。研究选取了五种代表性LLMs，包括GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct和Llama2 70b，旨在比较它们在基因功能命名与分析中的表现。该研究设计了两项核心任务：

任务一：文献整理基因功能的复现能力

研究从GO数据库中随机抽取了1000个基因集，覆盖广泛的生物学过程（Biological Process, GO-BP）。通过语义相似性（semantic similarity）指标，研究测试了五种LLMs（GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct、Llama2 70b）能否生成与GO命名高度匹配的基因功能描述。模型通过精心设计的提示（prompts）生成分析报告，包括基因功能描述、支持性文本和自信度评分（confidence score）。这些评分提供了模型对自身答案可信度的量化，帮助研究人员判断结果的可靠性。

任务二：组学数据中基因簇功能的探索能力

在第二项任务中，研究聚焦于实际生物学数据中的基因簇，包括药物处理（126个基因簇）、病毒感染（48个基因簇）和癌症蛋白互作（126个基因簇）等，覆盖从转录组到蛋白质组的广泛领域。每个基因簇都被输入LLMs以生成功能描述，同时与传统的功能富集分析工具（如g:Profiler）进行比较。研究还引入了基因集特异性（specificity）指标，用于评估功能描述与基因簇之间的覆盖程度。

为了确保结果的可靠性，研究采用了多层验证机制。首先，模型生成的分析报告经过人工科学家逐句验证，以筛查潜在的“幻觉”（hallucination）问题，即生成看似合理但无法验证的陈述。其次，研究开发了一种自动化引文系统，要求模型为关键结论附上参考文献，进一步增强输出的可信度。通过这些方法，研究不仅全面展示了LLMs在基因功能分析中的能力，还探索了其在生成具有科学依据的新假设方面的潜力。

大语言模型（LLMs）在基因集功能分析中的方法流程、任务评估和模型性能比较（Credit: Nature Methods）

(a) 提示设计与功能生成流程

图中左侧的框架说明了研究所用的 LLM 提示（prompt）设计，强调提示内容对生成结果的重要性。提示包括系统内容、详细的推理链条指令，以及一个示例基因集查询。研究通过在提示的“用户输入字段”中插入具体的基因列表，让模型生成三个核心输出：

功能名称：对基因集功能的简洁描述；

支持性分析：模型生成的功能注释的详细解析；

自信度评分（confidence score）：模型对自身输出的信心评估。

右侧的流程图清晰展示了这一数据处理和分析生成的过程。

(b) LLMs 与 Gene Ontology (GO) 命名的对比

展示了任务 1 的评估结果。研究比较了五种 LLM（GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct 和 Llama2 70b）生成的基因功能名称与 GO 数据库中人工注释名称的匹配程度。GPT-4 的表现最为突出，显示其在功能恢复任务中优于其他模型。

任务 2 的结果展示了 GPT-4 在处理真实组学数据中的表现：模型根据不同来源（如药物处理、病毒感染、癌症蛋白互作）的基因集生成功能描述。GPT-4 在功能分析的创新性和准确性评分上表现优异。

基因功能的复现能力

在复现 GO 基因功能任务中，GPT-4 展现了显著优势。其生成的功能描述在 73% 的情况下与 GO 标准命名高度相似，并在 60% 的情况下达到语义相似性得分的 95 百分位以上。这表明 GPT-4 不仅能够有效学习已有数据，还可以生成高度贴合的功能描述。例如，对于 GO 术语“DNA 损伤反应和修复”，GPT-4 的输出“DNA 损伤反应和修复”得到了 0.54 的高语义相似性评分，超过了 99% 的 GO 数据库其他条目。

GPT-4的功能描述更具特异性

在任务二的基因簇分析中，GPT-4生成的功能描述比传统工具更具特异性。例如，在一个涉及癌症蛋白互作的基因簇中，GPT-4提出了“Cullin-RING泛素连接酶（CRL）复合物的调控”作为功能描述。这一描述覆盖了16个基因簇成员中的多数，并结合文献支持了其对蛋白质降解和细胞稳态的作用。相比之下，传统工具虽然能够生成更通用的描述，但缺乏对基因簇中特定基因的细化解释。

LLMs能够有效评估功能描述的可信度

GPT-4引入了自信度评分机制，能够通过分析基因间的功能一致性评估命名的可靠性。在面对“随机基因集”或“掺杂基因集”时，GPT-4在87%的情况下拒绝生成功能描述，表明其在区分无关基因方面具有显著优势。这种保守的策略使得GPT-4的输出更加可信。

分析文本支持性强，幻觉问题可控

GPT-4生成的分析文本在大多数情况下是可验证的。在研究中，403条分析语句中有88%被验证为完全准确。尽管仍有部分“幻觉”（如错误分类或推测性陈述），但通过结合文献引用，这些问题得到了较大程度的缓解。此外，研究开发的自动化引文系统为每一条核心结论提供了文献支持，进一步增强了输出的可信度。

基因组学研究的辅助工具

大语言模型（Large Language Models, LLMs）在该研究中的表现表明，这类生成式人工智能工具在基因功能分析中具有巨大的潜力。通过两项核心任务的评估，研究验证了 LLMs 不仅能够从文献和已有数据中提取功能信息，还可以生成具有科学依据的新功能假设。特别是 GPT-4，它在功能描述的准确性、特异性和上下文关联性上表现出色，为传统功能富集分析工具提供了一种有力的补充。

然而，LLMs 作为基因功能分析的工具，当前仍处于辅助地位。尽管其在基因簇功能命名和分析方面表现优异，但其能力也有显著的局限性。例如，在处理无意义的随机基因集时，GPT-4 的“自信度拒绝”机制虽显示了较高的保守性，但仍有部分输出存在“幻觉”（hallucination）问题，生成了看似合理但无法验证的内容。这表明，在实际应用中，研究人员需要对其生成的结果进行仔细审查，确保研究的科学严谨性。

LLMs 的优势：从被动工具到主动发现

该研究的一项重要发现是，LLMs 不仅能够匹配已有的基因功能注释，还能在一定程度上提出新的生物学假设。例如，GPT-4 对基因簇功能的描述经常结合文献，揭示了特定基因在复杂生物学网络中的作用。例如，在分析涉及 Cullin-RING 泛素连接酶复合物（CRL）的基因簇时，GPT-4 不仅捕捉了这一经典功能，还结合更多基因信息，提出了更广泛的潜在调控机制。这样的功能扩展为研究人员提供了额外的研究方向。

相比之下，传统功能富集分析工具（如 g:Profiler）更多地依赖统计显著性，这种方法虽然可以快速筛选潜在功能，但容易生成过于宽泛的注释，缺乏对具体基因簇特性的细致分析。在这一点上，LLMs 的文本生成能力能够为研究人员提供更丰富的上下文信息，使分析更加全面和有深度。

LLMs 的局限性：从“幻觉”到实际应用的挑战

尽管 LLMs 展现了巨大的潜力，其输出的可靠性仍然是科学研究中的重要挑战。该研究发现，在生成的分析文本中，有 12% 的陈述无法被验证。这些问题主要表现为两种类型：一是功能分类错误，例如将某些基因归入了不相关的生物过程；二是未经验证的推测性陈述，如将某些基因与尚未明确的分子机制联系起来。

此外，LLMs 的输出仍然受到提示（prompt）的影响。研究表明，优化提示内容可以显著提升模型的输出质量。因此，未来的研究需要系统化地设计和优化提示策略，结合具体的实验背景，确保生成结果的准确性和可解释性。

另一个限制是 LLMs 对动态和最新数据的整合能力不足。目前，LLMs 的训练数据主要来自于历史文献和已有知识，这使得它在面对新的实验结果或尚未广泛研究的领域时表现有限。为了克服这一问题，可以结合动态更新的数据库和实时文献检索机制，使 LLMs 能够更好地适应快速变化的科学环境。

综上，该研究通过系统评估五种大语言模型（LLMs），首次明确展示了它们在基因功能分析中的潜力和局限性。不仅验证了 LLMs 在处理生物学数据时的精准性，还揭示了它们的创新能力，尤其是在尚未被传统数据库注释的基因簇功能发现中，体现出更高的特异性和上下文相关性。该研究也突破了现有基因功能分析工具的局限。LLMs 的引入为这一领域提供了一种创新性解决方案，能够结合文献和逻辑推理生成更细致、可靠的功能假设。这不仅帮助研究人员更高效地挖掘数据价值，还为智能化科学研究开辟了新途径。

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->