Nature Biotechnology：首张人体组织特异性蛋白质地图，精准解锁疾病基因新靶点！

来源：生物探索 2025-05-07 14:46

这项研究发现蛋白质共丰度是一个极其强大的预测指标，它能非常准确地识别蛋白质之间的关联，甚至在某些方面优于传统的蛋白质共分级（Protein cofractionation）方法。

我们身体里的每个细胞都是一个微缩宇宙，里面运行着无数精密复杂的系统。这些系统的核心，是千姿百态的蛋白质（Proteins），它们就像宇宙中的不同星球，执行着各自独特的任务，但更重要的是，它们通过相互作用（Protein-protein interactions）形成复杂的蛋白质网络（Protein networks），共同维持着宇宙的和谐运转。这些蛋白质“朋友圈”的面貌，直接决定了细胞的功能和状态，一旦出现问题，往往是疾病的开端。

研究人员多年来绘制了大量蛋白质相互作用图谱，试图揭示生命的奥秘。然而，这些图谱大多像是一张笼统的世界社交地图，无法告诉你具体某个城市（比如肝脏或大脑）里的蛋白质关系是怎样的。因为蛋白质的“社交圈”并非一成不变，它会随着所处的组织（Tissue）、细胞类型甚至细胞状态而高度特异化（Tissue specificity）。缺失了这种“情境”信息，我们对疾病发生机制的理解就像是隔靴搔痒。

有没有可能绘制一张真正精细到组织的蛋白质“朋友圈”地图呢？5月2日发表在《Nature Biotechnology》上的重磅研究“A tissue-specific atlas of protein–protein associations enables prioritization of candidate disease genes”，正带来了这样的突破。研究团队创造性地利用大量数据——来自11种人体组织的7,811份蛋白质组学样本的蛋白质丰度信息，通过分析蛋白质在不同样本中的共丰度（Protein coabundance），构建了一份前所未有的组织特异性蛋白质关联图谱（A tissue-specific atlas of protein-protein associations）。

令人惊喜的是，这项研究发现蛋白质共丰度是一个极其强大的预测指标，它能非常准确地识别蛋白质之间的关联，甚至在某些方面优于传统的蛋白质共分级（Protein cofractionation）方法。更重要的是，图谱清晰地揭示了蛋白质关联存在广泛的组织特异性——据估计，超过25%的关联是特定于某个组织的！而且，这种差异的驱动力远不止简单的基因表达，更多来自于组织或细胞特有的细胞组分（Cellular components）变化。

这张详细的图谱不仅能帮助我们更深入地理解不同组织中细胞结构的独特组成，更提供了一个强大的新工具：它可以帮助我们以前所未有的精度，在复杂的遗传关联位点中，优先筛选出最可能导致疾病的那个“致病基因”（Disease gene），特别是在特定组织相关的疾病中。

海量样本汇聚：构建蛋白质关联的基石

要绘制一张宏大的图谱，首先需要海量的数据。这项研究收集了来自50项已发表研究的蛋白质组学数据，这些研究涵盖了14种人类组织。样本总数高达7,811份，其中包括来自肿瘤的5,726份样本和来自邻近健康组织的2,085份样本。这些样本为研究团队提供了丰富的蛋白质丰度信息。为了进行更全面的比较，研究人员还为其中约2,900份肿瘤样本和722份健康样本收集了配对的mRNA表达数据。

研究人员利用蛋白质共丰度来估计蛋白质对（Protein pair）之间发生关联的可能性。具体来说，他们计算了同一研究中至少在30个样本中都能检测到的一对蛋白质的丰度曲线之间的皮尔森相关系数（Pearson correlation）。相关性越强，说明这对蛋白质共丰度的趋势越一致，它们也就越有可能存在功能关联。为了将这些相关系数转化为易于理解的概率，研究团队使用了逻辑模型（Logistic model）。他们利用已知的稳定蛋白质复合体（比如来自CORUM数据库的数据）作为阳性样本（Ground-truth positives），也就是已知有相互作用的蛋白质对。通过训练逻辑模型，研究人员可以将任何一对蛋白质的共丰度相关系数转化为一个介于0到1之间的概率，表示这对蛋白质发生关联的可能性。

这项研究总共汇集了来自不同研究的超过110万个蛋白质对的关联概率，这些数据为构建组织特异性图谱奠定了坚实的基础。

共丰度：预测蛋白质关联的有力工具

那么，利用蛋白质共丰度来预测蛋白质关联，效果究竟如何呢？研究团队将这种方法与另外两种常用方法进行了比较：mRNA共表达和蛋白质共分级（Protein cofractionation）。蛋白质共分级是一种通过分离细胞组分并分析蛋白质在不同组分中的丰度来推断相互作用的方法，通常被认为是预测物理相互作用的黄金标准之一。

为了评估这些方法的性能，研究人员同样使用CORUM数据库中的已知蛋白质复合体成员作为阳性样本，计算了受试者工作特征曲线下面积（Area Under the Curve, AUC）。AUC是一个衡量分类器性能的指标，值越高表示预测准确性越高。

结果显示，基于蛋白质共丰度的关联概率在回收已知蛋白质复合体成员方面的表现最优，其平均AUC达到了0.80（标准误 ± 0.01）。这显著优于蛋白质共分级数据（平均AUC 0.69 ± 0.01）和mRNA共表达数据（平均AUC 0.70 ± 0.01）。这一发现非常有意义，它表明仅仅通过蛋白质在不同样本中的丰度变化，就能相当准确地推断出它们的功能关联。

更有趣的是，研究人员尝试将mRNA和蛋白质丰度数据结合起来，但这种组合并没有显著提高召回已知复合体成员的性能（平均AUC 0.82 ± 0.01），与单独使用蛋白质共丰度相比，差异不具有统计学意义（P = 0.15）。此外，即使在计算蛋白质共丰度估计之前，先从蛋白质丰度中去除基因表达的影响，得到的AUC也仅轻微下降到0.78（标准误 ± 0.01），差异也不具有统计学意义（P= 0.18）。这强烈暗示，蛋白质共丰度的预测能力主要来自于转录后过程（Post-transcriptional processes）的影响，而不是简单的基因表达水平变化。这意味着，蛋白质的降解、修饰或复合体组装动力学等因素，可能比基因表达本身更能驱动蛋白质之间的共丰度关系，进而反映它们的功能关联。

图谱初显：组织特异性关联的面貌

既然蛋白质共丰度能够有效地预测蛋白质关联，并且主要反映了转录后过程，那么这些关联是否具有组织特异性呢？研究人员首先通过基因表达数据确认，蛋白质关联概率并非简单地由细胞类型组成（Cell-type composition）差异引起。随后，他们分析了来自所有研究的1,115,405个关联概率，发现来自同一组织的重复队列通常会聚集在一起。例如，来自不同血液样本研究的数据会聚类，来自不同脑组织样本的数据会聚类，来自不同肝脏样本和肺脏样本的数据也表现出类似的聚类模式。这有力地证明了组织来源是导致不同研究队列之间蛋白质关联差异的主要驱动因素。在比较同一组织（AUC 0.71 ± 0.01）和不同组织（AUC 0.56 ± 0.00）对恢复组织特异性关联的能力时，这种差异在所有组织中都具有统计学意义（P < 0.05）。

基于不同队列聚类的结果，研究团队将来自同一组织的重复队列的关联概率进行聚合，为11个人体组织计算了单一的组织级关联得分（Association scores）。这种聚合方法被证明是有效的，因为它在恢复已知蛋白质相互作用方面的表现优于绝大多数单个队列（P = 1.3 × 10⁻¹⁰）。

值得注意的是，来自肿瘤样本计算得到的关联得分在预测已知蛋白质相互作用方面优于来自健康组织样本的得分（肿瘤AUC 0.87 ± 0.01，健康AUC 0.82 ± 0.01，差异具有统计学意义 P = 8.3 × 10⁻⁵）。这可能是因为肿瘤样本由于遗传异质性等因素，样本间的变异性更大，反而有助于识别更稳健的共丰度模式。尽管如此，肿瘤来源的得分仍然能够很好地恢复健康组织的组织特异性关联（同一健康组织AUC 0.74 ± 0.02，其他健康组织AUC 0.53 ± 0.01，差异具有统计学意义 P = 5.9 × 10⁻⁵）。这些分析共同表明，基于蛋白质共丰度计算的组织级关联得分是可重复的，并且能够代表蛋白质关联在特定组织中的情况。

最终，研究人员构建了一份包含1.16亿个蛋白质对在11种人体组织中的关联得分图谱。平均而言，每个组织包含约5600万个蛋白质对的关联得分，其中约1000万个蛋白质对被认为是“可能关联”（Likely associated，得分大于0.5），约49万个蛋白质对被认为是“高可信关联”（Confident associations，得分大于0.8）。这些关联在不同组织中的分布差异很大，只有约99,103个蛋白质对在所有11个组织中都被认为是可能关联的。这初步揭示了蛋白质关联具有显著的组织特异性。

组织间的差异：远不止基因表达

一个长期存在的观点认为，组织间蛋白质相互作用的差异主要源于基因表达水平的差异——如果一个蛋白质在某个组织中不表达，那它自然也无法参与该组织中的相互作用。这项研究证实，在特定组织中能被检测到的蛋白质，其在同一组织中的表达水平普遍高于其他组织（P = 1.3 × 10⁻⁶）。然而，研究团队发现，组织间（可能关联）关联差异中，只有最高7%可以通过基因表达水平差异来解释，而且这部分解释力主要来自于蛋白质在某些组织中完全检测不到的情况。这进一步支持了先前的发现，即蛋白质共丰度主要受转录后过程驱动，组织间的关联差异并不仅仅是基因表达的简单反映。

为了量化组织特异性关联的比例，研究人员发现，在比较同一健康组织和肿瘤组织的重复样本时，约46.3%的可能关联（得分大于0.5）和90.2%的高可信关联（得分大于0.8）在重复样本中仍然被认为是可能关联的。而在比较不同组织之间的关联时，这些比例分别下降到32.9%和54.6%。基于重复样本与不同组织之间的这些概率差异，研究人员估计，在可能的关联中，有18.8%到34.0%（四分位数间距）是组织特异性的。考虑到最高7%的可能关联因为基因表达差异而在其他组织中未被检测到，研究最终估计，超过25.8%（即18.8% + 7%）的可能关联是组织特异性的。

这意味着，组织间的蛋白质“朋友圈”不仅面貌各异，而且这种差异的很大一部分是由基因表达以外的因素驱动的，这些因素可能包括组织或细胞类型特有的蛋白质修饰、定位、稳定性或与特定细胞器、结构的关联。

细胞组分：组织特异性关联的关键驱动力

组织间的蛋白质关联差异是由什么决定的？研究人员通过分析不同组织中可能关联的共享程度来探索这个问题。他们发现，与所有可能关联（平均Jaccard指数 0.19）相比，如果仅限于已知的高通量实验（如酵母双杂交HuRI，Jaccard指数 0.30；AP BioPlex，Jaccard指数 0.41）检测到的相互作用，或者仅限于已知生物学途径（如Reactome，Jaccard指数 0.48）、信号通路（如SIGNOR，Jaccard指数 0.32）中的相互作用，或者物理相互作用（如STRING得分大于400，Jaccard指数 0.56），组织间的相似性会有所增加。如果仅限于人类蛋白质复合体（如CORUM，Jaccard指数 0.74），组织间的相似性则最高。这意味着，已知的蛋白质相互作用，特别是稳定复合体中的相互作用，在不同组织间通常是共享的。

然而，研究人员也发现，那些在不同组织中变化较大的关联，往往与特定的细胞组分（Cellular components）相关。例如，大脑组织中与突触（Synapse）相关的组分、喉部组织中与肌肉纤维结构相关的组分、肺部组织中与运动纤毛（Motile cilia）相关的组分以及肝脏组织中与过氧化物酶体（Peroxisomes）相关的组分，其蛋白质关联在不同组织间表现出强烈的差异性。这表明，组织特异性或细胞类型特异性的细胞组分是驱动组织间蛋白质关联差异的重要因素，而且这种差异独立于简单的基因表达差异。

研究团队进一步探索了图谱中细胞类型特异性关联的例子。以AP2衔接蛋白复合体（AP2 adaptor complex）为例，它在所有细胞中都具有普遍功能，但在神经元中也有特异性功能。图谱显示，AP2复合体亚基在所有组织中都是共丰度的（平均关联得分0.80）。然而，在与AP2复合体关联且已知与之相互作用（STRING得分大于400）的91个蛋白中，51个突触蛋白（SynGO数据库中的蛋白）在大脑中的关联得分（平均0.54）高于其他组织（平均0.48 ± 0.00，P = 6.7 × 10⁻⁶）。相反，非突触蛋白在大脑中的关联得分（平均0.33）低于其他组织（平均0.43 ± 0.00，P = 1.1 × 10⁻²¹）。这生动地展示了即使是普遍存在的蛋白质复合体，其与不同功能蛋白质的关联也可能具有组织或细胞类型特异性。

图谱还能揭示疾病相关的细胞类型特异性关联。例如，血红蛋白（Hemoglobin）蛋白与贫血（Anemia）相关，在图谱中，它们与贫血相关蛋白的可能关联只在血液组织中出现。同样，乳糜微粒（Chylomicron）亚基与克罗恩病（Crohn's disease）相关，它们与克罗恩病相关蛋白的可能关联只在结肠（Colon）组织中出现。纤维蛋白原（Fibrinogen）亚基与肝脏疾病相关，它们与肝脏疾病相关蛋白的肝脏特异性可能关联也被发现。这些例子表明，这份关联图谱可以用来研究蛋白质复合体的组织特异性功能以及疾病基因在特定情境下的关联。

研究人员还将这种分析推广到更广阔的层面，系统性地绘制了性状（Traits，基于GWAS数据）与细胞组分之间的关系图谱。他们发现，在所有组织中都得分较高的关系主要涉及核心细胞组分，如核糖体（Ribosome）和剪接体（Spliceosome）（72%的关系相对平均得分大于1.75）。而那些在不同组织中变异最大的关系（变异系数大于0.4）往往涉及组织特异性结构，比如突触组分（Synaptic components）（61%的关系属于这一类）。这些发现再次印证了细胞组分，特别是组织特异性组分，在决定蛋白质集合的组织特异性相关性中扮演的关键角色。

疾病基因“C位”：基于图谱的精准排序

理解蛋白质关联的组织特异性如何应用于疾病研究？研究团队利用这份图谱来优先排序（Prioritize）疾病相关基因，特别是那些位于遗传关联位点（Loci）的候选基因。已知与疾病基因直接相互作用的蛋白通常更可能是致病基因，并且在成功的药物靶点中富集。为了更深入地探索这一点，研究人员构建了一个针对精神分裂症（Schizophrenia, SCZ）相关基因的大脑相互作用网络，旨在优先排序大脑中那些得分较高且涉及SCZ相关基因的关联。

研究始于369个通过GWAS研究与SCZ关联的基因（“起始基因”，L2G得分大于等于0.5）。他们计算了这些起始基因与各自组织中得分最高的25个性状和细胞组分之间的关系。随后，研究人员筛选出那些包含一个SCZ起始基因和一个SCZ相关基因的蛋白质对，并要求它们在大脑中的关联得分高于该组织得分分布的97%分位数（在大脑中平均得分0.73）。由此得到了SCZ相关基因的组织特异性关联网络。

令人鼓舞的是，移除SCZ起始基因后，该大脑网络中剩余的基因仍然富集于与SCZ相关的基因，这些证据来自小鼠SCZ表型（Mouse phenotypes）（BH校正P值 1.5 × 10⁻⁵）、SCZ药物靶点（BH校正P值 9.8 × 10⁻⁵）以及GWAS中关联较弱的变异（BH校正P值 1.0 × 10⁻⁷）。与其他组织相比，这种富集性是特定于大脑的。这表明，所提出的方法提供了一种系统性地优先排序组织特异性性状疾病基因的途径。

为了进一步验证这些预测的SCZ相关基因关联，研究人员汇编了一个实验验证过的人类大脑相互作用数据集，这些数据主要来自使用人类大脑细胞（AP-MS或CoIP-MS）进行的Pull-down实验。该数据集包含了7,887个与30个“诱饵蛋白”（Bait proteins）相关的人类大脑相互作用。研究人员筛选出该数据集中与SCZ相关的诱饵蛋白，并将组织特异性SCZ相关基因网络过滤到只包含至少一个诱饵蛋白的关联。结果发现，这些SCZ相关基因的关联强烈富集于与SCZ相关诱饵蛋白的Pull-down相互作用中，尤其是在大脑中（log BH校正P值高达84.3），远远高于其他组织（平均log BH校正P值仅为1.8）。这有力地证明了该研究预测的大脑SCZ相关基因关联得到了实验验证，并且确实富集于SCZ相关的互作蛋白。

整合多源证据：深入理解并发现新靶点

在实验验证的基础上，研究人员从优先排序的大脑SCZ相关基因关联中，筛选出那些也通过Pull-down研究发现的相互作用，构建了一个包含205个已验证的大脑SCZ相关基因相互作用网络。为了简化并突出重点，他们进一步将网络限制在具有先前证据的突触（SynGO）基因。这个可视化网络包含56个蛋白质，通过66个已验证的大脑相互作用连接到3个诱饵蛋白。这些蛋白质中包括3个SCZ药物靶点（临床阶段2或更高）、12个与小鼠SCZ相关的蛋白（IMPC得分大于等于0.5）以及15个与SCZ相关但先前证据较弱的蛋白（OTAR L2G得分小于0.5）。令人惊讶的是，在这205个已验证的相互作用中，只有4个在主要蛋白质相互作用数据库中被报告过。

这个网络富集了典型的神经元功能和SCZ相关的细胞组分基因群，比如突触后细胞骨架（Postsynaptic cytoskeleton）（BH校正P值 2.3 × 10⁻⁸）和网格蛋白包被囊泡（Clathrin-coated vesicles）（BH校正P值 9.4 × 10⁻¹⁴）。特别是，与网格蛋白囊泡相关的组分，该网络连接了AP2复合体的所有亚基和网格蛋白与HCN1蛋白的相互作用。有研究表明，HCN通道与TRIP8b直接相互作用，TRIP8b调节HCN通道的运输，并主要与AP2复合体关联。鉴于中间白蛋白阳性（PV）神经元与SCZ之间的已知联系，这些观察结果提示AP2和网格蛋白可能参与了与SCZ相关的PV神经元HCN通道运输的特定障碍。

为了提出已验证SCZ相关基因大脑相互作用的潜在界面模型，研究人员利用AlphaFold2预测了205个蛋白质相互作用的结构，包括可视化网络中的所有相互作用。这些预测模型得到的相互作用置信度（pDockQ得分平均0.28）高于CORUM（平均0.13）和HuMAP（平均0.25）中已知复合体成员的模型。总共识别出15个中等置信度的相互作用（界面预测模板建模ipTM得分大于0.5）。这其中包括所有三个14-3-3蛋白（YWHAG, YWHAH, YWHAZ）与HCN1的大脑特异性结合（平均关联得分0.82）。这三个模型的预测界面重叠，位于HCN1的C端无序区域（残基775-802），包含一个预测的14-3-3结合位点（中心位于S789，预测结合位点ipTM得分平均0.75）。这一结合位点已通过Pull-down实验验证，且已知14-3-3蛋白与HCN1的结合依赖于S789的磷酸化，这种相互作用可能抑制HCN1的降解。

最后，该网络还包含15个位于与SCZ遗传关联位点的基因，它们作为致病基因的证据相对较弱。考虑到它们与SCZ相关基因的相互作用，这些基因更有可能因其功能作用而成为潜在的致病基因。例如，AP2B1, ATP2B2和SYNGAP1这三个基因的L2G得分（分别为0.457, 0.264和0.251）低于研究设定的0.5截止值，但由于它们与SCZ相关基因的相互作用而被优先排序。另一个例子是PAFAH1B1，虽然其L2G得分较低，但它在突触组分中富集，且与另一种突触蛋白RHOA存在相互作用。尽管PAFAH1B1作为致病基因的证据较弱，但其与大脑疾病（如抑郁症）的关联以及其在突触的特异性位置和表达，使得它在抑郁症相关的优先级排序中被提升。

这些例子表明，结合遗传学数据、组织特异性网络和AlphaFold2结构预测，可以构建一个整合的网络，增强对疾病机制的理解并助力靶点优先排序。所预测的疾病-基因关联倾向于组织特异性，这可能意味着所提出的靶点也更安全。

绘制涵盖人体所有组织的蛋白质相互作用图谱，一直是一个巨大的挑战。这项研究利用大规模蛋白质组学样本的蛋白质共丰度，构建了一份全面的组织特异性蛋白质关联图谱，包含了1.16亿个蛋白质对在11个组织中的关联得分。研究证实，蛋白质共丰度是预测蛋白质功能关联的有力工具，其准确性甚至优于蛋白质共分级和mRNA共表达。这份图谱成功地重建了已知的蛋白质复合体和更大的细胞结构组织，并揭示了蛋白质关联存在显著的组织特异性，其中超过25%的关联是组织特异性的，而基因表达差异仅能解释其中不到7%。组织特异性的细胞组分，如突触，被发现是驱动组织间差异的主要因素。

该图谱不仅能揭示蛋白质复合体和细胞组分的组织特异性功能，还能关联性状与细胞组分，并为疾病基因的优先排序提供依据。研究以精神分裂症为例，展示了如何利用图谱构建SCZ相关基因在大脑中的相互作用网络，并通过Pull-down实验和AlphaFold2结构预测对这些关联进行验证。结果显示，通过结合多种证据来源，可以有效地筛选出更可能为致病基因的候选者，即使他们在遗传关联位点上的证据相对较弱。这种方法为理解复杂疾病（特别是神经系统疾病）的分子机制提供了新的视角，并为发现更具组织特异性的药物靶点奠定了基础。

当然，共丰度推断的“蛋白质关联”并非都是直接的物理相互作用，这是一种功能层面的关联，它可能受到蛋白质复合体稳定性、蛋白质定位、翻译后修饰等多种因素的影响。未来的研究可以进一步整合更多数据源（如蛋白质修饰组学、空间蛋白质组学等）以及更先进的计算方法，来完善这份图谱，并区分不同类型的蛋白质关联。尽管如此，这份组织特异性蛋白质关联图谱已经为我们提供了一张前所未有的蛋白质“朋友圈”地图，有望加速对复杂疾病机理的理解，并为精准医疗和药物开发带来新的突破。

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->