Nature Genetics:如何让新药研发成本降低?研究揭示基因数据的“省钱”秘诀
来源:生物探索 2025-06-25 09:53
研究人员利用海量的真实世界健康数据和基因信息,不仅成功“克隆”了多项大型临床试验,还开发出了一套利用遗传学数据“透视”和优化试验设计的巧妙方法。
一款新药从实验室走向市场,需要经历怎样严苛的考验?这其中,随机对照试验 (Randomized Controlled Trial, RCT) 无疑是王者般的存在。它就像一场精心设计的“盲盒”游戏:将患者随机分为两组,一组使用新药,另一组使用安慰剂或标准疗法,然后静待结果。由于分组是随机的,两组患者在年龄、病情等各方面都高度相似,因此最终的疗效差异,我们有极大的把握可以归因于药物本身。这就是RCT被誉为评估药物疗效“金标准”的原因。
然而,这位“王者”也有自己的烦恼。RCT耗时漫长、耗资巨大,动辄数年、耗费数亿。更重要的是,在某些情况下,进行RCT甚至是不道德的——比如,当一种疗法可能救命时,我们怎能忍心让一半的患者只使用无效的安慰剂呢?因此,研究人员一直在寻找一种更高效、更经济的替代方案。
发表在《Nature Genetics》上的研究 “Incorporating genetic data improves target trial emulations and informs the use of polygenic scores in randomized controlled trial design” ,为我们打开了一扇全新的大门。研究人员利用海量的真实世界健康数据和基因信息,不仅成功“克隆”了多项大型临床试验,还开发出了一套利用遗传学数据“透视”和优化试验设计的巧妙方法。这就像在药物研发的复杂棋局中,突然获得了一种“上帝视角”。
“克隆”临床试验:当现实世界数据遇上“虚拟”对照组
想象一下,我们能否利用已经存在的海量病历数据,来“模拟”一场RCT?这就是试验模拟 (Trial Emulation) 的核心思想。我们不再招募新的患者,而是从庞大的数据库中,找到已经在使用目标药物A的患者作为“试验组”,再找到一群特征极其相似但未使用药物A(可能在使用标准药物B或未使用)的患者作为“虚拟对照组”。通过比较这两组人的健康结局,我们就能模拟出RCT的结果。
这听起来很美好,但挑战巨大。最大的难题在于如何确保两组人的“可比性”。在真实世界里,医生给病人开药并非随机,这背后充满了复杂的医学考量。为了攻克这一难题,研究团队将目光投向了芬兰。他们利用了一个名为芬兰基因库 (FinnGen) 的强大资源。这个项目收集了超过42.5万芬兰人的基因数据,并与他们覆盖一生的国家健康档案(包括购药记录、住院记录、死亡记录等)相关联。这简直是一个研究真实世界疗效的“数据金矿”。
研究人员挑选了四项已经完成的、具有里程碑意义的心血管领域大型RCT进行“克隆”,包括验证降糖药恩格列净 (empagliflozin)的Empareg研究,证实西格列汀 (sitagliptin)安全性的Tecos研究,以及评估抗凝药阿哌沙班 (apixaban)和利伐沙班 (rivaroxaban)效果的Aristotle与Rocket研究。通过一系列复杂的数据清洗、患者筛选和统计学校正,研究人员成功地在FinnGen数据中“再现”了这四场试验。结果令人振奋:模拟试验得出的结论与原始RCT惊人地一致。
例如,在原始的Empareg研究中,恩格列净相比安慰剂,能将主要心血管不良事件的风险降低14%,其风险比 (Hazard Ratio, HR) 为0.86。而在研究人员的模拟试验中,这个数字是0.82,几乎完美复刻。同样,Aristotle研究的原始HR为0.79,模拟试验结果为0.70;Tecos研究的原始HR为0.98(接近无效),模拟试验结果为0.99。总的来说,四次模拟三次“完美复刻”,一次“趋势吻合”,这充分证明了利用真实世界数据进行试验模拟是可行的。这就像我们通过历史文献和考古发现,成功地重现了一场古代战役的布局和结局。但真正的创新,才刚刚开始。
基因“指纹”揭秘:你的医生为什么给你开这种药?
试验模拟最大的“阿喀琉斯之踵”是混杂偏倚 (confounding bias),尤其是适应症混杂 (confounding by indication)。举个例子,假设市面上出现了一款革命性的新降糖药。医生最有可能把它开给那些血糖最难控制、并发症风险最高的重症患者。而那些病情平稳的患者,则可能继续使用老药。这样一来,即使新药非常有效,“新药组”的患者因为“底子”太差,其心血管事件发生率可能依然不低。如果你直接比较两组的结果,很可能会得出“新药无效甚至有害”的错误结论。这里的“病情严重程度”就是一个混杂因素。
这时,基因数据闪亮登场。研究人员为20种与心血管代谢疾病相关的性状计算了多基因风险评分 (Polygenic Score, PGS)。PGS就像一个人的遗传“风险指纹”,它整合了成千上万个微效基因变异,综合评估一个人天生患某种疾病的风险高低。研究人员巧妙地将PGS用作一个“混杂偏倚探测器”,在Empareg试验的模拟过程中,分三步观察了两组患者PGS的差异:
第一步,原始状态 (Plain observational)。 直接比较所有使用恩格列净的人和不使用它的人,结果显示,两组间的基因背景差异巨大。例如,在预测2型糖尿病风险的PGS上,两组的标准化均数差 (SMD) 高达0.56。这完美地暴露了“适应症混杂”的存在。
第二步,应用入排标准后 (After eligibility criteria)。 按照原始RCT的标准筛选患者并选择合适的对照组后,两组患者的相似度提高了,PGS的差异也随之减小。例如,预测冠心病风险的PGS,其SMD缩小到了0.12;预测2型糖尿病风险的PGS,其SMD更是降至0.08。
第三步,倾向性评分匹配后 (PS adjusted)。 在对28个临床变量进行严格匹配后,奇迹发生了!之前在20个PGS中存在的显著差异,几乎全部消失了。两组患者在遗传背景上达到了高度的平衡。这个结果令人拍案叫绝。它说明,PGS可以作为一个独立的、客观的标尺,来衡量我们对混杂因素的控制到底有多成功。当两组间的PGS差异逐渐缩小时,就意味着我们的模拟试验设计越来越接近于一个真正的“随机”试验。
基因评分,是“神助攻”还是“猪队友”?
既然PGS能如此有效地“探测”混杂,一个大胆的想法油然而生:我们能不能更进一步,直接把PGS作为一个校正变量,去“修正”那些未被测量的混杂因素呢?比如,一个人的血脂水平可能没有被记录,但我们可以用他的“高血脂PGS”来代替。这个想法听起来很诱人,但研究人员保持了应有的审慎。他们构建了有向无环图 (Directed Acyclic Graph, DAG) 并进行了计算机模拟。模拟的结果给出了一个明确的警告:直接用PGS来校正混杂偏倚,不仅效果有限,甚至可能引入新的偏倚。
这主要是因为两个原因:首先,PGS的预测能力有限。它对大部分复杂疾病的预测准确性仍然不高,用一个“模糊的代理”去校正一个“精确的混杂因素”,效果自然大打折扣。其次,基因多效性 (Pleiotropy) 是一个更隐蔽的“坑”。一个基因(或一个PGS)可能同时影响多个看似无关的性状,直接校正可能会在不经意间引入无关甚至是有害的因素,从而污染整个分析。因此,结论是清晰的:PGS可以作为试验模拟质量的“仪表盘”和“警报器”,但不应被当作直接修复问题的“万能扳手”。
“孟德尔随机化”登场:基因世界的福尔摩斯
如果PGS不能直接用来校正,我们还有别的遗传学武器吗?答案是肯定的。研究人员亮出了他们的王牌——孟德尔随机化 (Mendelian Randomization, MR)。MR是近年来在因果推断领域声名鹊起的一种强大方法,它被誉为“基因世界的福尔摩斯”。其核心逻辑非常巧妙:我们每个人的基因,在受精卵形成的那一刻起,就由父母随机分配,终生不变。这就像一场自然的、完美的随机试验。因此,我们可以利用与某种“暴露”(如体重、血压)强相关的基因变异,来推断它与“结局”(如心脏病)之间的因果关系。
在这项研究中,研究人员创造性地将MR从一个“因果推断工具”转变为一个“混杂因素侦探”。它对19个潜在的混杂因素进行了MR分析,发现在不加任何筛选的芬兰人群中,有12个“重大嫌疑对象”可能导致混杂偏倚。然而,当研究人员将分析范围缩小到“符合试验入排标准”的模拟试验人群中时,神奇的事情再次发生:之前那12个“重大嫌疑对象”中,有10个的MR信号消失了!最终,只有两个因素——糖化血红蛋白 (HbA1c) 和C-反应蛋白 (CRP)——仍然在MR分析中显示出与治疗选择的显著关联。这个结果的意义非同凡响。它告诉我们,一个设计精良的试验模拟本身就能排除大部分混杂,而MR就像最后一道火眼金睛的安检,能帮助我们精准识别出那些最顽固的“潜伏”因素。
未来的临床试验,从“虚拟演习”开始
至此,这项研究已经展示了如何利用基因数据让试验模拟变得更可靠、更透明。但它的雄心不止于此。研究人员还想回答一个终极问题:我们能否反过来,利用试验模拟和基因数据,去指导和优化未来真正的RCT设计?答案是肯定的,而这其中最具潜力的应用方向是预后富集 (Prognostic Enrichment)。预后富集的目的,就是只招募那些未来发病风险最高的人群进入试验,从而在更短的时间内、用更少的受试者,高效地评估药效。
研究人员在“虚拟”的模拟试验人群中,对PGS的富集效果进行了一次“实战演习”。他们考察了相应疾病的PGS在四场模拟试验中的预测能力:在Empareg和Tecos这两个针对2型糖尿病患者的试验中,冠心病PGS能够非常有效地预测主要心血管事件的发生,其风险比 (HR) 分别为1.18和1.43。然而,在Aristotle和Rocket这两个针对房颤患者的试验中,中风PGS的预测能力却完全“失灵”了!这一发现至关重要,它提醒我们,不能想当然地把普通人群中的遗传学发现直接套用到高度筛选的临床试验人群中。
这种“演习”能带来多大的实际好处呢?研究人员算了一笔账:在Tecos模拟试验中,如果他们只招募冠心病PGS排名前25%的高风险人群,那么在保持同样统计功效的前提下,所需的样本量可以减少26.23%!在Empareg试验中,这个数字是8.6%。对于一个动辄需要上万名受试者、耗资数亿元的临床试验来说,哪怕只节省10%的样本量,都意味着节约了数千万元的经费和宝贵的时间。
这项开创性的研究,如同一座灯塔,照亮了遗传数据与临床试验设计深度融合的未来。它向我们展示了一幅激动人心的图景:通过在真实世界数据中进行巧妙的“虚拟演习”,我们可以用基因“指纹”来评估模拟试验的质量,用基因“侦探”来揪出潜藏的偏倚,更能预先“彩排”未来临床试验的富集策略,使其更高效、更经济、也更有可能成功。这不仅仅是对现有研究方法的改进,更可能是一场关于未来药物研发范式的深刻变革。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
