Science:利用机器学习破解发育中的人类大脑中的基因调控
来源:生物谷原创 2024-05-31 09:40
这项研究是作为 PsychENCODE联盟的一部分完成的,该联盟汇集了多学科团队,从人类大脑中生成大规模的基因表达和调控数据,涉及几种主要的精神疾病和大脑发育阶段。
在一项新的研究中,来自格拉德斯通研究所和加州大学旧金山分校的研究人员将高通量实验与机器学习相结合,分析了人类脑细胞中的10 万多个序列,并确定了 150 多个可能导致疾病的变异,这一科学壮举拓宽了我们对影响大脑发育或导致精神疾病的基因变化的认识。相关研究结果发表在2024年5月24日的Science期刊上,论文标题为“Massively parallel characterization of regulatory elements in the developing human cortex”。
这项研究建立了一个涉及大脑发育的基因序列综合目录,为精神分裂症和自闭症谱系障碍等神经系统疾病的新诊断或治疗打开了大门。
论文共同通讯作者Katie Pollard博士说,“我们从DNA非编码区的序列中收集了大量数据,这些序列已被猜测在大脑发育或疾病中发挥了重要作用。我们能够对其中的 10 万多个序列进行功能测试,以确定它们是否会影响基因活性,然后找出可能改变它们在疾病中的活性的序列变化。”
这些作者总共发现了164个与精神疾病有关的变异,以及46802个在发育中的神经元中具有增强子活性的序列,这意味着它们能控制特定基因的功能。
Ahituv说,这些“增强子”可能用来治疗一个基因拷贝功能不全的精神疾病,“数以百计的疾病都是由于一个基因不能正常工作造成的,也许可以利用这些增强子,让它们发挥更大的作用”。
类器官和机器学习成为焦点
除了确定增强子和与疾病相关的序列外,这项研究在另外两个关键领域也具有重要意义。首先,这些作者利用从人类干细胞开发的大脑类器官重复了部分实验,发现这种大脑类器官是真实大脑的有效替身。值得注意的是,在人类脑组织中检测到的大多数基因变异都在大脑类器官中得到了复制。
Ahituv说,“我们的类器官与人脑相比非常好。随着我们的工作扩展到测试其他神经发育疾病的更多序列,我们如今知道这种大脑类器官是理解基因调控活性的一个很好的模型。”
其次,通过向机器学习模型输入大量的DNA序列数据和基因调控活性,这些作者能够训练计算机成功预测给定序列的活性。这种程序可以实现“在计算机上进行的”实验,让人们在实验室进行实验之前就能预测实验结果。这种策略能让人们在使用较少资源的情况下更快地取得发现,尤其是在涉及大量生物数据的情况下。
论文共同第一作者、Pollard实验室的高级研究科学家Sean Whalen博士说,他们利用从模型训练中保留下来的序列对机器学习模型进行了测试,看它能否预测已经收集到的基因表达活性结果。
图片来自Science, 2024, doi:10.1126/science.adh0559
Whalen说,“该模型以前从未见过这些数据,但却能非常准确地做出预测,这表明它已经掌握了基因如何受发育中脑细胞中DNA非编码区影响的一般原理。你可以想象,这将为研究带来许多新的可能性,甚至可以预测变异组合如何共同发挥作用。”
大脑发现的新篇章
这项研究是作为 PsychENCODE联盟的一部分完成的,该联盟汇集了多学科团队,从人类大脑中生成大规模的基因表达和调控数据,涉及几种主要的精神疾病和大脑发育阶段。
通过该联盟发表的多项研究,它试图揭示从自闭症到双相情感障碍等理解不深的精神疾病,并最终启动新的治疗方法。
论文共同第一作者、加州大学旧金山分校博士后研究员Chengyu Deng博士说,“我们的研究为这一不断增长的知识体系做出了贡献,展示了使用人体细胞、类器官、功能筛选方法和深度学习来研究人脑发育过程中的调控元件和变异的实用性。”(生物谷Bioon.com)
参考资料:
Chengyu Deng et al. Massively parallel characterization of regulatory elements in the developing human cortex. Science, 2024, doi:10.1126/science.adh0559.
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。