Cell Discov | 深度学习模型可提高碱基编辑结果的预测准确性

来源：生物探索 2024-02-26 19:41

该研究开发了一种深度学习算法，用于准确预测生物多样性编辑结果。

中国科学院脑科学与智能技术卓越创新中心孙怡迪、中国农业科学院左二伟及中国科学院上海营养与健康研究所Wei Wu共同通讯在Cell Discovery（IF 34）在线发表题为“Deep learning models incorporating endogenous factors beyond DNA sequences improve the prediction accuracy of base editing outcomes”的研究论文，该研究表明结合DNA序列以外的内源性因素的深度学习模型提高了碱基编辑结果的预测准确性。该研究在哺乳动物细胞中对5012个内源性基因组位点和11868个基因组整合靶序列进行了ABE和CBE的碱基编辑结果评估，其中4654个基因组位点共享相同的靶序列。

比较分析显示，ABE和CBE在内源性位点的编辑结果与使用基因组整合序列获得的结果有很大不同。研究发现ABE和CBE在内源性靶点的碱基编辑效率都受到内源性因素的影响，包括表观遗传修饰和转录活性。基于基因组数据集的内源性因素和序列信息，开发了一种名为BE_Endo的深度学习算法，在预测碱基编辑结果方面取得了前所未有的准确性。这些发现以及开发的计算算法可能有助于未来生物等效体在科学研究和临床基因治疗中的应用。

单核苷酸变异(SNVs)占人类基因组致病性突变的一半以上，而SNVs的准确逆转是基因治疗的最重要目标之一。碱基编辑器(BEs)，包括ABEs和CBEs，已被广泛用于纠正致病性点突变和生成动物疾病模型。然而，编辑结果的实验评估是耗时的，这限制了它的应用仅限于少数目标位点。最近已经开发了几种计算方法，利用哺乳动物细胞中慢病毒整合文库的靶向序列信息来预测BEs的编辑结果。

慢病毒整合文库通常包含数千个寡核苷酸，每个寡核苷酸编码一个独特的20个核苷酸(nt)的小向导RNA (sgRNA)间隔序列，并具有成对的靶序列。sgRNA文库随机整合到哺乳动物细胞基因组中，sgRNA在人类U6启动子的驱动下表达。表达的sgRNA与转染的或基因组整合的BEs结合，诱导碱基编辑综合目标序列。然后对整合的成对目标序列进行PCR扩增，并进行测序以测量编辑效率。

以往的研究表明，转录活性、染色质可及性等内源性因素与CRISPR-Cas9内切酶的切割效率密切相关。慢病毒整合文库限制了内源性因子在靶位点的检测，因为靶序列是随机整合到基因组中的。因此，需要生成大的全基因组内源性数据集来阐明内源性因素对碱基编辑的影响。然后可以开发包含非常重要的内源性因素的计算方法，以便更好地预测内源性碱基编辑的结果。

全基因组内源性和集成ABE和CBE数据集的生成概述（Credit: Cell Discovery）

该研究在人胚胎肾(HEK) 293 T细胞的大量内源性基因组位点和慢病毒整合文库上进行了ABE和CBE的碱基编辑实验。比较分析表明，内源位点的编辑结果受到内源因素的很大影响，包括转录活性和表观遗传因素，如染色质可及性、DNA和组蛋白修饰、基因组相关蛋白因子和顺式调控元件(CREs) 。结合内源性因子和DNA序列信息，该研究开发了一种深度学习算法，用于准确预测生物多样性编辑结果。这些发现有助于了解哪些因素可能对碱基编辑结果贡献最大，并为未来的碱基编辑应用提供最佳sgRNA选择的计算工具。

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->