Nature子刊:清华大学汪小我团队开发AI辅助的启动子序列优化方法——DeepSEED
来源:生物世界 2023-10-20 13:42
该研究基于知识引导与数据驱动相融合的创新策略,建立了人工智能辅助的启动子序列优化方法——DeepSEED,能够有效突破功能启动子设计中维度高、样本小的核心难题
近日,清华大学自动化系汪小我团队在 Nature Communications 期刊发表了题为:Deep flanking sequence engineering for efficient promoter design using DeepSEED 的研究论文。
该研究提出了一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法——DeepSEED,发现了转录因子结合位点旁侧序列在启动子优化设计中的重要作用,为突破基因调控元件设计中面临的高维度、小样本的核心难题提供了新的思路。
该研究围绕着启动子(Promoter)这一负责决定基因在何时、何地以何种程度进行转录表达的合成生生物学基础元件展开研究。DNA序列设计的空间巨大,1000bp长度的序列理论上有10^600种可能的排列组合方式。传统的启动子解析与设计研究主要侧重于对功能已知的转录因子结合位点(Transcription Factor Binding Sites,TFBS)进行分析,并通过位置权重矩阵(PWM)等模型对序列motif进行描述和建模。然而对在启动子序列中占据很大比例的位于不同TFBS之间的旁侧序列(Flanking sequence)却缺少研究。
虽然有实验表明,旁侧序列的改变也会对启动子活性产生影响,但由于旁侧序列中的特征信号弱,难以被人为归纳总结为明确的知识和设计准则,导致旁侧序列在启动子功能研究中被长期忽视。此外,由于天然基因组具有特殊功能的启动子往往样本数量很少,导致对响应特定生物信号的诱导型与细胞特异型等更具实际应用价值的启动子难以直接建立深度学习模型对整体模式进行提取。
针对上述问题,研究团队创新提出了一种知识引导与数据驱动相融合的智能设计策略——DeepSEED(图1):首先基于人类专家擅长在小样本中识别明确强特征模式的特点,利用专家知识定义与启动子功能相关的重要显式模式例如TFBS或专家任意设定的序列片段作为“种子”;在此基础上,借助深度学习模型在大型数据集中提取隐含弱模式的强大能力,在海量数据中学习旁侧序列与种子序列间隐式匹配关系,进而基于条件生成式模型产生与“种子”相匹配的完整启动序列,并对序列整体进行全局优化。
DeepSEED方法由两个深度学习模块组成,一个条件式生成对抗网络(cGAN)用于捕获显式和隐式模式之间的依赖关系,一个基于DenseNet-LSTM的预测模型来评估启动子性能,并利用遗传算法对这两个模型进行偶联,通过模型迭代实现功能启动子的优化设计。在实际应用过程中,研究者可以任意指定已知生物调控序列作为“种子”,模型通过学习大数据中旁侧序列的调控规律对“种子”的旁侧序列进行补全,提升启动子的整体转录活性。从而实现启动子的按需优化设计。
图1. DeepSEED模型框架
研究团队成功将该方法应用于大肠杆菌内组成型启动子、IPTG诱导型启动子,和哺乳动物细胞内Dox诱导型启动子的优化设计(图2)。尤为值得一提的是,研究团队选择在生命科学研究中广泛使用的、近三十年来未能被进一步优化的哺乳动物细胞Dox诱导型Tet-On调控系统作为研究对象,实验表明77.8%的人工启动子表现出诱导活性提高,83.3%的人工启动子表现出更高的诱导倍数(图3)。
生成的合成启动子表现出了高度的序列多样性、与天然基因组序列的低相似性,同时保留了天然序列中k-mer频率等特征,并优化了DNA大沟、小沟偏好、偏转角等整体形状属性,大幅提升了合成启动子的转录活性和诱导率等关键性能,并在多种不同培养条件和细胞类型中表现鲁棒。
图2. 在多种启动子设计任务中成功应用
图3. 哺乳动物细胞内Dox诱导型启动子的设计结果
综上所述,该研究基于知识引导与数据驱动相融合的创新策略,建立了人工智能辅助的启动子序列优化方法——DeepSEED,能够有效突破功能启动子设计中维度高、样本小的核心难题,为研究者提供了可用于旁侧序列优化和多类型启动子设计的人工智能辅助工具,有望为合成生物学研究提供基础性的设计工具和多样化的调控元件。
清华大学自动化系博士研究生张鹏程、博士研究生王昊晨与硕士研究生许涵文为该论文的共同第一作者,清华大学汪小我教授为通讯作者。清华大学的魏磊、刘莉扬、胡志睿等也对本文做出了重要贡献。该研究得到了国家自然科学基金、国家重点研发计划、清华大学国强研究院项目的资助。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。