AI解决“数据荒”,英矽智能发布Precious2GPT,助力生信分析和药物发现
来源:生物世界 2024-08-19 12:36
该模型为研究各种生物学过程和疾病开辟了新途径。英矽智能的科学家计划将 Precious2GPT 的应用进一步扩展到其他生物信息学任务,包括生命周期分析、跨模态预测和特定疾病组学数据生成等。
AI制药公司英矽智能研发团队在 Nature 旗下期刊 npj Aging 发表了题为:Precious2GPT: the combination of multiomics pretrained transformer and conditional diffusion for artificial multi-omics multi-species multi-tissue sample generation 的研究论文,发布整合扩散模型和Transformer架构的Precious2GPT,通过模拟真实世界条件辅助生物机制和衰老过程研究。
英矽智能研究团队采用混合方法构建了Precious2GPT。首先采用CDiffusion模型,根据基因表达网络模拟基因表达水平。该网络通过纳入基因之间的依赖关系,确保基因表达模式在生物学维度的可行性。接下来,研究团队采用MoPT模型评估单个基因的数据生成质量,并与真实世界特征进行对比给出质量评分。研究团队使用特征加权线性堆积(Feature Weighted Linear Stacking,FWLS)方法将上述模型结合起来,实现均衡、高质量的数据生成。
Precious2GPT结构图示
在验证研究中,Precious2GPT产出了颇有潜力的结果,利用生成数据达成了更准确的年龄预测,甚至生成了年龄超过120岁的人类生物学数据。此外,研究团队通过UMAP维度降低评估了Precious2GPT针对特定组织生成数据的能力,结果显示生成数据与真实标签高度一致。
在关注结直肠癌的案例研究中,Precious2GPT 通过生成结直肠癌细胞系的对照样本,该模型通过荟萃分析提名部分关键基因表达特征,结果与已知结直肠癌病理学研究结果相匹配。该实际案例进一步验证了Precious2GPT在生物信息分析和靶点发现方面的应用潜力。
通过生成具有高准确性和特异性的合成数据,该模型为研究各种生物学过程和疾病开辟了新途径。英矽智能的科学家计划将 Precious2GPT 的应用进一步扩展到其他生物信息学任务,包括生命周期分析、跨模态预测和特定疾病组学数据生成等。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。