打开APP

Genome Biology:科学家揭晓通路信息大数据的秘密

  1. 通路图

来源:生物谷 2021-03-27 17:26

每年有成千上万的通路图(pathway diagrams)被发表出来,而这些通路图由于是静态图形导致无法进行计算查询和分析。

从25年的通路数据中摘录的通路信息

每年都会发布成千上万条路径图,这些数字是无法通过计算查询和分析获得的静态数字。结合机器学习,光学字符识别和手动策展,美国加州格拉德斯通研究所数据科学与生物技术研究所的Alexander R Pico教授带领团队,确定了1995年至2019年之间发表的64,643条通路图,并提取了1,112,551例人类基因实例,包括13,464个独特的NCBI基因,参与了各种各样的生物学过程。这个集合代表的基因数量比同一篇论文的数量多一个数量级,而其他途径数据库中缺失的基因则多达数千个,从而为发现和研究提供了新的机会。该研究成果以“Pathway information extracted from 25 years of pathway figures”为题,在线发表在Genome Biology杂志上。


研究人员发现,在通过图像分类确定的64,643个通路图中,有58,962(91%)个数字具有至少一个人类基因被该研究团队的通路图OCR管线识别。总共识别出1,112,551个人类基因实例,其中包括13,464个独特的人类NCBI基因。平均而言,每个数字可识别18.9个基因,而PubTator在同一论文中仅可识别3.4个基因。PubTator在上述相同论文的全部文本中发现了十分之一的基因(101,617)。仅有一半的论文(53.5%)提到了文本中的一个或多个基因。而在该研究团队的途径图OCR结果中,有600多个图,每个图都有100多个基因。虽然许多最大的数字是互动网络。另一方面,只有超过20k(37%)数字的长尾巴,只有不到七个被识别的基因。





研究人员还使用R Shiny(https://gladstone-bioinformatics.shinyapps.io/shiny-25years)制作了一个在线工具,可以根据丰富的疾病术语、基因、日期和各种发布元数据字段。分为三个阶段,第一阶段提供自动完成字段,以定义基于OR的疾病注释,基因内容和出版年限的过滤器,并显示前40个疾病本体术语,前40个人类基因和发布日期的条形图根据当前筛选出的一组数字。第二阶段显示当前已过滤的一组图形的分页表格视图,每一行代表一个路径图形及其父文件。这些列可用于在表中进行排序和查询,以进一步优化当前集合。在表中选择一行将更新第三阶段,该阶段显示途径图,到PMC的链接和已识别基因的表。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->