Genome Biology:科学家揭晓通路信息大数据的秘密
来源:生物谷 2021-03-27 17:26
每年有成千上万的通路图(pathway diagrams)被发表出来,而这些通路图由于是静态图形导致无法进行计算查询和分析。
从25年的通路数据中摘录的通路信息
研究人员发现,在通过图像分类确定的64,643个通路图中,有58,962(91%)个数字具有至少一个人类基因被该研究团队的通路图OCR管线识别。总共识别出1,112,551个人类基因实例,其中包括13,464个独特的人类NCBI基因。平均而言,每个数字可识别18.9个基因,而PubTator在同一论文中仅可识别3.4个基因。PubTator在上述相同论文的全部文本中发现了十分之一的基因(101,617)。仅有一半的论文(53.5%)提到了文本中的一个或多个基因。而在该研究团队的途径图OCR结果中,有600多个图,每个图都有100多个基因。虽然许多最大的数字是互动网络。另一方面,只有超过20k(37%)数字的长尾巴,只有不到七个被识别的基因。
研究人员还使用R Shiny(https://gladstone-bioinformatics.shinyapps.io/shiny-25years)制作了一个在线工具,可以根据丰富的疾病术语、基因、日期和各种发布元数据字段。分为三个阶段,第一阶段提供自动完成字段,以定义基于OR的疾病注释,基因内容和出版年限的过滤器,并显示前40个疾病本体术语,前40个人类基因和发布日期的条形图根据当前筛选出的一组数字。第二阶段显示当前已过滤的一组图形的分页表格视图,每一行代表一个路径图形及其父文件。这些列可用于在表中进行排序和查询,以进一步优化当前集合。在表中选择一行将更新第三阶段,该阶段显示途径图,到PMC的链接和已识别基因的表。
版权声明
本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->