生信log45|基因组数据注释到底是怎么回事?
生信log|基因组数据注释到底是怎么回事?
在一开始做生信分析的时候,我对下游的分析其实不太了解,当时频繁接触到的概念叫“注释”,注释后就可获得关键基因相关的一些数据。后来深入分析后也经常会疑惑为什么某些数据就是注释不上信息,参与到注释数据库的开发之后,对数据注释有了更深入的认识,于是写下了本篇的说明,主要解释的是功能注释。
0. 本文目的
- 通过注释过程明白注释结果是怎么来的
- 了解数据库的局限性
1. 基因组数据是怎么被注释的
生物的数据一般分为表格数据和序列数据。虽然生物数据有很多种格式如
gff,vcf,bed
等等, 但它们实际上都是以tab为分隔符的tsv表格,开头一大段####
这些都是注释信息,python或者R语言读取数据的时候一般都可以跳过。
- 序列数据
这里所说的序列数据指的是DNA(.fasta),蛋白质序列(.faa)这一类文件。
网站提供的注释流程应该是先进行序列比对,选出相似性最高的序列,搜索数据库中相关信息最后得出结果。
参考及推荐阅读
共有 0 条评论