生信log45|基因组数据注释到底是怎么回事?

生信log|基因组数据注释到底是怎么回事?

在一开始做生信分析的时候,我对下游的分析其实不太了解,当时频繁接触到的概念叫“注释”,注释后就可获得关键基因相关的一些数据。后来深入分析后也经常会疑惑为什么某些数据就是注释不上信息,参与到注释数据库的开发之后,对数据注释有了更深入的认识,于是写下了本篇的说明,主要解释的是功能注释。

0. 本文目的

  • 通过注释过程明白注释结果是怎么来的
  • 了解数据库的局限性

1. 基因组数据是怎么被注释的

生物的数据一般分为表格数据和序列数据。虽然生物数据有很多种格式如gff,vcf,bed等等, 但它们实际上都是以tab为分隔符的tsv表格,开头一大段####这些都是注释信息,python或者R语言读取数据的时候一般都可以跳过。

  • 序列数据

这里所说的序列数据指的是DNA(.fasta),蛋白质序列(.faa)这一类文件。

网站提供的注释流程应该是先进行序列比对,选出相似性最高的序列,搜索数据库中相关信息最后得出结果。


参考及推荐阅读

原核个性化分析
阅读原文

版权声明:
作者:cc
链接:https://www.techfm.club/p/107852.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>