生信log45|基因组数据注释到底是怎么回事?

cc • 2024-02-18 10:52 • 杂文

生信log|基因组数据注释到底是怎么回事?

在一开始做生信分析的时候，我对下游的分析其实不太了解，当时频繁接触到的概念叫“注释”，注释后就可获得关键基因相关的一些数据。后来深入分析后也经常会疑惑为什么某些数据就是注释不上信息，参与到注释数据库的开发之后，对数据注释有了更深入的认识，于是写下了本篇的说明，主要解释的是功能注释。

生物的数据一般分为表格数据和序列数据。虽然生物数据有很多种格式如gff,vcf,bed等等，但它们实际上都是以tab为分隔符的tsv表格，开头一大段####这些都是注释信息，python或者R语言读取数据的时候一般都可以跳过。

这里所说的序列数据指的是DNA（.fasta），蛋白质序列（.faa）这一类文件。

网站提供的注释流程应该是先进行序列比对，选出相似性最高的序列，搜索数据库中相关信息最后得出结果。

参考及推荐阅读

原核个性化分析
 阅读原文

版权声明：
作者：cc
链接：https://www.techfm.club/p/107852.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

网站语言

二维码

那些没有结局的故事（1）

AI写作引发的一点害怕

下一篇>>

搜索内容