如何下载基因组注释文件和复制链接(以GCA_000817325.1为例)
进入NCBI,search
这样就可以直接下载基因组注释文件啦
如何得到基因组注释文件的链接?
下载
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1/GCA_000817325.1_ASM81732v1_genomic.gff.gz
解压
gunzip GCA_000817325.1_ASM81732v1_genomic.gff
查找
grep '^CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS='/t' -v OFS='/t' '{if($5<10000){print $5}}'|sort|uniq|wc -l
'^CP006471.1' 抓取以该染色体序列号开头的行
awk
按行处理文件,处理完一行,再处理下一行
默认空格为分隔符,多个空格也识别为一个空格
-v FS='/t' 指定空格为输入分隔符
-v OFS='/t' 指定空格为输出分隔符(列分隔符)
$5<10000,$5,第五列, 统计前10kb的基因
sort 排序
uniq 去重
wc 统计
/t和' '完全不一样
.gff文件以/t为分隔符
如果grep的时候,以' '为分隔符,得到的结果就是错的,刚好是18(如果没有uniq去重,也是18)
版权声明:
作者:zhangchen
链接:https://www.techfm.club/p/53971.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论