gtf文件第三列详详解(exon/CDS transcript/gene)
AAH2基因的一个转录本(是﹣链,所以起始密码子位置在后面)
1. exon外显子:包括cds,并不是所有的外显子都能编码氨基酸,5‘UTR 3'UTR,外显子可能在一些转录本中翻译,在一些转录本中不翻译
2. CDS编码区,编码蛋白质的区域
3. transcript的起始和终止位置相减,并不是转录本的长度,数字相减,中间包含内含子,所以转录本的长度(转录出来mRNA的碱基数目)应该是所有exon的加和,gtf文件里的transcript和转录本并不是一个概念
#如何计算所有exon长度的和
genomic.gtf|awk -F'/t' '$3=="exon"{split($9,x,";");name=x[2];gsub("transcript_id","",name);L[name]+=$5-$4+1}END{for (i in L) print i"/t"L[i]}'|less
4. gene长度并不一定是最长转录本的长度,基因长度的计算起始点并不总是从5'非翻译区(5' UTR)开始。基因长度是指从基因的最开始编码区域(可能是5' UTR,但也可能是更上游的区域)到基因的最末端编码区域(可能是3' UTR,但也可能是更下游的区域)的总距离。这个长度包括了所有的编码序列(外显子)和非编码序列(内含子)以及可能的5'和3'非翻译区域。
基因起始点:基因的起始点通常定义为转录起始位点(TSS, Transcription Start Site),这是RNA聚合酶开始转录RNA的DNA序列位置。TSS上游的区域可以包括调控元件如启动子,这些区域对基因的表达调控至关重要,但它们通常不被计算在内作为基因长度的一部分
共有 0 条评论