gtf文件第三列详详解(exon/CDS transcript/gene)

AAH2基因的一个转录本(是﹣链,所以起始密码子位置在后面)

1. exon外显子:包括cds,并不是所有的外显子都能编码氨基酸,5‘UTR 3'UTR,外显子可能在一些转录本中翻译,在一些转录本中不翻译

2. CDS编码区,编码蛋白质的区域

3. transcript的起始和终止位置相减,并不是转录本的长度,数字相减,中间包含内含子,所以转录本的长度(转录出来mRNA的碱基数目)应该是所有exon的加和,gtf文件里的transcript和转录本并不是一个概念

#如何计算所有exon长度的和

genomic.gtf|awk -F'/t' '$3=="exon"{split($9,x,";");name=x[2];gsub("transcript_id","",name);L[name]+=$5-$4+1}END{for (i in L) print i"/t"L[i]}'|less

4. gene长度并不一定是最长转录本的长度,基因长度的计算起始点并不总是从5'非翻译区(5' UTR)开始。基因长度是指从基因的最开始编码区域(可能是5' UTR,但也可能是更上游的区域)到基因的最末端编码区域(可能是3' UTR,但也可能是更下游的区域)的总距离。这个长度包括了所有的编码序列(外显子)和非编码序列(内含子)以及可能的5'和3'非翻译区域。

基因起始点:基因的起始点通常定义为转录起始位点(TSS, Transcription Start Site),这是RNA聚合酶开始转录RNA的DNA序列位置。TSS上游的区域可以包括调控元件如启动子,这些区域对基因的表达调控至关重要,但它们通常不被计算在内作为基因长度的一部分

版权声明:
作者:主机优惠
链接:https://www.techfm.club/p/109871.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>