转录本的定量
一般来说大多数人做转录组的时候都只会直接使用基因定量的结果,但是要是触及到可变剪切这些内容,那么仅仅依靠基因定量是不行的,需要转录本的定量
两者的区别如下
基因水平定量:统计reads比对到哪个基因上
转录本水平定量:统计reads比对到哪个转录本上
转录组入门(6): reads计数 | Public Library of Bioinformatics (plob.org)
在转录本水平上,一般常用工具为Cufflinks和它的继任者StringTie, eXpress。这些软件要处理的难题就时转录本亚型(isoforms)之间通常是有重叠的,当二代测序读长低于转录本长度时,如何进行区分?这些工具大多采用的都是expectation maximization(EM)。
RSEM进行转录本定量:
RSEM (RNA-Seq by Expectation Maximization) 是一个非常实用的工具,可以用于定量RNA-Seq数据中的转录本丰度。
1. 下载和安装RSEM
conda install -c bioconda rsem
2. 创建RSEM索引
在分析数据之前,你需要为参考基因组创建一个索引。这个步骤只需要在开始时运行一次。
rsem-prepare-reference --gtf genome.gtf genome.fa reference_name -p 9
在这个命令中,genome.gtf
是你的基因组GTF注释文件,genome.fa
是你的基因组文件,reference_name
是你想要给索引文件的名字,-p 9
表示使用9个线程进行计算。
3. 使用RSEM计算表达量
有了索引,你就可以开始使用RSEM计算RNA-Seq数据的表达量了。
rsem-calculate-expression --paired-end --no-bam-output --alignments -p 8 aligned.bam reference_name sample_name
在这个命令中,--paired-end
表示你的数据是双端测序数据,--no-bam-output
表示你不想输出BAM文件,--alignments
表示输入文件是BAM文件,-p 8
表示使用8个线程进行计算,aligned.bam
是你的比对结果(例如,用STAR比对得到的),reference_name
是你之前创建的索引文件的名字,sample_name
是你想要给输出文件的名字。
运行这个命令后,RSEM会输出包含表达量估计的结果文件,如sample_name.genes.results
(基于基因水平的定量结果)和sample_name.isoforms.results
(基于转录本水平的定量结果)。每个结果文件中都包含了对应的ID,长度,有效长度,预期的计数,转录本每百万(TPM),每千碱基每百万(FPKM)等信息。
转录组分析 | 使用RSEM进行转录本定量 - 知乎 (zhihu.com)
stringTie:转录本组装和定量工具 - 云+社区 - 腾讯云 (tencent.com)
转录本定量(二代、三代)——salmon、stringtie - becky_gogogo - 博客园 (cnblogs.com)
基因水平定量与转录本水平定量区别 - 简书 (jianshu.com)
共有 0 条评论