转录本的定量

一般来说大多数人做转录组的时候都只会直接使用基因定量的结果,但是要是触及到可变剪切这些内容,那么仅仅依靠基因定量是不行的,需要转录本的定量

两者的区别如下

基因水平定量:统计reads比对到哪个基因上

image.png

转录本水平定量:统计reads比对到哪个转录本上

image.png

转录组入门(6): reads计数 | Public Library of Bioinformatics (plob.org)

在转录本水平上,一般常用工具为Cufflinks和它的继任者StringTie, eXpress。这些软件要处理的难题就时转录本亚型(isoforms)之间通常是有重叠的,当二代测序读长低于转录本长度时,如何进行区分?这些工具大多采用的都是expectation maximization(EM)。

RSEM进行转录本定量:

RSEM (RNA-Seq by Expectation Maximization) 是一个非常实用的工具,可以用于定量RNA-Seq数据中的转录本丰度。

1. 下载和安装RSEM

conda install -c bioconda rsem

2. 创建RSEM索引

在分析数据之前,你需要为参考基因组创建一个索引。这个步骤只需要在开始时运行一次。

rsem-prepare-reference --gtf genome.gtf genome.fa reference_name -p 9

在这个命令中,genome.gtf是你的基因组GTF注释文件,genome.fa是你的基因组文件,reference_name是你想要给索引文件的名字,-p 9表示使用9个线程进行计算。

3. 使用RSEM计算表达量

有了索引,你就可以开始使用RSEM计算RNA-Seq数据的表达量了。

rsem-calculate-expression --paired-end --no-bam-output --alignments -p 8 aligned.bam reference_name sample_name

在这个命令中,--paired-end表示你的数据是双端测序数据,--no-bam-output表示你不想输出BAM文件,--alignments表示输入文件是BAM文件,-p 8表示使用8个线程进行计算,aligned.bam是你的比对结果(例如,用STAR比对得到的),reference_name是你之前创建的索引文件的名字,sample_name是你想要给输出文件的名字。

运行这个命令后,RSEM会输出包含表达量估计的结果文件,如sample_name.genes.results(基于基因水平的定量结果)和sample_name.isoforms.results(基于转录本水平的定量结果)。每个结果文件中都包含了对应的ID,长度,有效长度,预期的计数,转录本每百万(TPM),每千碱基每百万(FPKM)等信息。

转录组分析 | 使用RSEM进行转录本定量 - 知乎 (zhihu.com)

stringTie:转录本组装和定量工具 - 云+社区 - 腾讯云 (tencent.com)

转录本定量(二代、三代)——salmon、stringtie - becky_gogogo - 博客园 (cnblogs.com)
基因水平定量与转录本水平定量区别 - 简书 (jianshu.com)

版权声明:
作者:cc
链接:https://www.techfm.club/p/85171.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>