转录本的定量

cc • 2023-11-16 03:16 • 杂文

一般来说大多数人做转录组的时候都只会直接使用基因定量的结果，但是要是触及到可变剪切这些内容，那么仅仅依靠基因定量是不行的，需要转录本的定量

两者的区别如下

基因水平定量：统计reads比对到哪个基因上

image.png

转录本水平定量：统计reads比对到哪个转录本上

image.png

转录组入门（6）： reads计数 | Public Library of Bioinformatics (plob.org)

在转录本水平上，一般常用工具为Cufflinks和它的继任者StringTie， eXpress。这些软件要处理的难题就时转录本亚型（isoforms）之间通常是有重叠的，当二代测序读长低于转录本长度时，如何进行区分？这些工具大多采用的都是expectation maximization（EM）。

RSEM进行转录本定量：

RSEM (RNA-Seq by Expectation Maximization) 是一个非常实用的工具，可以用于定量RNA-Seq数据中的转录本丰度。

1. 下载和安装RSEM

conda install -c bioconda rsem

2. 创建RSEM索引

在分析数据之前，你需要为参考基因组创建一个索引。这个步骤只需要在开始时运行一次。

rsem-prepare-reference --gtf genome.gtf genome.fa reference_name -p 9

在这个命令中，genome.gtf是你的基因组GTF注释文件，genome.fa是你的基因组文件，reference_name是你想要给索引文件的名字，-p 9表示使用9个线程进行计算。

3. 使用RSEM计算表达量

有了索引，你就可以开始使用RSEM计算RNA-Seq数据的表达量了。

rsem-calculate-expression --paired-end --no-bam-output --alignments -p 8 aligned.bam reference_name sample_name

在这个命令中，--paired-end表示你的数据是双端测序数据，--no-bam-output表示你不想输出BAM文件，--alignments表示输入文件是BAM文件，-p 8表示使用8个线程进行计算，aligned.bam是你的比对结果（例如，用STAR比对得到的），reference_name是你之前创建的索引文件的名字，sample_name是你想要给输出文件的名字。

运行这个命令后，RSEM会输出包含表达量估计的结果文件，如sample_name.genes.results（基于基因水平的定量结果）和sample_name.isoforms.results（基于转录本水平的定量结果）。每个结果文件中都包含了对应的ID，长度，有效长度，预期的计数，转录本每百万（TPM），每千碱基每百万（FPKM）等信息。

转录组分析 | 使用RSEM进行转录本定量 - 知乎 (zhihu.com)

stringTie:转录本组装和定量工具 - 云+社区 - 腾讯云 (tencent.com)

转录本定量（二代、三代）——salmon、stringtie - becky_gogogo - 博客园 (cnblogs.com)
基因水平定量与转录本水平定量区别 - 简书 (jianshu.com)

版权声明：
作者：cc
链接：https://www.techfm.club/p/85171.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码