RNA-seq比对/定量工具的选择,好的开始是成功的一半

  都4202年了,还需要纠结RNA-seq分析软件的选择么?一般来说无需在软件的选择上纠结,如果数据中的信号比较强,用什么软件都应该能检测到,改变的效应也都应该能get到,不同软件分析的结果之间的区别可能也只是表现为排序前后的细节上。可有时候理想很丰满,现实却很骨感,换个方式复盘一下在所难免。

  这个时候,选择好用的工具可以让我们事半功倍,就像标题说的那样,好的开始是成功的一半,前面的步骤秉承保证正确的前提下保留更多的结果,这样后续分析的选择性就越多,获得期望结果的可能性就越大。

  RNA-seq除去fastq质控步骤外,前期的工作就是比对/定量了,下面看看不同软件的流程产生结果之间的区别。如下图,方法一:选择kallisto直接定量,方法二:star比对后接featureCounts定量。

  可以看出绝大部分在两种方法中都能被检测到,而kallisto检测到的特异性基因更多一些,这些基因在后续分析中多半会作为背景,这对于富集分析来说应该是好事。将两种方法检测到的所有基因的表达值求和:

  从上面的图,可以看出kallisto对文库中reads的利用率更高一些,这也许是kallisto可以检测到更多基因的原因。

  下面再看另外一个数据的对比情况,其中一种方法采用了hisat2比对后接featureCounts定量。这次数据有8个样本,保留至少在一个样本中有表达值的基因。两种情况检测到的所有基因对比如下:

  差别可以说是相当的大了,还是kallisto检测到更多的基因,而且检测的特异性基因要多得多。这其中或许有基因组参考文件不同的因素,版本虽然相同,但不同数据库之间的参考基因组还是有些差别的,不过,话说回来,最大的因素应该还是分析流程的不同,但看到这个结果都有点让人怀疑参考是不是不同版本。将两种方法检测到的所有基因的表达值求和:

  同样的文库,这reads利用率的区别一下子就体现出来了。下面再看看两种情况下共有基因的表达分布:

  17554个共有基因的表达值分布在两种情况下基本没有区别,这也比较符合直觉。再看看差异基因的情况,差异分析软件都是deseq2,条件满足|log2foldchange| > 0 & p.adj < 0.05

上调差异基因:

下调差异基因:

  还是kallisto定量的结果包容更强,包含了另外一种方式的绝大部分结果。这个时候如果做选择,应该是kallisto略胜一筹。正常情况下,两种方式都应该能得到想要的结果,而kallisto的结果看起来可选择性更大。

  那么,问题来了,kallisto是如何提高reads利用率的呢?这就好像一个分蛋糕的问题,kallisto是如何将一块蛋糕分给更多的人,是把蛋糕变大了,还是分配方式更好了?Anyway,管它白猫还是黑猫,抓到老鼠就是好猫。

版权声明:
作者:倾城
链接:https://www.techfm.club/p/142412.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>