水稻转录组分析Hisat2+Stringtie+Deseq2
关于流程:
Nature Communications 文章
文章从流行的39个工具中组合了120种RNA-seq分析方法,并对分析结果的精确度、效率和一致性三个层次进行了评估。
在文章的最后作者给出了ballgown自己推荐的RNAseq 分析方法 分析流程如图所示,回帖用HISAT2,组装和定量用StingTie,差异计算选择DESeq2。
软件:
hisat2 和 stringtie 都可以在anaconda上直接安装,deseq2可以使用新的Bioconductor的安装方式:
conda activate
conda create -n hisat2
conda activate hisat2
conda install hisat2
conda activate
conda create -n stringtie
conda activate stringtie
conda install stringtie
if(!requireNamespace("BiocManager", quietly=TRUE))
install.packages("BiocManager")
BiocManager::install("DESeq2", version="3.8")
预处理:
和其他数据处理一样,先把sra文件转为fastq,可以使用seqtk对fastq进行自动的trim,但还是要先用FASTQC先看一下质量,太差的数据最好还是不要用。
fastqc -o outdir -t 8 input.fastq
#-o 输出文件目录
#-t 进程数
参考资料:
https://www.jianshu.com/p/216ce84a6220
https://www.jianshu.com/p/cf4c5776fc79
https://cloud.tencent.com/developer/article/2032035
https://cloud.tencent.com/developer/article/2056795
https://www.jianshu.com/p/2cbc739669d5
https://blog.csdn.net/flashan_shensanceng/article/details/125548474
https://blog.csdn.net/weixin_39628160/article/details/110667978
https://www.cnblogs.com/triple-y/p/14246809.html
https://www.jianshu.com/p/b86e5598468b
featureCounts和StringTie是两种广泛使用的生物信息学工具,主要用于RNA-seq数据的分析,但它们的功能和重点有所不同。下面是两者的主要区别:
featureCounts
featureCounts是一个由Aaron Lun等人开发的程序,主要功能是基于比对后的reads(如BAM文件)计数到基因组特征上,如基因、外显子、启动子或基因组的固定bin。它通常用于以下目的:
读段计数:featureCounts 将reads分配给基因组中的已知特征,如基因或转录本,并输出每种特征的读段计数,这对于后续的差异表达分析至关重要。
兼容多种比对器:它可以处理由多种比对器生成的输出,包括STAR、Bowtie、TopHat等。
灵活性:用户可以指定多种参数,如是否考虑多映射reads、是否计数到外显子或基因等。
并行化:featureCounts 支持多线程,可以在多个CPU核心上同时运行,加快处理速度。
StringTie
StringTie是一个用于从RNA-seq数据中组装转录本的工具,其主要功能包括:
转录本组装:StringTie 可以从比对后的reads中重新构建转录本,包括已知的和新发现的转录本。这意味着它可以识别出新的剪接变体或未知转录本。
定量表达:除了组装之外,StringTie 还可以估计每个转录本的表达量,通常使用FPKM(fragments per kilobase of transcript per million mapped reads)作为单位。
更新注释:StringTie 可以利用RNA-seq数据更新现有的基因注释,这对于那些基因注释可能不完整或过时的物种尤为重要。
与其他工具的整合:StringTie 的输出可以被其他工具如Ballgown或Cuffdiff2用于进一步的分析,如差异表达分析。
总结
featureCounts 主要关注的是基于已有注释的特征计数,而 StringTie 更侧重于从头组装转录本和更新基因注释。
如果你的目标是进行差异表达分析且已有高质量的注释集,featureCounts 可能是一个直接的选择。
如果你对发现新的转录本或更新基因注释感兴趣,那么 StringTie 或许更适合你。
两者经常在RNA-seq管道中组合使用,其中StringTie可用于组装和更新注释,而featureCounts则用于基于更新后的注释进行读段计数。
featureCounts 和 StringTie 都可以用于RNA-seq数据分析,但在得到FPKM(Fragments Per Kilobase of transcript per Million mapped reads)方面,它们的处理方式有本质的不同。
featureCounts
featureCounts 主要是用来对RNA-seq数据进行基因或转录本级别的计数,它并不直接计算FPKM或类似标准化表达量。featureCounts 输出的是原始的计数(counts),即有多少reads被映射到了特定的基因或转录本上。然而,这些原始计数可以被进一步处理来计算FPKM或其他标准化表达量指标,例如通过使用额外的软件包如DESeq2或edgeR。这是因为featureCounts只关注于计数,而不涉及基于长度和测序深度的标准化。
StringTie
相比之下,StringTie 不仅可以组装转录本,还可以直接计算每个转录本的FPKM。StringTie 在组装转录本的同时,考虑到转录本的长度和整个文库的测序深度,从而计算出FPKM值。这使得StringTie能够提供标准化后的表达量,可以直接用于比较不同样本之间转录本的表达水平,无需额外的标准化步骤。
总结
featureCounts 提供的是未标准化的读段计数,这些计数可以被其他工具用来计算FPKM或类似标准化表达量。
StringTie 在转录本组装的过程中直接计算FPKM,提供标准化后的表达量。
当使用featureCounts时,通常会采用额外的分析步骤(如使用DESeq2或edgeR)来进行标准化和差异表达分析。而StringTie则提供了一站式的解决方案,包括转录本的组装和表达量的标准化。
在实际应用中,选择哪种工具取决于你的具体需求:如果你需要高度精确的转录本组装和直接的FPKM值,StringTie可能是更好的选择;而如果你只需要基因级别的计数并且计划使用其他工具进行标准化和差异表达分析,那么featureCounts就足够了。
版权声明:
作者:dingding
链接:https://www.techfm.club/p/131566.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论