用R语言实现计算高通量基因组测序数据的CNVs文献阅读
目录
这篇文献详细介绍了R语言包vcfR
的原理和效果。
Inferring Variation in Copy Number Using High Throughput Sequencing Data in R
Front. Genet., 13 April 2018 | https://doi.org/10.3389/fgene.2018.00123
计算CNVs一般有两种策略,一种是通过CNVs detection对拷贝数进行绝对定量,还有一种是通过基因整体的染色体倍数来进行相对定量。vcfR
更接近于后者。主要是通过等位对立基因的比例来推断染色体倍数以及拷贝数差异。所以会用到高通量数据比对结果的格式文件VCF(variant call foramt)。所以如果研究目的是精确定量位点基因的拷贝数,就需要另寻出路了, 比方说 (Yoon et al., 2009; Abyzov et al., 2011; Klambauer et al., 2012; Li et al., 2012)。
文章首先对三款酵母进行了验证。分别是一倍体CBS7837,二倍体 CBS2919,三倍体CBS9564。通过计算两个频度最高的两个等位对立基因的比例可以清楚的推算出各自的染色体倍数体。
可以看出CBS7837的等位对立基因频度的峰出现在1/2,所以是二倍体。CBS2919的峰出现在1/3和2/3,所以是三倍体。CBS9564更加复杂点,有三个峰,出现在1/4,3/4,1/2这个符合四倍体的特征,所以是四倍体。
文章还对更加复杂的情况进行了验证。比方说 Zhu et al., 2016的文献里,报告了二倍体酵母YJM1098的染色体出现了部分三倍体化的情况。
第XII染色体很明显不是二倍体。
vcfR
的分析结果也符合文献的结论,而且结果比观察全基因的Depth和Allele balance更加简洁易懂。
当然也可以通过调整窗口window的大小来对CNVs进行比较精准的定位。毕竟每个位置的等位对立基因的比例都不一样。不能一概而论。
如果想要查看感兴趣的区域里包含的CDS,去查找注释文件就可以。
原文还包括了其他的一些验证内容,对技术细节感兴趣的同学可以查看原文。
共有 0 条评论