肿瘤生信分析工具

人全基因组重测序(WGS)是对已有参考基因组的物种进行个体或群体的基因组测序,检测单核苷酸多态性位点(SNV)、插入缺失(InDel)、结构变异(SV)、拷贝数变异(CNV),全基因组水平上扫描并检测与表型差异、疾病、进化等相关的突变位点。人类全基因组重测序可用于复杂疾病的致病基因及易感基因的筛选,阐明疾病发病机制,家族性遗传疾病致病机理研究;特殊罕见病例致病基因寻找,致病机理研究;癌症致病机理研究。

肿瘤是一种多基因复杂疾病,肿瘤的发生必然伴随着不同类型及程度的基因组的改变。所有的肿瘤都是因为肿瘤细胞基因组中DNA序列改变导致的,分析肿瘤基因组序列和结构变异是理解肿瘤生物学的首要步骤,而肿瘤基因组研究的关键是寻找和识别那些赋予细胞生长优势的驱动基因突变。基于全基因组重测序的肿瘤分析,是将同类癌症的患者成对取样,采集病人肿瘤组织样本和癌旁组织或者血液样本,通过高通量测序技术进行生物学分析。

一般的信息分析流程如下:

1. 数据处理及质控:将原始下机数据进行过滤并评估测序质量;

对于下机数据,执行去接头、过滤低质量reads(Q30)、去除低质量的3’和5’端,去除N较多的reads,Insert size质控等。

对于clean reads,其Q30reads的比例必须高于85%。接头污染的比例低于10%,低质量reads比例低于10%。AT,CG不分离,基因组比对率高于高于95%,目标区域的覆盖率高于95%,Duplication小于20%,捕获特异性高于60%,SNP数量大致在10^2和10^3左右。

关于插入片段的峰值,ctDNA一般是~170bp+150bp左右接头序列,组织或细胞gDNA中为~200bp+160bp左右接头序列。

2. 比对及质控:将过滤后的数据比对到参考基因组上并对相应指标质控;

重测序采用的是BWA于参考基因组进行比对,人重参考基因组使用最广的是来源于UCSC数据库中hg19。比对后采用samtools进行排序。排序后,需要对bam文件去掉因为PCR扩增引起的duplication reads,避免错误统计突变数目和比例,这时一般采用的是picard软件( http://broadinstitute.github.io/picard/)。同时还利用GATK( McKenna, A. et al., 2010)对InDel周围的序列进行局部重新比对,降低SNV检测假阳性。经过以上一系列处理得到用于变异检测的高准确性比对结果的BAM文件。

3. Somatic Mutation检测及注释:检测成对样本的Somatic SNV、InDel、SV、CNV和LOH,并进行各数据库的注释和分析;

体细胞突变( Somatic Mutation)是指除生殖细胞外的体细胞所发生的变异,如发生在器官和组织的变异。这些变异是肿瘤样品所特有的,其并不来源于父母,也不会传递给后代,往往跟肿瘤的发生和发展有着密切关系,是肿瘤研究中的重点,对于揭示肿瘤发生发展机制有着重要作用。SNV( Single Nucleotide Variation)是基因组上单个碱基发生改变的位点,在基因组上广泛分布。通过软件MuTect2(Cibulskis et al., 2013)对成对样品进行Somatic SNV检测,采用软件默认参数对检测结果进行过滤,最终得到高可信度的Somatic SNV结果。

通过ANNOVAR( Wang, K. et al., 2010)软件对各对样品的Somatic SNV过滤结果进行注释,主要包括三方面:基于基因、基因组区域以及过滤功能的注释。基于基因的数据库注释,主要注释该变异所在的基因名称、是否影响编码蛋白以及所影响的氨基酸位置信息,如RefGene数据库的注释;基于基因组区域的数据库注释,主要注释该变异所位于的基因组功能区域,如gene、exon、 UTR、转录因子结合位点等,如tfbsConsSites数据库的注释;基于过滤功能的数据库注释,主要注释该变异是否出现在一些常见数据库中以及该变异的保守性和致病性,如1000 Genome、 dbSNP、 dbNSFP等数据库的注释。1000 Genome、 dbSNP、 dbNSFP,ExAC这些数据库注释出突变频率,用于筛选突变,另外采用COSMIC,ClinVar,HGMD等数据库注释已有文献报道的情况,然后采用SIFT,polyphen2对突变进行功能注释。供后续进行临床诊断和分析。

4.InDel检测和注释

InDel( insertion or deletion)是基因组上2-50 bp范围内碱基的插入或缺失突变。与Somatic SNV一样, Somatic InDel通过软件MuTect2(Cibulskis et al., 2013)进行变异检测及过滤,对每对样本所检测到的高质量体细胞InDel个数进行统计,同时利用ANNOVAR对InDel进行数据库注释。

5 SV检测和注释

染色体结构变异( Structural variation, SV)是染色体变异的一种,是内因和外因共同作用的结果,外因有各种射线、化学药剂、温度的剧变等,内因有生物体内代谢过程的失调、衰老等。染色体结构变异的主要类型有缺失、重复、倒位和易位。染色体结构的改变,会使排列在染色体上的基因数目和排列顺序发生改变,从而导致性状的变异。大多数染色体结构变异对生物体是不利的,有的甚至会导生物体死亡。稀有且相同的一些结构性变异往往和疾病(包括一些癌症)的发生相关联甚至还是其致病的诱因。在比对到参考基因组序列的基础上,通过染色体结构变异分析软件DELLY2(Rausch, T. et al., 2012)检测成对样品中全基因组所有潜在的SV位点。使用ANNOVAR软件及相关的数据库及预测分值等信息对检测到的SV进行相应的注释。

6 CNV检测和注释

拷贝数目变异( Copy Number Variant, CNV),也称拷贝数目多态性( CNP),是指与参考序列相比,基因组中1 KB至几MB的DNA片段的变异,包括插入、缺失、扩增及其相互组合衍生出的复杂染色体结构变异。CNV在很多物种的基因组中均存在,且分布广泛。 CNV涉及到DNA的片段通常比较大,故其覆盖的核苷酸总数远远超过SNVs的总数。 CNV包含的信息量通常是SNVs的几倍,极大地丰富了基因组遗传变异的多样性。CNV对物种的选择和进化以及基因组某些特定区域基因的表达和调控可能具有非常重要的生物学意义。

对肿瘤研究而言,基因组片段的缺失和扩增可能与抑癌基因和癌基因相关。本分析采用Control-FREEC(Boeva, V. et al., 2011)进行体细胞的CNV( Somatic CNV)检测,它能够分析超二倍体的肿瘤样本以及混杂了正常细胞的肿瘤样本。利用Decipher、 DGV和ISCA这3个CNV专业数据库对Somatic CNV检测结果进行注释,

7 融合基因分析

融合基因是指两个基因的全部或一部分序列相互融合为一个新的基因,是染色体易位、中间缺失或染色体倒置所致的结果,通常具有致瘤性,在各种不同的肿瘤中普遍存在。基因融合是肿瘤的普遍特征,可促进肿瘤的发生和发展,并可作为肿瘤的分子诊断和治疗靶标。基于Somatic SV 的结果,分析可能存在的基因组层面的融合基因,并对其进行注释。将分析预测得到的融合基因与已知的融合基因( COSMIC数据库)进行比对。

版权声明:
作者:Zad
链接:https://www.techfm.club/p/193748.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>