靶向RNA-seq全面解决方案和加速分析，只看这篇就够了！

感冒的梵高 • 2023-07-26 08:55 • 杂文

背景

RNA-seq，即通过高通量测序技术进行的转录组测序分析技术。最初作为研究mRNA，small RNA，non-coding RNA 等表达水平、表达差异基因的应用，在过去的十几年内迅速发展。而今， RNA-seq 在转录本变异、基因融合、可变剪切检测等场景均有大规模的应用。靶向 RNA-seq 则是对特定的转录本进行重点分析，与标准RNA-seq 类似，靶向富集方法可用于评估基因表达、 RNA 种类分析，以及基因融合和突变检测，但相比标准RNA-seq，具有高灵敏度、宽动态范围、低成本与高通量等优势。
STAR 作为一款经典的比对软件，在科研与临床 RNA 测序数据分析中有着广泛的应用。相较于同样经典的 Tophat2 与 HISAT2，STAR 拥有更高的 unique mapping 比例，且对 more soft-clipped 和错配碱基比对有较高的容忍度，适用于更加复杂的分析需求。因此 STAR 成为 ENCODE 计划的御用比对软件。为了克服 STAR 运行耗时较长的弊端，Sentieon开发了对应的加速模块 Sentieon-STAR，以期缩短软件的运行时间。纳昂达利用开发的多款靶向捕获 panel 的靶向 RNA-seq 数据，对 Sentieon-STAR 相比开源 STAR 在 RNA 变异检测、基因表达定量、可变剪切检测和融合基因检测多个方面的表现进行了评估。

转录本变异检测是指通过比较样本 RNA 序列和参考基因组对应序列，来寻找单碱基多态性和小片段的插入缺失，其结果大多用于致病位点的判断或性状相关的研究。
融合基因是指两个或多个基因首尾相连，置于同一套调控序列控制之下构成的嵌合基因，其表达产物为融合蛋白。融合基因的检测在某些癌症中成为了重要的检测指标。
可变剪接，或称选择性剪接，即主要基因或者 mRNA 前体转录所产生的 RNA 的外显子以多种方式通过 RNA 剪接进行重连，由此产生的不同的mRNA可能被翻译成不同的蛋白质异构体，多数情况下这些异构体的结构与功能均有差异。可变剪接可用于研究同基因的不同转录本表达差异对性状的影响。

分析流程

分析结果

分析速度对比

我们首先考察了 Sentieon-STAR 相比 STAR 是否能够实现提速。在同样的线程数（NT=40）下，不论是 RNA-seq 数据还是靶向捕获数据，Sentieon-STAR 用时均少于 STAR（图2）。处理数据量相对少的靶向捕获数据时，Sentieon-STAR 可提速 1.0-1.5 倍，而在处理数据量大的 RNA-seq 数据时，加速模块表现更加明显，可提速 1.75-2 倍以上。

变异位点一致性比较

我们选取同一样本的 RNA-seq 和靶向捕获 RNA-seq 进行性能比较测试，包含组织样本和细胞系样本，运行经典 RNA 突变分析流程（STAR+GATK）和 Sentieon RNA 突变分析流程（Sentieon-STAR）。两个流程产生的变异分析结果显示：组织样本和细胞样本的 RNA-seq 数据的变异检测一致性均在 99.1% 以上，提示 Sentieon-STAR 加速模块对整体变异检测结果影响非常小。而在靶向捕获数据中，由于样本在靶区内变异数量偏小的原因，一致性较 RNA-seq 略低，但也保持在 98.8% 以上。由于细胞系样本的变异复杂程度低于组织样本，即使在变异位点数较少的情况下，依旧可以保持较好的一致性。

基因表达定量比较

NanOnco Plus Panel v2.0 包含实体瘤研究中被广泛关注的 565 个基因的全部编码区。靶向捕获 RNA-seq 数据在获得 Sentieon-STAR 和 STAR 比对文件后使用 HTseq-count 统计 read count 值并计算 RPKM，去除表达量为零的基因后，我们考察了靶区基因的富集程度和和相对表达丰度的重现性。
无论在何种流程下，靶向捕获 RNA-seq 对目标区域内的基因表达相对 RNA-seq 均有显著的富集效果（图 4a）。来自纳昂达内部 3 个样本的 6 组数据（含重复），其靶区基因富集倍数中位数分布在 16.3-18.6 倍之间，平均富集倍数 14.9-20.1 不等（图 4b）。不论是组织样本还是细胞系样本，线性回归的斜率均接近 1（图 4c），表明靶向捕获 RNA-seq 与 RNA-seq 的整体定量结果具有高度一致性。而 Sentieon-STAR 与 STAR 的整体结果几乎完全一致。

可变转录本定量比较

合成的 RNA 可变转录变体（Spike-In-RNA Variants，SIRVs，Lexogen）可用来模拟转录组复杂性分析。制备文库时，以极少的量加入样品中与内源性 RNA 共同建库，即可进行可变转录本定性或定量的比较分析。针对其来自 7 个人类模型基因的 69 个人工转录变体（0.16-2.5 kb），我们按照其转录本序列设计了探针。选取不同起始摩尔量的三套标准品（E0、E1、E2）混合于 K562 细胞系 RNA 中并使用相应探针进行靶向富集。该方法可考察工作流程对不同转录本注释分析的稳健性。我们分别使用 STAR以及 Sentieon-STAR 比对，随后利用 Cufflinks2 进行定量。
对 E0、E1、E2 三套标准品可变转录本定量分析后，二者分析结果高度一致，且靶向捕获数据中表达倍数分布均接近理论值。值得注意的是，个别转录本由于相比其他转录本差异极小（仅有一个外显子差异）导致转录本定量的准确度下降。供应商对此产品进行测试时也观察到同样的现象。

融合基因检测

我们使用包含 16 种已知融合事件的 RNA 标准品（Seraseq® FFPE NTRK Fusion RNA Reference Material, Seracare）进行融合基因检测对比。为了更好地模拟肿瘤 RNA 检测，我们将标准品按 50%，12.5%，3.75%，0.94%，0.23% 比例进行稀释，使用 NanOnco Plus Panel v2.0 捕获探针进行基于靶向捕获的 RNA-seq。STAR 和 Sentieon-STAR 流程被用来进行基因组比对，随后使用 STAR-Fusion 对每个样本原始 fastq 文件进行融合检测。此外，我们还测试了经典融合检测软件 Fusioncatcher。
融合软件结果对比显示各家软件在“去伪”和“存真”上各有侧重（图6）。在未做任何过滤的前提下，对于50% 的混比样本，其 Fusioncatcher、STAR 和 Sentieon-STAR 分别识别出的 junction 读数为 456，20 和 15。由于 Fusioncatcher 保留了较多信号，因此在低浓度时能保持较好的召回率（Recall rate），但其阳性预测值（Positive Predictive Value, PPV）则显著偏低。Sentieon-STAR 和 STAR 的召回率则相对较差；Sentieon-STAR 与 STAR 在 PPV 上则较为接近。这样的结果可能是由 STAR 算法改进导致的，进一步加强了 STAR-fusion 的去伪能力。为了评估测序量对低频或低拷贝数融合基因检测的影响，我们进行了多轮模拟抽样（down-sampling），并使用 Fusioncatcher 流程获取融合基因信号。结果显示当标准品混比低至 0.23% 时，即使加大测序量，其检出率至多为 62.5%（图7a）。使用 NanOnco Plus Panel v2.0 进行靶向RNA富集，3.75% 的标准品混比在原始测序 reads 达到 35M 或以上时，则可稳健地检出全部融合基因（图7b）。

我们通过对标准品、细胞系及组织样本的靶向 RNA-seq 数据分析，展示了方案在 RNA 变异检测、基因表达定量、基因可变剪切和融合基因检测等方面的具体表现。此外，Sentieon 比对软件（Sentieon-STAR）相比经典 RNA 比对软件（STAR）则可显著加速，为相关分析提供了更多选择。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案，其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下，大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度，并匹配目前全部第二代、三代测序平台。

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验，致力于解决生物数据分析中的速度与准确度瓶颈，为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案，共同推动基因技术的发展。
截至2023年3月份，Sentieon已经在全球范围内为1300+用户提供服务，被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用，引用次数超过700篇。此外，Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠，在业内获得广泛认可。

软件试用：https://www.insvast.com/sentieon

版权声明：
作者：感冒的梵高
链接：https://www.techfm.club/p/62461.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

数学计划

二维码

在凤凰的那五年（三）：院中的樱花树

< <上一篇

滕王阁序（二）

下一篇>>

搜索内容