Nature | 空转必看文献推荐,化腐朽为神奇

  最近看了不少关于空间转录组的文献,其中印象最为深刻的还是2022年发表在nature上的文章:Spatial multi-omic map of human myocardial infarction。该文章结合了单细胞核基因表达(snRNA-seq),染色质可及性(snATAC-seq)和空间转录组分析(stRNA-seq),构建了心肌梗死后人类心脏重塑的综合高分辨率图谱。该文章在数据分析上面确实有很多值得借鉴的地方,因此,网络上有不少翻译和解读这篇文章的推文。抛开这些不说,最让我印象深刻的点是数据质量,看了文章会被其中内容所吸引,但如果亲自探索一下这个公共数据就会感受到这其中化腐朽为神奇的能力,一定会另有所获。

  文章中空间转录组的数据包含来自23个个体的31个样本,经过质控最终获得91517个spots,平均每个样本3389个spots,每个spot表达的基因为2001。在数据预处理过程中,为了消除线粒体基因的影响,选择直接删除的方式,而不是像单转那样根据线粒体基因的reads占比来过滤

空转数据质控标准:

单转数据质控标准:

  线粒体基因的表达情况能够反映细胞的状态,移除线粒体基因reads占比过高的细胞,以减少后续分析中的噪声,可以提高数据的准确性。可文章的空转数据为什么不这样做呢?回答这个问题得用数据来说话,下图为下载的公共数据(23个病人和4个对照)的结果,文章提供的数据为处理后的数据,格式为h5ad

  从上图和前面snRNA-seq的质控标准可以知道,正常细胞中线粒体基因表达的reads占比并不高,如果按照线粒体基因reads占比来过滤,空转数据中大部分spot都得丢失,由此可见空转的数据质量本身并不好。

  其实,如果了解10x Visium数据的定量过程,会更为惊讶!因为定量的时候需要提供Transcriptome Probe Set文件,以v2.0版本为例,里面共包含18536个基因,其中线粒体基因12个。

  通常情况下90%以上的reads会回帖到Probe Set上,这说明测序的绝大部分readsProbe Set里面的基因相关。现在再回过头看看文章中线粒体reads的占比情况,一时间令人陷入沉思。如果再考虑到每个spot表达的基因数为2001,那些线粒体基因reads占比高的细胞中其他基因的表达情况可想而知。

  这样的数据想要得到有效的生物学意义,处理起来肯定不容易,比如就连最简单的UMAP图都要另辟蹊径,其他可能面临的挑战自不会少。由此可见,空转数据就好像起手一副烂牌却硬生生打出王炸的逆袭,着实优秀,真是不可多得的学习资料,不看很吃亏的。

版权声明:
作者:zhangchen
链接:https://www.techfm.club/p/123912.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>