文献分享 | 利用肠道宏基因组测序数据中人类基因组读数重建个人信息

粪便样本中存在的人类DNA可重建肠道宏基因组测序数据中的少量人类信息。然而,目前还不清楚有多少个人信息可以从这样的读取重建,这还没有定量评估。

在人类微生物组计划(Human Microbiome project)中,从不同的身体部位收集了宏基因组数据,得到了大量的人类DNA。人类微生物组计划数据集中的人类数据可能使个体的全基因组突变调用和重新识别成为可能。鉴于人类种系基因型是高度机密的信息,在数据共享时应谨慎,在保存前应删除宏基因组数据中的人类数据。此外,人类种系基因信息的发现依赖于直接的生殖系变异,不能直接使用肠道宏基因组数据获得。这是因为粪便样本中人类DNA的含量太少,无法进行可靠的基因型识别。例如,在人类微生物组计划中,肠道宏基因组数据中人类衍生reads的平均比例为1%,如果对10G碱基对进行测序,则人类基因组覆盖率仅为0.03倍。从如此少的读数中是否可以重建其他个人信息(即性别预测、来自其他数据集的再识别和祖先预测)尚未得到定量评估,目前尚不清楚。为了澄清与数据共享相关的伦理问题,有必要揭示在没有人为读取删除的情况下,从肠道宏基因组数据中可以恢复哪些个人信息。除了伦理问题,人类解读肠道宏基因组数据也是一个有用的资源,也可用于研究和法医。

在2023年5月15日日本学者Yoshihiko Tomofuji在《nature microbiology》上发表题为《Reconstruction of the personal information from human genome reads in gut metagenome sequencing data》文章,使用基因组学方法从343名日本人的粪便宏基因组中重建个人信息,并提供相关的人类基因型数据。

一、预测遗传性别

由于人类肠道宏基因组数据的性别预测性能尚未得到评估。并且肠道宏基因组数据的性别预测可能有助于消除人类微生物组研究中错误标记的样本,就像在人类遗传学领域所做的那样。故该文献通过对野生动物粪便样本DNA进行PCR扩增标记基因来进行性别预测。结果表明97.3%的样本口通过性染色体测序深度准确预测遗传性别。

二、肠道宏基因组数据的识别能力

基于似然评分的方法具有扩展到生物库规模数据的能力,并且通过引入对显著性阈值的多重检验校正可以很容易地控制其1型误差。因此,鉴定肠道宏基因组数据集和生物库规模的基因型数据之间的样本重叠在理论上是可行的。在某些特殊情况下,即使经过人类读取过滤,可识别的信息也可能保留在肠道宏基因组数据中。虽然与家族数据相关的假阳性可能是我们方法的潜在限制,但这也意味着家族关系可以从肠道宏基因组数据推断出来,这可能会引起额外的伦理问题。除了伦理问题外,我们的重新鉴定方法可用于肠道宏基因组和人类种系基因型数据的多组学数据集的质量控制,以及基于粪便样本的法医鉴定。

三、祖先预测

鉴于许多疾病(例如,2型糖尿病和克罗恩病)的发病率在不同遗传祖先之间存在差异,遗传祖先信息可能揭示个人疾病风险等高度机密信息。使用基于似然评分的方法,基于从粪便宏基因组数据中恢复的人类读数,可以从匹配的基因型数据中重新识别个体,灵敏度为93.3%。该方法还使我们能够预测98.3%的样本的祖先。

四、从超深肠道宏基因组数据中重建的常见变异

最后,作者对5个粪便样本进行了超深鸟枪宏基因组测序,并对血液样本进行了全基因组测序。使用基因型calling方法,我们证明了常见和罕见变异的基因型都可以从粪便样本中重建。这包括临床相关的变异。这表明从肠道宏基因组数据重建的罕见变异信息可以揭示个体的疾病风险。

综上所述,我们使用优化的方法从肠道宏基因组数据中重构了个人信息。作者的结果将为考虑肠道宏基因组数据重建的最佳实践提供有用的资源,并为人类微生物组研究的可持续发展做出贡献。

参考文献

Tomofuji, Yoshihiko, et al. "Reconstruction of the personal information from human genome reads in gut metagenome sequencing data." Nature Microbiology (2023): 1-16.

版权声明:
作者:zhangchen
链接:https://www.techfm.club/p/145811.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>