测序文件中的reads、contig、scaffold

在高通量测序(High-Throughput Sequencing, HTS)中,readscontigscaffold 是基因组组装和分析中的重要概念,它们描述了不同层级的序列数据。以下是详细解释:


1. Reads(读段)

定义:
Reads 是测序仪生成的原始序列片段,通常是基因组测序的最基本单元。它们是从样本 DNA 中随机分布的片段中测序得到的,长度一般为几十到几百个碱基对,具体长度取决于测序平台。

特点:

  • 短读长(Short Reads):Illumina 平台一般为 50–300 bp。
  • 长读长(Long Reads):PacBio 或 Oxford Nanopore 可达数千到几万 bp。
  • Reads 通常是原始数据,可能包含测序错误,需要质量控制和过滤。

用途:

  • 用于基因组装的初始输入。
  • 对比参考基因组以进行变异检测(如 SNP 和 INDEL)。

2. Contig(重叠群/拼接序列)

定义:
Contig 是通过将重叠的 reads 拼接起来生成的连续序列,是基因组组装的第一步结果。它们代表基因组中的一段连贯序列,通常没有包含未知碱基(N)。

特点:

  • 连续且没有间隙(gap)。
  • 长度取决于测序覆盖度和组装算法的性能。
  • 数量多,长度短于 scaffold。

用途:

  • 表示局部基因组片段。
  • 用于进一步的 scaffold 构建。

3. Scaffold(框架序列/支架)

定义:
Scaffold 是在 contig 基础上,通过信息(如配对末端测序数据、物理图谱或 Hi-C 数据)将多个 contig 连接起来生成的更长序列。连接的 contig 之间可能包含未知碱基(N),表示组装时无法明确的间隙。

特点:

  • 包含间隙(gap),用一串 N 表示。
  • 长度更接近真实染色体长度。
  • 能提供更高的基因组结构信息(如 contig 的排列和方向)。

用途:

  • 构建接近完整的基因组序列。
  • 为基因注释和基因组比较分析提供框架。

三者关系与层级

  1. Reads: 测序的原始片段,最基础的数据。
  2. Contig: 将重叠的 reads 组装成连续序列,表示局部基因组区域。
  3. Scaffold: 通过结合额外信息(如配对末端 reads),将 contig 按顺序和方向连接起来,代表更大的基因组结构。

示例:

假设一个基因组片段的真实序列为:

ATCGGCTAAGCTTAGGCTTACGATCG
  • 测序生成的 reads:

    Read 1: ATCGGCTAA
    Read 2: GCTAAGCTT
    Read 3: AGGCTTACG
    Read 4: TTACGATCG
    
  • 拼接成 contig:

    Contig 1: ATCGGCTAAGCTTAGGCTTACGATCG
    
  • 如果组装过程存在不确定区域,可能得到 scaffold:

    Scaffold 1: ATCGGCTAAGCTTNNNNNNNNNNTACGATCG
    

实际应用中的思考

  • 如果测序数据量足够且组装算法强大,contig 和 scaffold 的长度可以接近染色体级别
  • 使用额外的实验数据(如 Hi-C 或光学图谱),可以进一步将 scaffold 提升为染色体级别的组装。

通过理解这三个概念,可以更好地理解基因组组装过程和数据处理的不同阶段。

版权声明:
作者:siwei
链接:https://www.techfm.club/p/184502.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>