测序文件中的reads、contig、scaffold
在高通量测序(High-Throughput Sequencing, HTS)中,reads、contig 和 scaffold 是基因组组装和分析中的重要概念,它们描述了不同层级的序列数据。以下是详细解释:
1. Reads(读段)
定义:
Reads 是测序仪生成的原始序列片段,通常是基因组测序的最基本单元。它们是从样本 DNA 中随机分布的片段中测序得到的,长度一般为几十到几百个碱基对,具体长度取决于测序平台。
特点:
- 短读长(Short Reads):Illumina 平台一般为 50–300 bp。
- 长读长(Long Reads):PacBio 或 Oxford Nanopore 可达数千到几万 bp。
- Reads 通常是原始数据,可能包含测序错误,需要质量控制和过滤。
用途:
- 用于基因组装的初始输入。
- 对比参考基因组以进行变异检测(如 SNP 和 INDEL)。
2. Contig(重叠群/拼接序列)
定义:
Contig 是通过将重叠的 reads 拼接起来生成的连续序列,是基因组组装的第一步结果。它们代表基因组中的一段连贯序列,通常没有包含未知碱基(N)。
特点:
- 连续且没有间隙(gap)。
- 长度取决于测序覆盖度和组装算法的性能。
- 数量多,长度短于 scaffold。
用途:
- 表示局部基因组片段。
- 用于进一步的 scaffold 构建。
3. Scaffold(框架序列/支架)
定义:
Scaffold 是在 contig 基础上,通过信息(如配对末端测序数据、物理图谱或 Hi-C 数据)将多个 contig 连接起来生成的更长序列。连接的 contig 之间可能包含未知碱基(N),表示组装时无法明确的间隙。
特点:
- 包含间隙(gap),用一串 N 表示。
- 长度更接近真实染色体长度。
- 能提供更高的基因组结构信息(如 contig 的排列和方向)。
用途:
- 构建接近完整的基因组序列。
- 为基因注释和基因组比较分析提供框架。
三者关系与层级
- Reads: 测序的原始片段,最基础的数据。
- Contig: 将重叠的 reads 组装成连续序列,表示局部基因组区域。
- Scaffold: 通过结合额外信息(如配对末端 reads),将 contig 按顺序和方向连接起来,代表更大的基因组结构。
示例:
假设一个基因组片段的真实序列为:
ATCGGCTAAGCTTAGGCTTACGATCG
-
测序生成的 reads:
Read 1: ATCGGCTAA Read 2: GCTAAGCTT Read 3: AGGCTTACG Read 4: TTACGATCG
-
拼接成 contig:
Contig 1: ATCGGCTAAGCTTAGGCTTACGATCG
-
如果组装过程存在不确定区域,可能得到 scaffold:
Scaffold 1: ATCGGCTAAGCTTNNNNNNNNNNTACGATCG
实际应用中的思考
- 如果测序数据量足够且组装算法强大,contig 和 scaffold 的长度可以接近染色体级别。
- 使用额外的实验数据(如 Hi-C 或光学图谱),可以进一步将 scaffold 提升为染色体级别的组装。
通过理解这三个概念,可以更好地理解基因组组装过程和数据处理的不同阶段。
共有 0 条评论