测序文件中的reads、contig、scaffold

siwei • 2025-01-17 15:52 • 杂文

在高通量测序（High-Throughput Sequencing, HTS）中，reads、contig 和 scaffold 是基因组组装和分析中的重要概念，它们描述了不同层级的序列数据。以下是详细解释：

定义：
Reads 是测序仪生成的原始序列片段，通常是基因组测序的最基本单元。它们是从样本 DNA 中随机分布的片段中测序得到的，长度一般为几十到几百个碱基对，具体长度取决于测序平台。

特点：

用途：

定义：
Contig 是通过将重叠的 reads 拼接起来生成的连续序列，是基因组组装的第一步结果。它们代表基因组中的一段连贯序列，通常没有包含未知碱基（N）。

特点：

用途：

定义：
Scaffold 是在 contig 基础上，通过信息（如配对末端测序数据、物理图谱或 Hi-C 数据）将多个 contig 连接起来生成的更长序列。连接的 contig 之间可能包含未知碱基（N），表示组装时无法明确的间隙。

特点：

用途：

假设一个基因组片段的真实序列为：

ATCGGCTAAGCTTAGGCTTACGATCG

测序生成的 reads：

Read 1: ATCGGCTAA
Read 2: GCTAAGCTT
Read 3: AGGCTTACG
Read 4: TTACGATCG

拼接成 contig：
```
Contig 1: ATCGGCTAAGCTTAGGCTTACGATCG
```
如果组装过程存在不确定区域，可能得到 scaffold：
```
Scaffold 1: ATCGGCTAAGCTTNNNNNNNNNNTACGATCG
```

通过理解这三个概念，可以更好地理解基因组组装过程和数据处理的不同阶段。

版权声明：
作者：siwei
链接：https://www.techfm.club/p/184502.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

思考随机

二维码

赵雷经纪人丨民谣巨星的音乐旅程

曼斯切斯特大学/华东师范大学，今日Nature！

下一篇>>

搜索内容