绘制基因簇和转录本的 R 包及5种可视化

最近在用一款R包geneviewer,很不错分享给大家。

许多朋友私信询问如何绘制基因簇和转录本。在此,我推荐使用 geneviewer,这是一款专门用于绘制基因簇和转录本的 R 包。

该包能够从 GenBank、FASTA 和 GFF 文件中导入数据,执行 BlastP 和 MUMmer 比对,并将结果显示在基因箭头图上。

geneviewer 还提供了丰富的自定义选项,允许用户根据需要调整图例、标签、注释、比例、颜色以及工具提示等元素。

1、安装包并加载

install.packages("geneviewer")

library(geneviewer)

2、运行代码——介绍5种图

(1)第一种图

出图——基因簇图(Gene Cluster Chart)

用来可视化基因簇在基因组中的位置及其分类信息。

可以看到不同基因(或基因簇)在基因组中的分布,以及它们所属的功能类别。

1.基因位置(Gene Position)

基因簇的起始位置(start)和结束位置(end)定义了基因在基因组中的区域。基因簇会被绘制为水平的条形图,条形的起始和结束点代表基因的起始和结束位置。

每个条形图上的位置可以帮助了解基因在染色体上的相对位置。例如,基因ophB1位于位置 2522 至 4276,进而确认基因的物理位置。

2.基因分类(Gene Classification)

每个基因簇的颜色代表了基因的功能分类,这些分类存储在class列中。例如,基因ophB1属于Monooxygenase(单氧化酶)类别。

图中通过group = "class"来为每个基因簇着色,使得同一类基因显示相同颜色,从而能够快速区分不同的基因类别。

3.基因名称(Gene Name)

GC_labels("name"),这是让每个基因簇上会显示基因的名称,如ophB1、ophC等。可以直观地识别每个基因的具体名称,特别是当有多个基因簇时,名称标签能快速识别。

4.功能信息

通过class列中的分类信息,可以知道每个基因簇的功能。例如:

Monooxygenase与某些代谢过程(如氧化反应)相关;

Methyltransferase参与甲基化反应;

Prolyloligopeptidase与蛋白质降解过程相关;

F-box/RNHI-like与细胞周期调控或信号转导相关。

5.基因簇之间的相对位置

该图还能够显示基因簇之间的距离。例如,从图中看出,基因簇ophB1(2522-4276)和ophC(5286-4718)之间是否存在较大的间隔,或者它们是否在基因组上较为紧密地排列。紧密排列的基因可能在进化上有某些联系,或者它们在功能上有协同作用。以此类推。

(2)第二种图

start 和 end:基因的起始和结束位置。Gene_symbol:基因的符号,如 lacA、lacY 等。Strand:表示基因所在的链(在这里是负链“minus”)。NCBI_Gene_ID:基因在NCBI中的ID。Description:每个基因的功能描述。

出图——lacZ 操作子(lac operon)的基因簇图

展示了lacZ 操作子的四个关键基因(lacA、lacY、lacZ、lacI)在大肠杆菌基因组中的位置及其功能,通过图中的交互功能和细节信息,可以更直观地了解这些基因的分布、功能和基因组结构

通过鼠标悬停查看每个基因的详细信息,图中还会有比例尺和基因名称标签,以及底部的注释说明。

1.基因位置

该图将展示lacA、lacY、lacZ和lacI基因在大肠杆菌基因组中的位置。

每个基因簇在图中用条形表示,条形的起始位置和结束位置对应数据框中的start和end列。

2.基因功能

图中的每个基因有一个简短的功能描述,例如:

lacZ是beta-galactosidase

这些信息能帮助快速了解这些基因的功能。

3.基因簇的方向

所有基因都位于负链(Strand = "minus"),这是通过Strand列提供的信息。

负链上的基因通常以反向方向进行转录。

4.图示比例尺

图中会显示一个比例尺,用来估计基因之间的相对距离(例如每 200 单位代表 0.2 kb)。

5.交互性

通过鼠标悬停,用户可以查看详细信息,包括每个基因的 ID、功能、起始和结束位置等。

6.大肠杆菌基因组背景

底部的说明文本标明这个基因簇来源于Escherichia coliK-12 substr. MG1655。这是大肠杆菌的一个标准实验室菌株,用于分子生物学研究。

(3)第三种图

我定义了一个数据框 ophA_clusters,包含了每个基因的 start 和 end 位置信息、基因名称 (name)、基因类别 (class)、以及它们所属的基因簇 (cluster)。

出图——交互式的基因簇图

显示了不同基因簇的基因,并且提供了可视化的比例尺、基因名称标签、图例、和鼠标悬停时的详细信息。

(4)第四种图

出图

更清楚地了解不同基因簇之间的关系,尤其是ophA和ophB1基因之间的连接关系。

1.基因簇图:根据ophA_clusters数据中的cluster列进行分组,每个基因簇会用不同的颜色或标记显示。

2.基因连接:如果ophA和ophB1存在,它们将通过黑色连接线显示,并且连接线颜色与基因的组分(class列)相关。

3.基因簇标签:第一个基因簇会显示name列的标签,表示基因簇内包含的基因名。

4.基因簇标题:每个基因簇会有一个明确的标题,如 "O. olearius" 和 "D. bispora"。

5.图例:图例的文本大小会被设置为 14px,以便更好地显示。

6.鼠标悬停功能:启用鼠标悬停功能,可以显示更多的交互信息。

(5)第五种图

第一步过滤数据:这一步选择了两个基因簇:BGC0000055 和 BGC0000054。即图表只会显示这两个特定的基因簇的数据。
这个图表帮助展示了基因簇之间的关系,通过连接线和基因名称标签,可以清晰地查看基因簇的组成和基因间的关系。

1.基因簇显示:图表将显示过滤后的两个基因簇(BGC0000055和BGC0000054)。每个基因簇将以不同的颜色、形状或位置来表示。

2.基因标签:在第一个基因簇(cluster = 1)中,基因的名称将被标注在相应的基因位置上。

3.基因标记样式:基因将使用小尺寸的矩形标记来表示,标记的高度为 15px。

4.连接线:如果BlastP分组下有基因簇之间的连接,连接线将显示出来,宽度为 0.2px。


生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~

版权声明:
作者:主机优惠
链接:https://www.techfm.club/p/204759.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>