绘制基因簇和转录本的 R 包及5种可视化
最近在用一款R包geneviewer,很不错分享给大家。

许多朋友私信询问如何绘制基因簇和转录本。在此,我推荐使用 geneviewer,这是一款专门用于绘制基因簇和转录本的 R 包。
该包能够从 GenBank、FASTA 和 GFF 文件中导入数据,执行 BlastP 和 MUMmer 比对,并将结果显示在基因箭头图上。
geneviewer 还提供了丰富的自定义选项,允许用户根据需要调整图例、标签、注释、比例、颜色以及工具提示等元素。
1、安装包并加载
install.packages("geneviewer")
library(geneviewer)
2、运行代码——介绍5种图
(1)第一种图

出图——基因簇图(Gene Cluster Chart)
用来可视化基因簇在基因组中的位置及其分类信息。

1.基因位置(Gene Position):
基因簇的起始位置(start)和结束位置(end)定义了基因在基因组中的区域。基因簇会被绘制为水平的条形图,条形的起始和结束点代表基因的起始和结束位置。
每个条形图上的位置可以帮助了解基因在染色体上的相对位置。例如,基因ophB1位于位置 2522 至 4276,进而确认基因的物理位置。
2.基因分类(Gene Classification):
每个基因簇的颜色代表了基因的功能分类,这些分类存储在class列中。例如,基因ophB1属于Monooxygenase(单氧化酶)类别。
图中通过group = "class"来为每个基因簇着色,使得同一类基因显示相同颜色,从而能够快速区分不同的基因类别。
3.基因名称(Gene Name):
GC_labels("name"),这是让每个基因簇上会显示基因的名称,如ophB1、ophC等。可以直观地识别每个基因的具体名称,特别是当有多个基因簇时,名称标签能快速识别。
4.功能信息:
通过class列中的分类信息,可以知道每个基因簇的功能。例如:
Monooxygenase与某些代谢过程(如氧化反应)相关;
Methyltransferase参与甲基化反应;
Prolyloligopeptidase与蛋白质降解过程相关;
F-box/RNHI-like与细胞周期调控或信号转导相关。
5.基因簇之间的相对位置:
该图还能够显示基因簇之间的距离。例如,从图中看出,基因簇ophB1(2522-4276)和ophC(5286-4718)之间是否存在较大的间隔,或者它们是否在基因组上较为紧密地排列。紧密排列的基因可能在进化上有某些联系,或者它们在功能上有协同作用。以此类推。
(2)第二种图


出图——lacZ 操作子(lac operon)的基因簇图

通过鼠标悬停查看每个基因的详细信息,图中还会有比例尺和基因名称标签,以及底部的注释说明。

1.基因位置:
该图将展示lacA、lacY、lacZ和lacI基因在大肠杆菌基因组中的位置。
每个基因簇在图中用条形表示,条形的起始位置和结束位置对应数据框中的start和end列。
2.基因功能:
图中的每个基因有一个简短的功能描述,例如:
lacZ是beta-galactosidase
这些信息能帮助快速了解这些基因的功能。
3.基因簇的方向:
所有基因都位于负链(Strand = "minus"),这是通过Strand列提供的信息。
负链上的基因通常以反向方向进行转录。
4.图示比例尺:
图中会显示一个比例尺,用来估计基因之间的相对距离(例如每 200 单位代表 0.2 kb)。
5.交互性:
通过鼠标悬停,用户可以查看详细信息,包括每个基因的 ID、功能、起始和结束位置等。
6.大肠杆菌基因组背景:
底部的说明文本标明这个基因簇来源于Escherichia coliK-12 substr. MG1655。这是大肠杆菌的一个标准实验室菌株,用于分子生物学研究。
(3)第三种图


出图——交互式的基因簇图

(4)第四种图

出图

1.基因簇图:根据ophA_clusters数据中的cluster列进行分组,每个基因簇会用不同的颜色或标记显示。
2.基因连接:如果ophA和ophB1存在,它们将通过黑色连接线显示,并且连接线颜色与基因的组分(class列)相关。
3.基因簇标签:第一个基因簇会显示name列的标签,表示基因簇内包含的基因名。
4.基因簇标题:每个基因簇会有一个明确的标题,如 "O. olearius" 和 "D. bispora"。
5.图例:图例的文本大小会被设置为 14px,以便更好地显示。
6.鼠标悬停功能:启用鼠标悬停功能,可以显示更多的交互信息。
(5)第五种图


1.基因簇显示:图表将显示过滤后的两个基因簇(BGC0000055和BGC0000054)。每个基因簇将以不同的颜色、形状或位置来表示。
2.基因标签:在第一个基因簇(cluster = 1)中,基因的名称将被标注在相应的基因位置上。
3.基因标记样式:基因将使用小尺寸的矩形标记来表示,标记的高度为 15px。
4.连接线:如果BlastP分组下有基因簇之间的连接,连接线将显示出来,宽度为 0.2px。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~
共有 0 条评论