如何获取质粒上的特征元件

lichengxin • 2024-05-30 04:47 • 杂文

在使用SnapGene进行质粒构建、引物设计、片段扩增时候，你是不是也遇到如下令人头疼的问题：

序列导入SnapGene后，软件自动识别的元件Common Features有限，许多复制子ori、启动子promoter、编码蛋白conding sequence等都无法识别；

在质粒设计时候，总有顾忌，到底哪些序列是"可有可无的"?如果保留这些无标注序列会导致质粒过大，删除又担心影响性能？🤦

同样的注释Feature，但是用SnapGene进行copy-Find时候，总是比对不上；

$有感于此，为了解决这些痛点，通过不懈地探索，终于找到一些替代方案，现整理如下，以飨读者！$

1. 更新SnapGene版本

SnapGene自动识别Feature原理

SnapGene拥有用于检测常见特征（common features）的算法。这种算法实现了SnapGene能够注释原始质粒序列并显示经常使用的基因和控制元件。开发这一工具需要创建一个共同特征的数据库，并设计即使在不完全匹配的情况下也能识别特征的规则。
软件算法规定，当识别序列与参考序列一致性大于96%以上，被标注为特征序列。但这样的算法也有局限性。例如，如果序列差异超过阈值( 96% )，它可能会错过某个共同特征。可以通过向数据库添加更多变体来解决这个问题。另一个限制是，由于容忍不匹配算法可能会标注不准确的特征。最好的例子是荧光蛋白，它们通常有密切相关的版本，具有不同的特性。

查询这些Features方法如下：
"Features" > "Browse Common Features"，弹出如下界面：

image.png

当然，也可以选定在选定手动标注的Feature后，选择 "Add Common Features"，将其添加到特征列表中，这样手动更新数据库，以后再次导入类似元件就会自动标注了。

截至目前，snapgene版本已经更新到了SnapGene Version 7.2.1，升级的版本提供更新的"Common Feature Datebase"，能够识别更多变种的质粒元件。相信大多数人仍旧使用的是旧版本的，如我的是GSL Biotech SnapGene 3.2.1 Win和SnapGene602_win，更新意味着付费，要知道新版本的学术版每年¥ 2,677，这是我等学术民工难以负担得起的。

2. 在线质粒元件数据库比对

为了更好的数据演示，这里以pAD123为例（单击连接下载sequence）

该质粒为E. coli-Bacillus穿梭质粒，含有chloramphenicol resistance、Amp抗性，promoter-less gfpmut3

导入SnapGene (snapgene_3.2.1_win)，自动注释的结果如下：

image.png

可以看到，很多信息没有注释出来，包括启动子、编码蛋白的序列等等……

2.1 pLannotate

推荐指数：⭐⭐⭐⭐⭐

image.png

文献支撑：
McGuffie MJ, Barrick JE. pLannotate: engineered plasmid annotation. Nucleic Acids Res. 2021 Jul 2;49(W1):W516-W522. doi: 10.1093/nar/gkab374. PMID: 34019636; PMCID: PMC8262757.

工作原理

pLannotate使用BLAST、DIAMOND和Infernal软件，将提交的质粒序列与几个数据库进行比对。主要为：SnapGene提供的一组特征匹配的核苷酸，并识别与fpbase和Swiss-Prot数据库中的条目匹配的翻译核苷酸。Rfam用于检测非编码RNA。
如果与数据库有≥95%的序列同一性匹配则预测为特征Feature。其中，Swiss-Prot具有更宽容的最小序列同一性，要求≥50%的匹配，并根据其各自的注释分数施加惩罚。具有显著重叠的匹配将被过滤，以便仅显示整体特征的最佳共识集。

序列导入pLannotate后，分析结果如下：
可以看到，pLannotate注释到了更多序列元件，这样你还敢乱删哪些看似可有可无的序列吗！

pLannotate分析结果图谱

此外，还罗列出每个Features的一致性、匹配长度、特征描述信息

Features

最后，只需将_pLann.gbk格式的注释文件下载下来，用snapgene打开。所有注释的信息已经自动导入进来。

image.png

题外话，肯定有人会有疑问，难道真的就不能乱动吗？当然也不绝对是。譬如有些研究者有意无意的保留一些不必要的基因片段，那就要仔细甄别，在合理的情况下给它做个"清洗"，这可能是程序员一类人的职业习惯吧。作为案例分析，我将在其他文中做演示。

2.2 NovoBuilder

推荐指数：⭐⭐⭐⭐
简介：NovoBuilder是一款免费的，集质粒序列注释、质粒设计、质粒构建报价、密码子优化于一体的分子生物学在线工具，由上海纽普生物（NovoPro）搭建。
导入pAD123序列后，自动注释结果如下：

image.png

显然，注释的并不算多全面，充其量够用而已。之所以推荐，是因为它还有完备的Common Elements数据库。当我们想要调用某一元件时候，直接copy并导入SnapGene即可，哪还需要再一个个去找图谱、BLAST，甚至找笔记呢？
深入研究发现NovoPro真是个宝藏网页，涵盖了分子生物学众多软件，有点像ExPASy，感兴趣的可以探索一下：https://www.novopro.cn/tools/

image.png

2.3 PlasMapper 3.0

推荐指数：⭐⭐⭐
简介：PlasMapper 3.0是一个网络服务器，允许用户生成、编辑、注释和交互式可视化发表级别的质粒图谱。PlasMapper 3.0提供了对新的和扩展的质粒数据库的访问，用户可以从中挑选各种各样的质粒。此外，它还提供了自动化密码子优化和BLAST序列比对的选项。PlasMapper 3.0支持多种输入格式，包括raw序列、FASTA文件和其自己的PlasMapper JSON格式。
文献支撑：
Dong X, Stothard P, Forsythe IJ, Wishart DS. PlasMapper: a web server for drawing and auto-annotating plasmid maps. Nucleic Acids Res. 2004 Jul 1;32(Web Server issue):W660-4. doi: 10.1093/nar/gkh410. PMID: 15215471; PMCID: PMC441548.

导入pAD123序列后，可以看到如下质粒图谱。总体来说，注释的元件偏少，与SnapGene相差不大。令人不适的是，不能区分蛋白转录的方向，如这里的Amp_Promoter竟然再Ampicillin的下游。

PlasMapper结果图

在界面的左边，提供一些特征的信息，如特征名称，类型、起始/终止位点及方向等，值得推荐的是可以自动注释一些常用载体克隆的引物信息，无需再单独设计，非常便捷。

image.png

2.4 NCBI

推荐指数：⭐⭐
在没有找到上述解决办法之前，我是通过BLAST比对的方法来尽可能的找到一些注释信息的，大致步骤如下：
将序列通过BLAST比对，在数据库中比对到相似的序列信息。虽然没有完全比对跟query序列完全一致的，但是仍然可以作为参考，查看共有的模块信息。

image.png

在线查看元件：
点击"Graphics"，鼠标单击相应的注释模块就可看到相关的信息

image.png

然后，选择"Send to" > "Complete Record"> "File"> "GenBank"
下载的文件后导入SnapGene中，再在两个质粒图谱之间进行切换并标注为注释的元件结构（Time consuming and laboring）

image.png

2.5 SeqBuilder pro

推荐指数：⭐⭐
DNASTAR是Lasergene Molecular Biology旗下完整的序列分析软件，用于分子生物学研究、蛋白质分析、基因组学和转录组学研究。SeqBuilder Pro是其下属的一个子软件工具。
DNASTAR软件及功能介绍免费教程
视频课程：https://www.sciencesoftware.com.cn/web/PaidTraining.html
注册即可观看，免费。

由于质粒设计的软件众多，笔者并没有一一测试，仅罗列出一些，感兴趣者可以自己测试：

PlasmidTools
plasmapR：绘制质粒图谱R包
UGENE
VectorBuilder
PlasMapper: a web server for drawing and auto-annotating plasmid maps

整个序列获取及元件注释流程如下：

image.png

参考文献：

版权声明：
作者：lichengxin
链接：https://www.techfm.club/p/127119.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

GitHub 网站

二维码

akkocloud：德国CN2 GIA VPS，500M带宽，699元/年，1G内存/1核/20gSSD/1200G流量

< <上一篇

读书：《战国策》西周策④——司寇布为周最谓周君

下一篇>>

搜索内容

如何获取质粒上的特征元件

1. 更新SnapGene版本

2. 在线质粒元件数据库比对

2.1 pLannotate

2.2 NovoBuilder

2.3 PlasMapper 3.0

2.4 NCBI

2.5 SeqBuilder pro

取消回复

共有 0 条评论

Ads