如何获取质粒上的特征元件
在使用SnapGene进行质粒构建、引物设计、片段扩增时候,你是不是也遇到如下令人头疼的问题:
- 序列导入SnapGene后,软件自动识别的元件Common Features有限,许多复制子ori、启动子promoter、编码蛋白conding sequence等都无法识别;
- 在质粒设计时候,总有顾忌,到底哪些序列是"可有可无的"?如果保留这些无标注序列会导致质粒过大,删除又担心影响性能?🤦
- 同样的注释Feature,但是用SnapGene进行copy-Find时候,总是比对不上;
1. 更新SnapGene版本
SnapGene自动识别Feature原理
SnapGene拥有用于检测常见特征(common features)的算法。这种算法实现了SnapGene能够注释原始质粒序列并显示经常使用的
基因和控制元件
。开发这一工具需要创建一个共同特征的数据库
,并设计即使在不完全匹配的情况下也能识别特征的规则。
软件算法规定,当识别序列与参考序列一致性大于96%以上,被标注为特征序列。但这样的算法也有局限性。例如,如果序列差异超过阈值( 96% ),它可能会错过某个共同特征。可以通过向数据库添加更多变体来解决这个问题。另一个限制是,由于容忍不匹配算法可能会标注不准确的特征。最好的例子是荧光蛋白,它们通常有密切相关的版本,具有不同的特性。
查询这些Features方法如下:
"Features" > "Browse Common Features",弹出如下界面:
当然,也可以选定在选定手动标注的Feature后,选择 "Add Common Features",将其添加到特征列表中,这样手动更新数据库,以后再次导入类似元件就会自动标注了。
截至目前,snapgene版本已经更新到了SnapGene Version 7.2.1,升级的版本提供更新的"Common Feature Datebase",能够识别更多变种的质粒元件。相信大多数人仍旧使用的是旧版本的,如我的是GSL Biotech SnapGene 3.2.1 Win和SnapGene602_win,更新意味着付费,要知道新版本的学术版每年¥ 2,677,这是我等学术民工难以负担得起的。
2. 在线质粒元件数据库比对
为了更好的数据演示,这里以pAD123为例(单击连接下载sequence)
该质粒为E. coli-Bacillus穿梭质粒,含有chloramphenicol resistance、Amp抗性,promoter-less gfpmut3
导入SnapGene (snapgene_3.2.1_win),自动注释的结果如下:
可以看到,很多信息没有注释出来,包括启动子、编码蛋白的序列等等……
2.1 pLannotate
推荐指数:⭐⭐⭐⭐⭐
文献支撑:
McGuffie MJ, Barrick JE. pLannotate: engineered plasmid annotation. Nucleic Acids Res. 2021 Jul 2;49(W1):W516-W522. doi: 10.1093/nar/gkab374. PMID: 34019636; PMCID: PMC8262757.
工作原理
pLannotate使用BLAST、DIAMOND和Infernal软件,将提交的质粒序列与几个数据库进行比对。主要为:SnapGene提供的一组特征匹配的核苷酸,并识别与fpbase和Swiss-Prot数据库中的条目匹配的翻译核苷酸。Rfam用于检测非编码RNA。
如果与数据库有≥95%的序列同一性匹配则预测为特征Feature。其中,Swiss-Prot具有更宽容的最小序列同一性,要求≥50%的匹配,并根据其各自的注释分数施加惩罚。具有显著重叠的匹配将被过滤,以便仅显示整体特征的最佳共识集。
序列导入pLannotate后,分析结果如下:
可以看到,pLannotate注释到了更多序列元件,这样你还敢乱删哪些看似可有可无的序列吗!
此外,还罗列出每个Features的一致性、匹配长度、特征描述信息
最后,只需将_pLann.gbk
格式的注释文件下载下来,用snapgene打开。所有注释的信息已经自动导入进来。
题外话,肯定有人会有疑问,难道真的就不能乱动吗?当然也不绝对是。譬如有些研究者有意无意的保留一些不必要的基因片段,那就要仔细甄别,在合理的情况下给它做个"清洗",这可能是程序员一类人的职业习惯吧。作为案例分析,我将在其他文中做演示。
2.2 NovoBuilder
推荐指数:⭐⭐⭐⭐
简介:NovoBuilder是一款免费的,集质粒序列注释、质粒设计、质粒构建报价、密码子优化于一体的分子生物学在线工具,由上海纽普生物(NovoPro)搭建。
导入pAD123序列后,自动注释结果如下:
显然,注释的并不算多全面,充其量够用而已。之所以推荐,是因为它还有完备的Common Elements数据库。当我们想要调用某一元件时候,直接copy并导入SnapGene即可,哪还需要再一个个去找图谱、BLAST,甚至找笔记呢?
深入研究发现NovoPro真是个宝藏网页,涵盖了分子生物学众多软件,有点像ExPASy,感兴趣的可以探索一下:https://www.novopro.cn/tools/
2.3 PlasMapper 3.0
推荐指数:⭐⭐⭐
简介:PlasMapper 3.0是一个网络服务器,允许用户生成、编辑、注释和交互式可视化发表级别的质粒图谱。PlasMapper 3.0提供了对新的和扩展的质粒数据库的访问,用户可以从中挑选各种各样的质粒。此外,它还提供了自动化密码子优化和BLAST序列比对的选项。PlasMapper 3.0支持多种输入格式,包括raw序列、FASTA文件和其自己的PlasMapper JSON格式。
文献支撑:
Dong X, Stothard P, Forsythe IJ, Wishart DS. PlasMapper: a web server for drawing and auto-annotating plasmid maps. Nucleic Acids Res. 2004 Jul 1;32(Web Server issue):W660-4. doi: 10.1093/nar/gkh410. PMID: 15215471; PMCID: PMC441548.
导入pAD123序列后,可以看到如下质粒图谱。总体来说,注释的元件偏少,与SnapGene相差不大。令人不适的是,不能区分蛋白转录的方向,如这里的Amp_Promoter竟然再Ampicillin的下游。
在界面的左边,提供一些特征的信息,如特征名称,类型、起始/终止位点及方向等,值得推荐的是可以自动注释一些常用载体克隆的引物信息
,无需再单独设计,非常便捷。
2.4 NCBI
推荐指数:⭐⭐
在没有找到上述解决办法之前,我是通过BLAST比对的方法来尽可能的找到一些注释信息的,大致步骤如下:
将序列通过BLAST比对,在数据库中比对到相似的序列信息。虽然没有完全比对跟query序列完全一致的,但是仍然可以作为参考,查看共有的模块信息。
在线查看元件:
点击"Graphics",鼠标单击相应的注释模块就可看到相关的信息
然后,选择"Send to" > "Complete Record"> "File"> "GenBank"
下载的文件后导入SnapGene中,再在两个质粒图谱之间进行切换并标注为注释的元件结构(Time consuming and laboring)
2.5 SeqBuilder pro
推荐指数:⭐⭐
DNASTAR是Lasergene Molecular Biology旗下完整的序列分析软件,用于分子生物学研究、蛋白质分析、基因组学和转录组学研究。SeqBuilder Pro是其下属的一个子软件工具。
DNASTAR软件及功能介绍免费教程
视频课程:https://www.sciencesoftware.com.cn/web/PaidTraining.html
注册即可观看,免费。
由于质粒设计的软件众多,笔者并没有一一测试,仅罗列出一些,感兴趣者可以自己测试:
- PlasmidTools
- plasmapR:绘制质粒图谱R包
- UGENE
- VectorBuilder
- PlasMapper: a web server for drawing and auto-annotating plasmid maps
整个序列获取及元件注释流程如下:
参考文献:
版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/127119.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论