FAMSA多序列比对软件
现代测序数据的发展使生物数据大量增加,大量包含数十万条序列对序列比对算法造成巨大挑战,FAMSA是一种新的渐进式算法,专为快速、准确地比对数千条蛋白序列而设计。
参数设置
1.1 下载安装
git clone https://github.com/refresh-bio/FAMSA # 克隆
cd FAMSA #进入文件夹
make # 编译
1.2 案例测试
1.2.1 使用默认参数排列序列
./famsa ./test/adeno_fiber/adeno_fiber sl.aln
# adeno_fiber :为500条蛋白序列
# sl.aln:多序列比对后的对齐文件
# 经过测试 500条蛋白序列运行时间不到1秒
1.2.2 使用UPGMA模式输出
# 使用 UPGMA 树与 8 个计算线程对齐序列,将结果压缩
./famsa -gt upgma -t 8 -gz ./test/adeno_fiber/adeno_fiber upgma.aln.gz
# -gt : the guide tree mode
# -t :线程数
有四个参数可以选择:sl | upgma | nj | import
sl :single linkage (); upgma : UPGMA,暂时不知道什么含义
nj : 构建进化树的一种方法;
import 文档解释为:导入一个树格式的文件,不是很清楚
1.2.3 利用软件构建了不能可视化的树
./famsa -gt nj -gt_export ./test/adeno_fiber/adeno_fiber nj.dnd
# -gt_export 定义输出文件为树的形式
# .dnd文件格式为可视化树的格式,但是阅读文档发现因为只是构建树并没有加入进化距离,所以无法用软件可视化
1.2.4 输入进化树加快比对速度
./famsa -gt import nj.dnd ./test/adeno_fiber/adeno_fiber nj.aln
# import 导入构建好的树文件
其他软件的用法后续如果用到会进行补充!!!
共有 0 条评论