FAMSA多序列比对软件

现代测序数据的发展使生物数据大量增加,大量包含数十万条序列对序列比对算法造成巨大挑战,FAMSA是一种新的渐进式算法,专为快速、准确地比对数千条蛋白序列而设计。

参数设置

1.1 下载安装

git  clone https://github.com/refresh-bio/FAMSA # 克隆
cd  FAMSA #进入文件夹
make  # 编译

1.2 案例测试

1.2.1 使用默认参数排列序列

./famsa ./test/adeno_fiber/adeno_fiber sl.aln

# adeno_fiber :为500条蛋白序列
# sl.aln:多序列比对后的对齐文件
# 经过测试 500条蛋白序列运行时间不到1秒

1.2.2 使用UPGMA模式输出

# 使用 UPGMA 树与 8 个计算线程对齐序列,将结果压缩
./famsa -gt upgma -t 8 -gz ./test/adeno_fiber/adeno_fiber upgma.aln.gz

# -gt : the guide tree mode
# -t :线程数

有四个参数可以选择:sl | upgma | nj | import
sl :single linkage (); upgma : UPGMA,暂时不知道什么含义
nj : 构建进化树的一种方法;
import 文档解释为:导入一个树格式的文件,不是很清楚

1.2.3 利用软件构建了不能可视化的树

./famsa -gt nj -gt_export ./test/adeno_fiber/adeno_fiber nj.dnd

# -gt_export 定义输出文件为树的形式
# .dnd文件格式为可视化树的格式,但是阅读文档发现因为只是构建树并没有加入进化距离,所以无法用软件可视化

1.2.4 输入进化树加快比对速度

./famsa -gt import nj.dnd ./test/adeno_fiber/adeno_fiber nj.aln
# import 导入构建好的树文件

其他软件的用法后续如果用到会进行补充!!!

版权声明:
作者:Zad
链接:https://www.techfm.club/p/78695.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>