Footsteps on my way !
perl/linux/测序分析

blast本地化:数据库的下载及格式化formatdb

blast本地化:数据库的下载及格式化formatdb

 nr库在这个链接中下载:  ftp://ftp.ncbi.nlm.nih.gov/blast/db/

nr有两种选择:(nr是非冗余蛋白库,nt是非冗余核酸库)

一种直接下载上面这个文件夹中的nr.00.tar.gz、nr.01tar.gz以及nr.02.tar.gz,然后把它们三个解压到同一个文件夹中,就可以直接使用,而不用修饰。

另一种方法是下载FASTA文件夹中的nr,但是需要修饰,修饰方法就是利用blast的bin中的formatdb进行:

formatdb -i input_db -p F -o T    (核酸的,不使用这句)

formatdb -i input_db -p T -o T    (蛋白质的,就使用这句)


使用nr库时的路径为:文件夹路径和文件夹名\nr

注意这里的nr不是文件夹的名字,而是文件名,

文件夹路径和文件夹名为:nr.00.tar.gz、nr.01tar.gz以及nr.02.tar.gz三个解压后存放的文件夹

或FASTA格式nr修饰后所在的文件夹。


格式化序列数据库— —formatdb 简单介绍

formatdb处理的都是格式为 ASN.1和 FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。

formatdb –    得到formatdb 所有的参数显示和介绍,它可以根据我们的想法把源数据库格式化


formatdb命令行主要参数的说明

-i  输入需要格式化的源数据库名称  Optional

-p  文件类型,是核苷酸序列数据库,还是蛋白质序列数据库

T – protein   F – nucleotide [T/F]  Optional         default = T

-a  输入数据库的格式是ASN.1(否 则是FASTA)   T – True,     F – False.    [T/F]  Optional      default = F

-o  解析选项

T – True: 解析序列标识并且建立目录         F – False: 与上相反        [T/F]  Optional default = F

命令示例

formatdb -i nr -p F -o T

运行此命令就会在当前目录下产生用于BLAST搜索的7个文件,一旦如上的formatdb命令执行完毕,就不 再需要nr,可以移除。此时,blastall可以直接使用。

这是blast的用法,blast+请输入对应的命令

尊重他人劳动成果,转载请注明出处:Bluesky's blog » blast本地化:数据库的下载及格式化formatdb

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址