blast本地化:数据库的下载及格式化formatdb
nr库在这个链接中下载: ftp://ftp.ncbi.nlm.nih.gov/blast/db/
nr有两种选择:(nr是非冗余蛋白库,nt是非冗余核酸库)
一种直接下载上面这个文件夹中的nr.00.tar.gz、nr.01tar.gz以及nr.02.tar.gz,然后把它们三个解压到同一个文件夹中,就可以直接使用,而不用修饰。
另一种方法是下载FASTA文件夹中的nr,但是需要修饰,修饰方法就是利用blast的bin中的formatdb进行:
formatdb -i input_db -p F -o T (核酸的,不使用这句)
formatdb -i input_db -p T -o T (蛋白质的,就使用这句)
使用nr库时的路径为:文件夹路径和文件夹名\nr
注意这里的nr不是文件夹的名字,而是文件名,
文件夹路径和文件夹名为:nr.00.tar.gz、nr.01tar.gz以及nr.02.tar.gz三个解压后存放的文件夹
或FASTA格式nr修饰后所在的文件夹。
格式化序列数据库— —formatdb 简单介绍
formatdb处理的都是格式为 ASN.1和 FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。
formatdb – 得到formatdb 所有的参数显示和介绍,它可以根据我们的想法把源数据库格式化
formatdb命令行主要参数的说明
-i 输入需要格式化的源数据库名称 Optional
-p 文件类型,是核苷酸序列数据库,还是蛋白质序列数据库
T – protein F – nucleotide [T/F] Optional default = T
-a 输入数据库的格式是ASN.1(否 则是FASTA) T – True, F – False. [T/F] Optional default = F
-o 解析选项
T – True: 解析序列标识并且建立目录 F – False: 与上相反 [T/F] Optional default = F
命令示例
formatdb -i nr -p F -o T
运行此命令就会在当前目录下产生用于BLAST搜索的7个文件,一旦如上的formatdb命令执行完毕,就不 再需要nr,可以移除。此时,blastall可以直接使用。
这是blast的用法,blast+请输入对应的命令
尊重他人劳动成果,转载请注明出处:Bluesky's blog » blast本地化:数据库的下载及格式化formatdb