python 服务器批处理得到PSSM矩阵的问题
作者:李划水员 发布时间:2021-05-19 12:21:13
标签:python,服务器,批处理,PSSM
1. 在linux上安装psiblast
最好新建一个python环境,因为我发现conda安 * last默认的是python==3.6.11,可能会不小心把你的python版本改掉…然后你写好的代码全die了……
conda create -n blast python==3.6.11
source activate blast
conda install -c bioconda blast
2.下载并编译用于比对的大型蛋白质数据库
nr和uniprot是比较通用的数据库:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
https://www.uniprot.org/downloads
1)nr是ncbi收集的目前所有微生物的蛋白序列,是用来计算氨基酸一般情况下的频率的,160G
2)uniprot90根据相似性做了一个去冗余,所以比nr要小很多,56G
# 以uniprot90为例
wget ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz # 下载
gzip -d uniref90.fasta.gz # 解压
makeblastdb -in uniref90.fasta -parse_seqids -hash_index -dbtype prot # 编译
解析完成后的样子:
文件是这个样子:(只截取了一部分)
3. 获取PSSM矩阵
我的初始文件是:
P00269.fasta是对单条蛋白质处理,里面的格式是:
testset.fasta是对蛋白质集合批处理,里面的格式是(也可以单独蛋白质存为.fasta文件,由于blast只能处理单条蛋白糊,把这个集合知识归总的意思,第一步还是要生成单条蛋白质的.fasta文件,所以这个文件看个人意愿):
1)单条蛋白质序列的处理方法
import os
os.system('psiblast -query dataset/P00269.fasta -db /PSSM/uniref90.fasta -num_iterations 3 -out_ascii_pssm /dataset/P00269.pssm')##这个蛋白质好慢呀
2)批处理获取的方法
import os
file_name='/dataset/testset.fasta'
Protein_id=[]
with open(file_name,'r') as fp:
i=0
for line in fp:
if i%2==0:
# Protein_id.append(line[1:-1])
id=line[0:-1]
p=line[1:-1]
with open ('/dataset/'+str(p)+'.fasta','a') as protein:
protein.write(id)
# protein.write()
if i%2==1:
seq=line[0:-1]
with open ('/dataset/'+str(p)+'.fasta','a') as protein:
protein.write('\n')
protein.write(seq)
i=i+1
os.system('psiblast -query '+'/dataset/'+str(p)+'.fasta -db /PSSM/uniref90.fasta -num_iterations 3 -out_ascii_pssm /dataset/'+str(p)+'.pssm')
##PSSM真是太慢了,下面是只生成一个后的截图
emmmm,在研究怎么把这个矩阵存入文件方便调用,今天应该会更新……但是他好慢啊,不想用了。
参考文献:
linux下用psiblast批量生成pssm矩阵
来源:https://blog.csdn.net/Daisy4/article/details/125876214


猜你喜欢
- 本文实例为大家分享了Vue点击显示不同图片的具体代码,供大家参考,具体内容如使用Vue中的以下知识点来显示效果①:v-for:循环遍历数据②
- 处理下拉列表需要使用selenium中的工具类Select,常用方法如下:示例网站:http://sahitest.com/demo示例场景
- MMClassification是一个基于PyTorch的开源图像分类工具箱,是OpenMMLab项目的一部分,源码传送门,最新发布版本为v
- 两段使用键盘的上下键进行选择的代码:<Script Language="JScript"> &
- python2.7,下面是跑在window上的,稍作修改就可以跑在linux上。实测win7和raspbian均可,且raspbian可以直
- 第一:pandas.read_csv读取本地csv文件为数据框形式data=pd.read_csv('G:\data_operati
- 之前用pymysql连接数据库的方法太繁杂了,用django自带的orm进行数据库的创建修改。1、首先在终端打开数据库mysql -u ro
- JavaScript 语法约定1、大小写的区分1). JavaScript的关键字,永远都是小写的;2). 内置对象,如Math和Date是
- 相比于逻辑回归,在很多情况下,SVM算法能够对数据计算从而产生更好的精度。而传统的SVM只能适用于二分类操作,不过却可以通过核技巧(核函数)
- 本文实例讲述了Python面向对象class类属性及子类用法。分享给大家供大家参考,具体如下:class类属性class Foo(objec
- 通常报表都存储在一个地方,但是在单独的文件中。随着文件数量的增加在结构和搜索上也困难多多,针对这个问题,我遇到了一个非常有趣的报表对象属性&
- 前言:终于来了一篇有质量的文章,我个人感觉非常不错,《jfinal与bootstrap之间的登录跳转实战》。具体内容包含有点击登录弹出模态框
- 在Python中用matplotlib画图的时候,为了区分曲线的类型,给曲线上面加一些标识或者颜色。以下是颜色和标识的汇总。颜色(color
- 前言上篇文章主要写了利用scapy实现ping扫描,这篇文章主要是利用scapy模块实现内网ARP扫描实现过程上篇文章中介绍了通过scapy
- 每位SQL Server开发员都有自己的首选操作方法。我的方法叫做分子查询。这些是由原子查询组合起来的查询,通过它们我可以处理一个表格。将原
- 傅立叶级数的介绍我就不说了,自己也是应用为主,之前一直觉得很难懂,但最近通过自己编程实现了一些函数的傅立叶级数展开之后对傅立叶 级数展开的概
- 在开发中我们经常遇到这样的需求,需要用户登录后才可以访问该页面,如果用户没有登录点击该页面时则自动跳转到登录页面,登录后又跳转到链接的页面而
- #小策略,策略逻辑是在金叉时候买进,死叉时候卖出,所谓金叉死叉是两条均线的交叉,当短期均线上穿长期均线为金叉,反之为死叉#下面是策略代码及结
- 组建一个关于书籍、作者、出版社的例子:from django.db import modelsclass Publisher(models.
- For 循环可以遍历字符串,也可以遍历列表# for 循环# 语法特点:遍历操作,依次取集合容器中的几个值# for 临时变量