python 服务器批处理得到PSSM矩阵的问题
作者:李划水员 发布时间:2021-05-19 12:21:13
标签:python,服务器,批处理,PSSM
1. 在linux上安装psiblast
最好新建一个python环境,因为我发现conda安 * last默认的是python==3.6.11,可能会不小心把你的python版本改掉…然后你写好的代码全die了……
conda create -n blast python==3.6.11
source activate blast
conda install -c bioconda blast
2.下载并编译用于比对的大型蛋白质数据库
nr和uniprot是比较通用的数据库:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
https://www.uniprot.org/downloads
1)nr是ncbi收集的目前所有微生物的蛋白序列,是用来计算氨基酸一般情况下的频率的,160G
2)uniprot90根据相似性做了一个去冗余,所以比nr要小很多,56G
# 以uniprot90为例
wget ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz # 下载
gzip -d uniref90.fasta.gz # 解压
makeblastdb -in uniref90.fasta -parse_seqids -hash_index -dbtype prot # 编译
解析完成后的样子:
文件是这个样子:(只截取了一部分)
3. 获取PSSM矩阵
我的初始文件是:
P00269.fasta是对单条蛋白质处理,里面的格式是:
testset.fasta是对蛋白质集合批处理,里面的格式是(也可以单独蛋白质存为.fasta文件,由于blast只能处理单条蛋白糊,把这个集合知识归总的意思,第一步还是要生成单条蛋白质的.fasta文件,所以这个文件看个人意愿):
1)单条蛋白质序列的处理方法
import os
os.system('psiblast -query dataset/P00269.fasta -db /PSSM/uniref90.fasta -num_iterations 3 -out_ascii_pssm /dataset/P00269.pssm')##这个蛋白质好慢呀
2)批处理获取的方法
import os
file_name='/dataset/testset.fasta'
Protein_id=[]
with open(file_name,'r') as fp:
i=0
for line in fp:
if i%2==0:
# Protein_id.append(line[1:-1])
id=line[0:-1]
p=line[1:-1]
with open ('/dataset/'+str(p)+'.fasta','a') as protein:
protein.write(id)
# protein.write()
if i%2==1:
seq=line[0:-1]
with open ('/dataset/'+str(p)+'.fasta','a') as protein:
protein.write('\n')
protein.write(seq)
i=i+1
os.system('psiblast -query '+'/dataset/'+str(p)+'.fasta -db /PSSM/uniref90.fasta -num_iterations 3 -out_ascii_pssm /dataset/'+str(p)+'.pssm')
##PSSM真是太慢了,下面是只生成一个后的截图
emmmm,在研究怎么把这个矩阵存入文件方便调用,今天应该会更新……但是他好慢啊,不想用了。
参考文献:
linux下用psiblast批量生成pssm矩阵
来源:https://blog.csdn.net/Daisy4/article/details/125876214
0
投稿
猜你喜欢
- 首先选择操作系统。由于ASP属于MS(Microsoft)的东西,所以我们要选择MS的操作系统,Windows 98以上就可以(
- 本文实例讲述了Python使用django获取用户IP地址的方法。分享给大家供大家参考。具体如下:函数实现:def get_client_i
- python最值与下标最大值的下标winner = np.argmax(scores)多个最大值的下标(np.argwhere返回数组中非0
- 如何在生产上部署Django?Django的部署可以有很多方式,采用nginx+uwsgi的方式是其中比较常见的一种方式。uwsgi介绍uW
- 首先,到底什么是网络服务器?简而言之,它是在物理服务器上搭建的一个网络连接服务器(networking server),永久地等待客户端发送
- 有些框架本身就支持多配置文件,例如Ruby On Rails,nodejs下的expressjs。python下的Flask虽然本身支持配置
- 远程连接oracle只用PLSQLDeveloper客户端,不配置tnsnames.ora文件在PL/SQL中填写:1.UserName:用
- 前几天学习了Yolov5,当我想实际将Yolov5实际运用的时候却不知道怎么办了然后我决定对Yolov5的detect.py修改为可以直接调
- 1、从半年以前要“去中心化”开始,豆瓣作了不少大的调整,重要的是上线了很多的新功能。同城、日记、相册、音乐试听、等等。2、一个多月来,豆瓣上
- 打开cmder1.移动到D盘输入命令:D:2.创建文件夹λ mkdir myApp3.创建python自带的虚拟环境λ python -m
- Oracle的Nvl函数nvl( ) 函数从两个表达式返回一个非null 值。语法NVL(eExpression1, eExpression
- asp使用WScript.Shell获取电脑的网络配置信息Option Explicit Dim WSHShe
- 代码如下:Class Vector Private vector_datas() Private&n
- Python的集合set原理集合(set)是一个无序的不重复元素序列。可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个
- 许多网页开发者想从ASP.NET 页面传递一个值到另一个页面(比如从一个框架frame页面到一个弹窗页面)。看了代码就明白了。呵呵。(一)向
- 在Python个人博客程序开发实例框架设计中,我们已经完成了 数据库设计、数据准备、模板架构、表单设计、视图函数设计、电子邮件支持 等总体设
- 本文实例讲述了python中global用法。分享给大家供大家参考。具体分析如下:1、global---将变量定义为全局变量。可以通过定义为
- 不喜欢Python的人经常会吐嘈Python运行太慢。但是,事实并非如此。尝试以下六个窍门,来为你的Python应用提速。窍门一:关键代码使
- 该语句的作用是:启用或禁用错误处理程序。一般用法如下:On Error Resume NextOn Error GoTo 0如果在您的代码中
- 本文实例讲述了Python实现获取本地及远程图片大小的方法。分享给大家供大家参考,具体如下:了解过Pillow的都知道,Pillow是一个非