win10子系统python开发环境准备及kenlm和nltk的使用教程
作者:天青如水 发布时间:2023-07-31 01:48:28
前言
因为NLP作业需要用到kenlm,而kenlm在linux下更为方便。本人win10之前开启了子系统,所以就打算在子系统下进行相关作业的完成。
首先开启win10子系统,网上教程挺多,照着做就成。我当前安装版本是Ubuntu16.04。终端输入cat /etc/lsb-release
或uname可以查看版本。子系统开启后,win10的盘符挂载在mnt下,可以执行ls -al /mnt查看。
Python的下载
Linux中自带python2,不过Pyhton软件基金会宣布到2020年元旦不在为py2任何分支提供支持。所以我们下载安装py3。在后面的编译操作中需要用到make和cmake工具,需要提前下载安装。make和cmake的使用,需要gcc的支持。在这里就不介绍gcc的安装了,可自行百度解决。
make是一个命令工具,它解释 Makefile 中的指令。在Makefile文件中描述了整个工程所有文件的编译顺序、编译规则。make依据Makefile文件来批处理编译,因为编写Makefile文件太繁琐复杂,就出现了cmake工具,它能读入所有源文件之后,自动生成makefile。
在进行下面步骤前,先执行sudo apt update
更新,防止出现一些错误
1.make的下载和安装
wget http://ftp.gnu.org/gnu/make/make-4.2.tar.gz
tar -zxvf make-4.2.tar.gz
cd make-4.2
./configure #生成 Makefile,为下一步的编译做准备
make #进行源代码编译
sudo make install #安装,这一步会将编译好的make文件转移到/usr/local/make目录下,该目录需要root权限
ln -s -f /usr/local/bin/make /usr/bin/make
make --version #查看版本
2.cmake的下载和安装
wget https://cmake.org/files/v3.3/cmake-3.5.1.tar.gz
tar xzvf cmake-3.5.1.tar.gz
yum install gcc-c++ # 安装gcc等程序包(安装过就忽略)
cd cmake-3.5.1
./bootstrap
make
make install
cmake --version #查看版本
cmake 会默认安装在 /usr/local/bin
下面
也可以直接安装build-essential
软件包,该软件包中包含了编译c/c++所需要的软件包。sudo apt-get install build-essential
3.Python下载
wget https://www.python.org/ftp/python/3.7.3/Python-3.7.3.tgz
4.解压
tar zxvf Python-3.7.3.tgz
cd Python-3.7.3
5.编译
./configure --with-ssl
make
sudo make install
注意:–with-ssl必须加上,否则使用pip安装第三方包时,会引发ssl错误。导致无法使用。如果执行pip install出错,重新编译安装即可。
一些错误问题:
ZipError:
sudo apt install zlib*
ImportError:'_ctypes'
sudo apt-get install python-dev python-setuptools python-pip python-smbus build-essential libncursesw5-dev libgdbm-dev libc6-dev zlib1g-dev libsqlite3-dev tk-dev libssl-dev openssl libffi-dev
6.创建软链接
# 添加python3的软链接
sudo ln -s /usr/local/bin/python3.7 /usr/bin/python3
# 添加 pip3 的软链接
sudo ln -s /usr/local/bin/pip3.7 /usr/bin/pip3
kenlm的安装
1.boost
在boost官网下载boost,本人下载了boost_1_70_0。
cd boost_1_70_0
./bootstrap.sh
./b2 install
2.xz
wget http://tukaani.org/xz/xz-5.2.2.tar.gz
tar xzvf xz-5.2.2.tar.gz
cd xz-5.2.2
./configure
make
make install
3.zlib
wget http://zlib.net/zlib-1.2.11.tar.gz
tar xzf zlib-1.2.11.tar.gz
cd zlib-1.2.11
./configure
make
make install
4.bzip
wget https://fossies.org/linux/misc/bzip2-1.0.6.tar.gz
tar xzvf bzip2-1.0.6.tar.gz
cd bzip2-1.0.6/
make
make install
5.libbz2-dev
apt-get install libbz2-dev
6.kenlm
在github上有详细的说明,https://github.com/kpu/kenlm。下载解压后
cd kenlm
mkdir -p build
cd build
cmake ..
make -j 4 # 启用4个cpu去编译。提高编译速度
cd ..
python setup.py install
测试,在python环境中导入kenlm无报错,说明kenlm安装成功。或者运行\kenlm\python\example.py文件
nltk安装
nltk直接用pip下载就行,nltk_data文件较大,可以离线下载后添加进路径。win10下使用nltk_data,直接放进D盘中就行,nltk会自动查找到。但是在Linux下需要将nltk_data路径添加到data,或者移动到下面输出的路径中。为了方便,我个人是建立了个软链接sudo ln -s /mnt/d/nltk_data /usr/local/nltk_data
import nltk
nltk.data.find(".")
# Searched in:
# - '/root/nltk_data'
# - '/usr/local/nltk_data'
# - '/usr/local/share/nltk_data'
# - '/usr/local/lib/nltk_data'
# - '/usr/share/nltk_data'
# - '/usr/local/share/nltk_data'
# - '/usr/lib/nltk_data'
# - '/usr/local/lib/nltk_data'
在当前会话下添加路径到data
from nltk import data
data.path.append(r"你下载的nltk_data所在路径")
添加完路径,使用nltk.data.path
查看当前已添加路径
简单测试
from nltk.tokenize import word_tokenize
sentence = "since the 1890s , and beginning in france , the term ''libertarianism '' has often been used as an synonym for anarchism and was used almost exclusively in this sense until the 1950s in the united states ; its use as an synonym is still common outside the united states ."
print(word_tokenize(sentence))
总结
以上所述是小编给大家介绍的win10子系统python开发环境准备及kenlm和nltk的使用教程,希望对大家有所帮助!
来源:https://blog.csdn.net/qq_16829085/article/details/102513289


猜你喜欢
- 1.Quiz有如下一个例子:package mainimport ("encoding/json""fmt&q
- 在国内,大部分人都是过农历生日,然后借助日历工具获取农历日期对应的阳历日期,以这一天来过生!这里还有一个痛点,即:每一年的农历生日对应的阳历
- 创建列表list( ) # 创造列表list(可迭代对象)# 将可迭代对象创造成列表切片索引:列表[a:b]切片索引赋值:列表[切片] =
- 需求:用SQL语句随机从数据库中随机取N条数据。以前不太清楚SQL语句可以直接随机取数据今天查了一下,发现有两个随机函数: newid()
- 导语相信大家对于英语四级一点都不陌生了吧?很多学校都是要求学生必须考过英语四级,不然就不能毕业。一开始我抱着侥幸心理,心想上高中的时候英语不
- 同级目录(兄弟目录)调用看书看得好好的,一写代码就出错!!!这个问题是大家初学Python的时候会遇到的一个很常见的问题,然后我们去搜网上的
- 我今天晚上,做一个快印公司的网站布局,在Div镶套布局中,父标签DIV的高度不变。在IE下没有问题,但是在FIREFOX下就有问题了。如图:
- 1 解决方案【方案一】载入模型结构放在全局,即tensorflow会话外层。'''载入模型结构:最关键的一步'
- 废话不多说,上代码看吧!'''为了避免截断中文字符 文件要求是 unicode 编码 txt文件另存为对话框下面有下
- <?php /* *@author 夜无眠  
- 安装报错类型,解决方案;1. 数据库连接报错mysqldb只支持python2,pymysql支持3,都是使用c写的驱动,性能更好# dja
- 1.BeautifulSoup简介BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解
- 前言至今,ChatGPT 已经火了很多轮,我在第一轮的时候注册了账号,遗憾的是,没有彻头彻尾好好地体验过一次。最近这一次火爆,ChatGPT
- 第四篇《WEB标准能有多难?》专栏文章将结束关于文本部分的XHTML的讲解。那么这篇主讲的内容涉及链接、标题、插入、删除、上下标、分割线、换
- CURLOPT_RETURNTRANSFER 选项:curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);如
- 本文实例讲述了python实现的分析并统计nginx日志数据功能。分享给大家供大家参考,具体如下:利用python脚本分析nginx日志内容
- 函数:split()例子我们想要将以下字符串rule进行拆分。字符串表示的是一个规则,由“…”得到“…”。我们需要将规则中的条件属性与取值分
- 简单演示import matplotlib.pyplot as pltimport numpy as np# 从[-1,1]中等距去50个数
- 与前面一样我们会用fso来对文件或文件夹进行创建与删除操作了,其实fso有强大的功能但非常危险的哦,下面我们不来看看删除实例吧,在这些例子,
- 1、涉及到图的对比会用到子图形式展示,先看看效果2、绘制代码如下accuracy_alexnet_clef = [78.05, 78.43,