Python深度学习之FastText实现文本分类详解
作者:小鱼干儿? 发布时间:2022-09-03 10:35:28
FastText是一个三层的神经网络,输入层、隐含层和输出层。
FastText的优点:
使用浅层的神经网络实现了word2vec以及文本分类功能,效果与深层网络差不多,节约资源,且有百倍的速度提升
深度学习和机器学习的区别:
与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。机器学习需要再根据提取到的特征再进行分类。
安装FastText
使用pip安装
pip install fasttext
因为FastText依赖C++的环境,安装的时候可能会报错,有的是C++ 11
有的是C++14看报错里面缺少那个版本的C++环境就安装那个版本的环境就可以了
使用FastText进行文本分类的一般步骤
数据格式的要求:
__label__标签 文本内容 或 文本内容 __label__标签
__label__标签\t文本内容 或 文本内容\t__label__标签
文本内容和标签之间用\t或空格都可以
目前这几种形式都支持
数据预处理:
将原数据处理为数据要求的格式,分词以后词于词之间用空格连接
这个根据自己数据的情况自己进行处理
训练模型
import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, verbose=2, minCount=1, epoch=25, loss="hs") # 训练模型
# train.csv 文件路径,也可以是txt文件,里面的参数根据需要调
"""
训练一个监督模型, 返回一个模型对象
input: 训练数据文件路径
lr: 学习率
dim: 向量维度
ws: cbow模型时使用
epoch: 次数
minCount: 词频阈值, 小于该值在初始化时会过滤掉
minCountLabel: 类别阈值,类别小于该值初始化时会过滤掉
minn: 构造subword时最小char个数
maxn: 构造subword时最大char个数
neg: 负采样
wordNgrams: n-gram个数
loss: 损失函数类型, softmax, ns: 负采样, hs: 分层softmax
bucket: 词扩充大小, [A, B]: A语料中包含的词向量, B不在语料中的词向量
thread: 线程个数, 每个线程处理输入数据的一段, 0号线程负责loss输出
lrUpdateRate: 学习率更新
t: 负采样阈值
label: 类别前缀
verbose: ??
pretrainedVectors: 预训练的词向量文件路径, 如果word出现在文件夹中初始化不再随机
model object
"""
预测数据
使用predict
预测数据,预测一段文本属于的类别
model.predict(x) # x文本内容 返回的数据格式(('__label__4',), array([0.99441689]))
# 可能性最大的标签和准确率
使用test
验证模型的准确率,传入的是一个文件,文件的格式和训练集一样
返回一个元组(样本数,精确率,找回率)
模型的保存
model.save_model("model_cooking.bin") # 文件路径
模型读取
fasttext.load_model("model_cooking.bin") # 读取模型
模型的优化
直接使用默认参数去训练模型一般都得不到特别好的结果,可以通过一些手段来优化模型。第一种可以采取的手段是去掉语料库当中的停止词,对于英文的语料库来说,还可以把所有的大写字母都转化成小写字母。另一种可以采取的手段是调整超参数,比如说修改学习速率、修改epoch等,大家可以参照着fastTest的文档去进行相应的调整,fastText的文档中介绍了一种更加方便的自动调参方法,只要我们同时提供训练集和测试集就可以了,带来的精确度提升还是非常显著的:
model = fasttext.train_supervised(input='train.csv', autotuneValidationFile='test.csv', autotuneDuration=600)
"""
autotuneValidationFile='test.csv', 测试集数据集
autotuneDuration=600 时间限制,单位为秒,默认为5分钟
"""
# 如果想查看对应的参数,可以使用
对象.属性的方式进行查看
举例:
使用FastText进行文本分类的基本操作就是这些内容,关于深层次的学习大家可以参考
传送门
来源:https://blog.csdn.net/qq_52007481/article/details/126628609


猜你喜欢
- Python信息抽取之乱码解决办法就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧信息抓取,用python,beautifu
- 写SQL语句的时候很多时候会用到filter筛选掉一些记录,SQL对筛选条件简称:SARG(search argument/SARG) wh
- 前言当我们遇到慢sql,第一反应可能就是去优化我们的sql语句。一些比较复杂的语句如果执行慢可能还能理解,但是有时一些特别简单的查询也会变得
- 本文实例讲述了python实现上传样本到virustotal并查询扫描信息的方法。分享给大家供大家参考。具体方法如下:import simp
- 目录wtforms使用1(简单版):使用2(复杂版):wtforms安装:pip3 install wtforms使用1(简单版):from
- 平方根,又叫二次方根,表示为〔√ ̄〕,如:数学语言为:√ ̄16=4。语言描述为:根号下16=4。以下实例为通过用户输入一个数字,并计算这个数
- 一、概述前提:已安装 Python,如下图所示:1.1 检查是否已配置成功(选)1. 打开运行窗口 (1) 快捷键  
- 这篇文章主要介绍了python如何实现不用装饰器实现登陆器小程序,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值
- 使用timer来统计asp页面程序的运行时间。实例代码和说明见下:<%Dim varInitial_TimevarIniti
- Python中打开文本使用的是with语句,比如打开一个文件并读取每一行with open(filename) as fp: f
- 为了使一个MySQL系统安全,强烈要求你考虑下列建议……当你连接一个MySQL服务器时,你通常应
- 一、概述SQL Server提供了“分离/附加”数据库、“备份/还原”数据库、复制数据库等多种数据库的备份和恢复方法。这里介绍一种学习中常用
- 前言迭代器是 23 种设计模式中最常用的一种(之一),在 Python 中随处可见它的身影,我们经常用到它,但是却不一定意识到它的存在。在关
- 经常看到说正则的文章,但说的只是方法,却很少有说以下几个基本概念:1.贪婪:+,*,?,{m,n}等默认是贪婪匹配,即尽可能多匹配,也叫最大
- 本文实例为大家分享了vue实现选择商品规格功能的具体代码,供大家参考,具体内容如下要实现上图的效果,代码如下:<template>
- 字典是python中唯一内建的映射类型。字典中的值并没有特殊的顺序,但是都存储在一个特定的键(key)里。键可以是数字,字符串甚至是元组。1
- 学习前言在前一段时间已经完成了卷积神经网络的复习,现在要对循环神经网络的结构进行更深层次的明确。RNN简介RNN 是当前发展非常火热的神经网
- 关于admin:(1) admin的概述:admin是一个django子代的组件,当创建一个项目会后,就会在settings文件的 INST
- array_unique() 定义和用法 array_unique() 函数移除数组中的重复的值,并返回结果数组。 当几个数组元素的值相等时
- 本文实例讲述了java使用正则表达式查找包含的字符串。分享给大家供大家参考,具体如下:Hello.java:package hello;im