自然语言处理NLP TextRNN实现情感分类
作者:实力 发布时间:2022-01-20 11:14:47
概要
在自然语言处理(NLP)领域,情感分析及分类是一项十分热门的任务。它的目标是从文本中提取出情感信息和意义,通常分为两类:正向情感和负向情感,并且可以细化为多个情感级别。
在这篇文章中,我们将介绍如何使用TextRNN(Text Recurrent Neural Network)来实现情感短文本分类任务。我们将探索数据预处理、模型构建、训练和评估等主题。
数据集
我们将使用公开的中文情感分类数据集THUCNews。该数据集包括74000个样本,被标记成10个类别:'体育', '娱乐', '家居', '房产', '教育', '时尚', '时政', '游戏', '科技'和 '财经'。我们选择其中5类并按照“csv”格式存储下来:'体育', '时政', '科技', '娱乐'和‘财经’。每个样本由一条短文本和一个标签组成。
以下是读取数据集和预览样本:
import pandas as pd
# 加载数据集
df = pd.read_csv('data.csv')
# 打印前五个样本
print(df.head())
输出:
label | text | |
---|---|---|
0 | 3 | 华彩行动到了20位担保人 全国民间组织网络代表共襄盛举 |
1 | 4 | 中移动前4月新用户净增955万用户 |
2 | 1 | 浙江教育房贷减轻购房压力 师生建体制 |
3 | 1 | 中央党校党的历史研究院原副院长林必胜先生逝世 |
4 | 1 | 中央党校党的历史研究院实现640家文博单位军工企业4000余名干部学习实践 * 精神 |
数据预处理
首先,将文本转换为可供模型使用的数字特征向量是自然语言处理任务中的关键步骤。我们可以通过利用一种称为“分词”的技术,将文本划分为一个个单词或词汇。
对于中文文本,我们将使用jieba分词库。以下是代码实现:
import jieba
# 进行中文分词,并将结果以字符串列表形式返回
def chinese_word_cut(mytext):
return ' '.join(jieba.cut(mytext))
df['text'] = df.text.apply(chinese_word_cut)
接下来,我们需要将文本数据转换为数值特征向量。我们可以使用torchtext库来处理此操作。以下是代码实现:
import torchtext
from torchtext import data
# 构建Field和Dataset
text_field = data.Field(tokenize='spacy', batch_first=True, fix_length=100)
label_field = data.LabelField(dtype=torch.long)
fields = [('text', text_field), ('label', label_field)]
dataset = data.TabularDataset(path='data.csv',
format='csv',
fields=fields,
skip_header=True)
# 划分测试集与训练集,比例为0.8/0.2
train_data, test_data = dataset.split(split_ratio=0.8, random_state=random.getstate())
# 构建词典
text_field.build_vocab(train_data, vectors='glove.6B.100d')
label_field.build_vocab(train_data)
在这里,我们定义两个Field
:第一个用于表示问题文本,第二个用于表示标签。然后,我们将它们放到一个名为“fields”的列表里。数据的格式是CSV,并由TabularDataset
加载。
接着,我们对原始数据进行划分,将80%的数据作为训练集,20%作为测试集。为了能再次处理相同的数据,我们还设置了一个种子(random state)。
最后,我们创建了单词表,并利用预训练的词向量(fill-vectors)进行初始化。例如,在此处,我们选择了GloVe词向量(glove.6B.100d)。GloVe是一种基于全局词频的词向量。
模型构建
TextRNN 是一个典型的循环神经网络模型,专门用于处理序列数据。当我们连续阅读一篇文章时,记忆通常从前到后流动,并且在阅读新的单词时,信息会累积起来,这正是RNN的目标。
我们将使用PyTorch来实现一个简单的TextRNN模型。以下是代码实现:
import torch.nn as nn
class TextRNN(nn.Module):
def __init__(self, vocab_size, embed_dim, hidden_dim, output_dim, n_layers,
bidirectional, dropout):
super().__init__()
self.embedding = nn.Embedding(vocab_size, embed_dim)
self.hidden_dim = hidden_dim
self.n_layers = n_layers
self.bidirectional = bidirectional
self.rnn = nn.RNN(embed_dim,
hidden_dim,
num_layers=n_layers,
bidirectional=bidirectional,
batch_first=True,
dropout=dropout)
self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim, output_dim)
self.dropout = nn.Dropout(dropout)
def forward(self, text):
embedded = self.embedding(text)
output, hidden = self.rnn(embedded)
hidden = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim = 1))
return self.fc(hidden)
在RNN层之后有两个线性层:一个用于投影输出空间,一个用于产生最终结果。为了避免过拟合,我们还添加了一些丢弃层。
此处的输入特征为嵌入(embedding)矩阵,该矩阵是固定大小的,其中每行对应于词汇表中的单个单词。所以第一个参数为vocab_size, 第二个参数用于指定分词后每个单词的维度。
RNN的隐藏状态(h)对于这类任务非常关键,因为它是从之前的时间步的信息生成的,并存储了读取所有历史记录的能力。在我们的示例中,我们选用GPU加速训练。
模型训练
现在我们准备好训练模型了。我们将使用PyTorch Lightning框架来加速开发和调试的过程。
以下是代码实现:
import torch
from torch.utils.data import DataLoader
import pytorch_lightning as pl
class Model(pl.LightningModule):
def __init__(self, vocab_size, embed_dim, hidden_dim, output_dim, n_layers,
bidirectional, dropout=0.5):
super(Model, self).__init__()
self.rnn = TextRNN(vocab_size, embed_dim, hidden_dim,
output_dim, n_layers, bidirectional, dropout)
self.loss_fn = nn.CrossEntropyLoss()
def forward(self, text):
return self.rnn(text)
def training_step(self, batch, batch_idx):
x, y = batch.text, batch.label
pred_y = self(x).squeeze(1)
loss = self.loss_fn(pred_y, y)
acc = accuracy(pred_y, y)
self.log('train_loss', loss, prog_bar=True)
self.log('train_acc', acc, prog_bar=True)
return {'loss': loss}
def validation_step(self, batch, batch_idx):
x, y = batch.text, batch.label
pred_y = self(x).squeeze(1)
loss = self.loss_fn(pred_y, y)
acc = accuracy(pred_y, y)
self.log('val_loss', loss, prog_bar=True)
self.log('val_acc', acc, prog_bar=True)
def configure_optimizers(self):
optimizer = torch.optim.Adam(self.parameters(), lr=0.001)
return optimizer
def accuracy(preds, y):
_, preds = torch.max(preds, dim=1)
correct = (preds == y).float()
acc = correct.sum() / len(correct)
return acc
这里我们使用LightningModule
来创建一个PyTorch Lightning模型。在训练步骤中,我们计算了损失和准确率,并将值记录为train_loss
、train_acc
、val_loss
和 val_acc
。然后我们返回损失并将PyTorch Lightning接收到的优化器作为return语句输出。
模型评估
现在我们已经完成了训练,下一步是评估我们的模型。我们将使用测试集进行评估。以下是代码实现:
test_loader = DataLoader(test_data, batch_size=BATCH_SIZE)
ckpt = pl.callbacks.ModelCheckpoint(monitor='val_loss')
trainer = pl.Trainer(gpus=1, callbacks=[ckpt])
model = Model(len(text_field.vocab), 100, 128, len(label_field.vocab), 1, True)
trainer.fit(model, DataLoader(train_data, batch_size=BATCH_SIZE))
trainer.test(test_dataloaders=test_loader)
在这里,我们将batch size设置为128,并训练20个epoch。最后,使用测试数据评估模型的性能。
结论
在本文章中,我们介绍了如何使用TextRNN模型来实现短文本情感分类任务。我们使用PyTorch和PyTorch Lightning库建立、训练和评估模型。
虽然我们主要关注情感分类任务,但这些方法本质上可以应用于其他NLP问题。
来源:https://juejin.cn/post/7225231707825750075
猜你喜欢
- 以前我就是一篇博文 就给出一个好用的函数,它在我几篇博文中被广泛运用的。最近看了不少东西,于是便有了这篇博文,以梳理我学到的新东西。毫无疑问
- Ajax的流行给用户体验带来了很大程序的提升,而“注册“这项做为互联网最常用到的功能也自然而然的成为Ajax最常光顾的地方,实时判断用户输入
- 一、总结说明Windows环境安装:paramunittest cmd输入命令:pip install paramunittest总结说明:
- 比较两个时间序列在图形上是否相似,可以通过以下方法:1.可视化比较:将两个时间序列绘制在同一张图上,并使用相同的比例和轴标签进行比较。可以观
- 代码如下import unittestdir = "D:\\work_doc\\pycharm2\\python_Basics&q
- 我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读
- 代码如下:arr = array(12,52,14,43,24,58,15,64,24,57,17,56,45)&nbs
- HTTP请求是无状态的,我们通常会使用cookie或session对其进行状态保持,cookie存储在客户端,容易被用户误删,安全性不高,s
- 接着上篇的内容,这里实现一个交易记录链,废话不多说,先看图:跟之前的逻辑类似,但也有少许不同,这里多了一个payloadhash,以及对pa
- 本文实例为大家分享了Bootstrap导航栏和登陆框的具体代码,供大家参考,有不足的地方请大家谅解,大家共同学习进步。<!DOCTYP
- 1、检测登录状态base.pydef checkLogin(func):""" 查看session
- 这篇文章主要介绍了python字符串替换re.sub()实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值
- 本文实例为大家分享了python图形用户接口实例的具体代码,供大家参考,具体内容如下运用tkinter图形库,模拟聊天应用界面,实现信息发送
- 今天,使用各种所见即所得工具制作主页已经是一件非常容易的事情了。但是了解HTML源代码和语法,无疑对我们制作主页有更大的帮助,也可以使用户能
- 如下所示:Numpy中reshape的使用方法为:numpy.reshape(a, newshape, order='C')
- 本文介绍,在 VSCode 使用 IPython Kernel的设置方法,详细介绍如下所示:要达到的效果:只需按下 Ctrl+;,选中的几行
- 在页面中自定义了changejs函数后页面提示错误:Active Server Pages 错误 'ASP 0138' 嵌套
- PHP ini_set用来设置php.ini的值,在函数执行的时候生效,脚本结束后,设置失效。无需打开php.ini文件,就能修改配置,对于
- 如果没有了解栅格系统是什么,建议看完这篇文章以后再回来。其实有很种 CSS 写法实现栅格系统,很多 CSS 库也都会提供类似的栅格系统实现(
- oracle命令删除用户:connect / as sysdba; shutdown abort; startup;&n