位置：首页>> 网络编程>> Python编程>> Python sklearn CountVectorizer使用详解

Python sklearn CountVectorizer使用详解

作者：math_gao　　发布时间：2023-06-20 08:19:05　

标签：Python,sklearn,CountVectorizer

简介

CountVectorizer官方文档。

将一个文档集合向量化为为一个计数矩阵。

如果不提供一个先验字典，不使用分析器做某种特征选择，那么特征的数量将等于通过分析数据发现的词汇量。

数据预处理

两种方法：1.可以不分词直接投入模型；2.可以先将中文文本进行分词。

两种方法产生的词汇会非常不同。在后面会具体给出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = ['很少在公众场合手机外放',
'大部分人都还是很认真去学习的',
'他们会用行动来',
'无论你现在有多颓废，振作起来',
'只需要一点点地改变',
'你的外在和内在都能焕然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分词
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

构建模型

训练模型

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)

所有词汇：model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分词生成的词汇

分词后生成的词汇

计数矩阵：X.toarray()

#每个文档相对词汇量出现次数形成的矩阵
matrix = X.toarray()
print(matrix)

#计数矩阵转化为DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

词汇索引：model.vocabulary_

print(vectorizer.vocabulary_)

来源：https://blog.csdn.net/math_gao/article/details/129589915

0

投稿

猜你喜欢

python中fastapi设置查询参数可选或必选
前言：在fastapi中，我们定义的查询参数是可以设置成：必选参数 or 可选参数。可选查询参数只要给查询参数的默认值设置为None，表示该
关于python爬虫应用urllib库作用分析
一、urllib库是什么？urllib库用于操作网页 URL，并对网页的内容进行抓取处理urllib包包含以下几个模块：urllib.re
python读取excel数据绘制简单曲线图的完整步骤记录
python读写excel文件有很多种方法：用xlrd和xlwt进行excel读写用openpyxl进行excel读写用pandas进行ex
Python的log日志功能及设置方法
引入：Python中有个logging模块可以完成相关信息的记录，在debug时用它往往事半功倍一、日志级别(从低到高)：DEBUG :详细
Python图像处理库PIL中图像格式转换的实现
在数字图像处理中，针对不同的图像格式有其特定的处理算法。所以，在做图像处理之前，我们需要考虑清楚自己要基于哪种格式的图像进行算法设计及其实现
PHP一文带你搞懂游戏中的抽奖算法
前言没有特别幸运，那么请先特别努力，别因为懒惰而失败，还矫情地将原因归于自己倒霉。你必须特别努力，才能显得毫不费力。希望：所以说，树倒了，没
迎来2009年CSS裸奔节（CSS Naked Day ）
什么是CSS裸奔节？CSS裸奔节就是将这整站的css样式都去掉，这样所有的布局，颜色，背景什么的就都没有了(除非你使用table布局)，只剩
Centos7下编译安装配置Nginx+PHP+MySql环境
序言这次玩次狠得。除了编译器使用yum安装，其他全部手动编译。哼~看似就Nginx、PHP、MySql三个东东，但是它们太尼玛依赖别人了。没
Python正则表达式匹配ip地址实例
本文实例讲述了正则表达式匹配ip地址实例。代码结构非常简单易懂。分享给大家供大家参考。主要实现代码如下：import rereip = re
Python中with...as...的使用方法
简介：with是从Python2.5引入的一个新的语法，它是一种上下文管理协议，目的在于从流程图中把 try,except 和finally
Python必备技巧之字符数据操作详解
字符串操作字符串 + 运算符+运算符用于连接字符串，返回一个由连接在一起的操作数组成的字符串。>>> s = 'a
SpringBoot项目application.yml文件数据库配置密码加密的方法
在Spring boot开发中，需要在application.yml文件里配置数据库的连接信息，或者在启动时传入数据库密码，如果不加密，传明
Go语言中的数据竞争模式详解
前言本文主要基于在Uber的Go monorepo中发现的各种数据竞争模式，分析了其背后的原因与分类，希望能够帮助更多的Go开发人员，去关注
webpack vue 项目打包生成的文件,资源文件报404问题的修复方法(总结篇)
最近在使用webpack + vue做个人娱乐项目时，发现npm run build后，css js img静态资源文件均找不到路径，报40
Node.js学习入门
开始之前，安利一本正在看的书《站在两个世界的边缘》，作者程浩，上帝丢给他太多理想，却忘了给他完成理想的时间。OK，有兴趣的可以看一看。nod
vue中v-model如何绑定多循环表达式实战案例
一、存在问题在v-model想绑定表达式 || 函数方法，发现控制台报错了，不允许这波操作。下面我们分析存在该问题的原因和解决方法。实战经验
PHP获取表单所有复选框的值的方法
通常来说，php中总是只获取最后一个复选框的值，那么如何才能获取所有复选框的值？解决办法如下：form表单的部分代码如下：<input
Python操作CSV格式文件的方法大全
(一)CSV格式文件1.说明CSV是一种以逗号分隔数值的文件类型，在数据库或电子表格中，常见的导入导出文件格式就是CSV格式，CSV格式存储
MAC下MYSQL5.7.17连接不上的问题及解决办法
MAC下MYSQL5.7.17无法连接的问题，下载安装完SQLBench_community 6.3.9后新建MYSQL CONNECTIO
Numpy中array数组对象的储存方式(n,1)和(n,)的区别
之前一直傻傻分不清（n,1）和（n,）之间的区别，这里做一下总结，希望度过此文章的小伙伴都能明白。例如如果我们创建一个包含10个整型数的数组

用python3 urllib破解有道翻译反爬虫机制详解

Django模板语言 Tags使用详解

python格式化字符串的实战教程(使用占位符、format方法)

一篇文章搞懂Python Unittest测试方法的执行顺序

PyTorch小功能之TensorDataset解读

python计算分段函数值的方法

Python手动或自动协程操作方法解析

Django利用cookie保存用户登录信息的简单实现方法

FP-growth算法发现频繁项集——构建FP树

详解Python中Sync与Async执行速度快慢对比

Win10 1909开机存在两个系统怎么办？开机存在两个

怎么删除wps看图软件？wps看图软件的卸载方法

Win10系统生物识别功能怎么开启？Win10开启生物识别功能的方法

word双引号替换的两种方法

SONY投影仪不通过VGA,HDMI连接，笔记本如何通过网络投影到投影仪

修改mysql最大连接数的方法

影之刃3白衣留情心法如何搭配？白衣留情心法搭配及玩法分享

航海王燃烧意志赤犬技能天赋怎么样

爆裂魔女万能印记怎么获取

win10为什么老是更新？win10老是更新原因

手机版 网络编程 asp之家 www.aspxhome.com