python数据处理详情
作者:上进小菜猪 发布时间:2021-05-08 12:53:12
标签:python,数据,处理
一,前言
我们现在拿到了一个十分庞大的数据集。是json
文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。
二,python模块
import json
import jieba
我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。
2.1,增加停用词表
停用词表.txt,把停用词表存入stopwords
,原因是:我们的目标分析json里有一些标点符号。
stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]
基本如图所示:
a+str(b)+c
这是文件名称,a+b+c=./json/poet.song.0.json b
递增,实现动态取值
with open(a+str(b)+c,'r',encoding='utf8')as fp:
因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。
2.2,顺序读取
定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
循环
json_data i
为里面的每一个元素。新的追加到
list_paragraphs
列表循环 j为里面的每一句。
代码如图所示:
使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制
words = jieba.lcut(str_s)
现在words为分析完毕的词性列表,遍历。
排除特殊符号
for word in words:
if word not in stopwords:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
出现频率加一。
2.3,lambda函数
使用lambda函数,sort快速排序,遍历输出频率前50的词性。
items.sort(key=lambda x:x[1], reverse=True)
之后赋值word
, count
。
word, count = items[i]
print ("{:<10}{:>7}".format(word, count))
三,运行
3.1,存入文件
f=open('towa.txt',"a",encoding='gb18030')
f.writelines("题目:"+textxxx)
f.writelines(word_ping)
来源:https://blog.csdn.net/weixin_52908342/article/details/124065858
0
投稿
猜你喜欢
- 装饰器的应用场景附加功能数据的清理或添加:函数参数类型验证 @require_ints 类似请求前拦截数据格式转换 将函数返回字典改为 JS
- 前言plt.show()展示图片的时候,截图进行保存,图片不是多么清晰如何保存高清图也是一知识点函数包名:import matplotlib
- 前言matplotlib是一个非常强大的Python第三方绘图包,可以绘制非常多非常漂亮的图形。import numpy as npimpo
- Python 是由吉多·范罗苏姆(Guido Van Rossum)在 90 年代早期设计。 它是如今最常用的编程语言之一。它的语法简洁且优
- 全局变量是魔鬼。在YUI中,我们仅用两个全局变量:YAHOO和YAHOO_config。YUI的一切都是使用YAHOO对象级的成员或这个成员
- 本文实例讲述了Python实现批量读取word中表格信息的方法。分享给大家供大家参考。具体如下:单位收集了很多word格式的调查表,领导需要
- 本文实例讲述了python 实现的发送邮件模板。分享给大家供大家参考,具体如下:##发送普通txt文件(与发送html邮件不同的是邮件内容设
- Python的装饰器可以实现在代码运行期间修改函数的上下文, 即可以定义函数在执行之前进行何种操作和函数执行后进行何种操作, 而函数本身并没
- 本文实例讲述了Python实现将HTML转成PDF的方法。分享给大家供大家参考,具体如下:主要使用的是wkhtmltopdf的Python封
- Python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供
- 前言还记得这个九九乘法表吗,这次课后相信你可以用代码给你的小弟弟妹妹们变出这份“葵花宝典”。循环如果要把循环翻译成机器语言,那他对应的可以是
- 本文实例讲述了python输出指定月份日历的方法。分享给大家供大家参考。具体实现方法如下:#!/usr/bin/pythonimport c
- asp创建pdf文件代码,详见以下代码:<%Option ExplicitSub CheckXlDriver()&
- Aphorismthe fight is worth it.django models 连接 sqlite 数据库django 版本为 1.
- 新建label与button,并设置位置(grid)import tkinter as tkroot = tk.Tk()label = tk
- 本文实例为大家分享了python绘制汉诺塔的具体代码,供大家参考,具体内容如下源码:import turtleclass Stack: &n
- 文件内容如下:Alex 100000Rain 80000Egon 50000Yuan 30000
- 这里主要是讲在asp下两次由access数据库升级到sql server数据库后的经验及注意事项,其它语言也可以参考一下。欢迎讨论补充。1.
- 问题:在使用mask_rcnn预测自己的数据集时,会出现下面错误:ResourceExhaustedError: OOM when allo
- 一、if语句if 语句让你能够检查程序的当前状态,并据此采取相应的措施。if语句可应用于列表,以另一种方式处理列表中的大多数元素,以及特定值