位置：首页>> 网络编程>> Python编程>> python数据处理详情

python数据处理详情

作者：上进小菜猪　　发布时间：2021-05-08 12:53:12　

标签：python,数据,处理

一，前言

我们现在拿到了一个十分庞大的数据集。是json文件，里面存储了将近十万个数据，现在要对其中的数据进行清洗处理。

二，python模块

import json
import jieba

我们需要用json模块来处理json文件，和使用jieba库来分析词性，这样可以实现我们的需求。

2.1，增加停用词表

停用词表.txt，把停用词表存入stopwords，原因是：我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示：

a+str(b)+c这是文件名称，a+b+c=./json/poet.song.0.json b递增，实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据，我现在尽力的优化代码，现在提取一次，把需要的数据存入文件里面差不多需要五分钟。

2.2，顺序读取

定义一个空的字符串，将json对象转换为python对象。定义一个空的list存放诗句。
循环json_data i为里面的每一个元素。
新的追加到list_paragraphs列表
循环 j为里面的每一句。

代码如图所示：

使用jieba库，分析str内容的词性【注意是名称，动词。。。。】排行输出都是俩个字是巧合，没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表，遍历。

排除特殊符号

for word in words:
if word not in stopwords:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3，lambda函数

使用lambda函数，sort快速排序，遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
print ("{:<10}{:>7}".format(word, count))

三，运行

3.1，存入文件

f=open('towa.txt',"a",encoding='gb18030')
f.writelines("题目:"+textxxx)
f.writelines(word_ping)

来源：https://blog.csdn.net/weixin_52908342/article/details/124065858

0

投稿

猜你喜欢

Python装饰器的应用场景代码总结
装饰器的应用场景附加功能数据的清理或添加:函数参数类型验证 @require_ints 类似请求前拦截数据格式转换将函数返回字典改为 JS
Python Matplotlib中使用plt.savefig存储图片的方法举例
前言plt.show()展示图片的时候，截图进行保存，图片不是多么清晰如何保存高清图也是一知识点函数包名：import matplotlib
如何使用Python Matplotlib绘制条形图
前言matplotlib是一个非常强大的Python第三方绘图包，可以绘制非常多非常漂亮的图形。import numpy as npimpo
10 分钟快速入门 Python3的教程
Python 是由吉多·范罗苏姆(Guido Van Rossum)在 90 年代早期设计。它是如今最常用的编程语言之一。它的语法简洁且优
Javascript的一种模块模式
全局变量是魔鬼。在YUI中，我们仅用两个全局变量：YAHOO和YAHOO_config。YUI的一切都是使用YAHOO对象级的成员或这个成员
Python实现批量读取word中表格信息的方法
本文实例讲述了Python实现批量读取word中表格信息的方法。分享给大家供大家参考。具体如下：单位收集了很多word格式的调查表，领导需要
python 实现的发送邮件模板【普通邮件、带附件、带图片邮件】
本文实例讲述了python 实现的发送邮件模板。分享给大家供大家参考，具体如下：##发送普通txt文件（与发送html邮件不同的是邮件内容设
简单理解Python中的装饰器
Python的装饰器可以实现在代码运行期间修改函数的上下文，即可以定义函数在执行之前进行何种操作和函数执行后进行何种操作，而函数本身并没
Python实现将HTML转成PDF的方法分析
本文实例讲述了Python实现将HTML转成PDF的方法。分享给大家供大家参考，具体如下：主要使用的是wkhtmltopdf的Python封
Python实现进程同步和通信的方法
Python中的多线程其实并不是真正的多线程，如果想要充分地使用多核CPU的资源，在python中大部分情况需要使用多进程。Python提供
python基础详解之if循环语句
前言还记得这个九九乘法表吗，这次课后相信你可以用代码给你的小弟弟妹妹们变出这份“葵花宝典”。循环如果要把循环翻译成机器语言，那他对应的可以是
python输出指定月份日历的方法
本文实例讲述了python输出指定月份日历的方法。分享给大家供大家参考。具体实现方法如下：#!/usr/bin/pythonimport c
asp如何创建一个PDF文件？
asp创建pdf文件代码，详见以下代码：<％Option ExplicitSub CheckXlDriver()&
django 连接数据库 sqlite的例子
Aphorismthe fight is worth it.django models 连接 sqlite 数据库django 版本为 1.
Python tkinter布局与按钮间距设置方式
新建label与button，并设置位置（grid）import tkinter as tkroot = tk.Tk()label = tk
python绘制汉诺塔
本文实例为大家分享了python绘制汉诺塔的具体代码，供大家参考，具体内容如下源码：import turtleclass Stack: &n
解决python文件字符串转列表时遇到空行的问题
文件内容如下：Alex 100000Rain 80000Egon 50000Yuan 30000
asp中access升级到sql server后要做的工作
这里主要是讲在asp下两次由access数据库升级到sql server数据库后的经验及注意事项，其它语言也可以参考一下。欢迎讨论补充。1.
解决TensorFlow GPU版出现OOM错误的问题
问题：在使用mask_rcnn预测自己的数据集时，会出现下面错误：ResourceExhaustedError: OOM when allo
python入门语句基础之if语句、while语句
一、if语句if 语句让你能够检查程序的当前状态，并据此采取相应的措施。if语句可应用于列表，以另一种方式处理列表中的大多数元素，以及特定值

Django自定义权限及用户分组

使用C语言扩展Python程序的简单入门指引

Python入门_浅谈for循环、while循环

跟老齐学Python之关于循环的小伎俩

python如何实现远程控制电脑（结合微信）

Python实现设置显示屏分辨率

Python实现迪杰斯特拉算法过程解析

Django框架中方法的访问和查找

Python机器学习之决策树算法

python中日志logging模块的性能及多进程详解

Win7 64位系统没有超级终端软件的解决方法

win10不会玩怎么办？Windows 10 Demo网站助用户掌握新系统

word流程图中如何绘制虚线(带箭头)?

如何看自己的Win10是哪个版本怎么看自己的Win10版本

Win10电脑无线网络受限怎么解决呢？

小编教你一招解决Win10硬盘重装okldr.mbr错误启动不了方法

什么是即点即输以及怎么使用

Android PopupWindow增加半透明蒙层

电脑如何设置开机密码？

word2003背景图片怎么设置

手机版 网络编程 asp之家 www.aspxhome.com