python数据处理详情
作者:上进小菜猪 发布时间:2021-05-08 12:53:12
标签:python,数据,处理
一,前言
我们现在拿到了一个十分庞大的数据集。是json
文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。
二,python模块
import json
import jieba
我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。
2.1,增加停用词表
停用词表.txt,把停用词表存入stopwords
,原因是:我们的目标分析json里有一些标点符号。
stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]
基本如图所示:
a+str(b)+c
这是文件名称,a+b+c=./json/poet.song.0.json b
递增,实现动态取值
with open(a+str(b)+c,'r',encoding='utf8')as fp:
因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。
2.2,顺序读取
定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
循环
json_data i
为里面的每一个元素。新的追加到
list_paragraphs
列表循环 j为里面的每一句。
代码如图所示:
使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制
words = jieba.lcut(str_s)
现在words为分析完毕的词性列表,遍历。
排除特殊符号
for word in words:
if word not in stopwords:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
出现频率加一。
2.3,lambda函数
使用lambda函数,sort快速排序,遍历输出频率前50的词性。
items.sort(key=lambda x:x[1], reverse=True)
之后赋值word
, count
。
word, count = items[i]
print ("{:<10}{:>7}".format(word, count))
三,运行
3.1,存入文件
f=open('towa.txt',"a",encoding='gb18030')
f.writelines("题目:"+textxxx)
f.writelines(word_ping)
来源:https://blog.csdn.net/weixin_52908342/article/details/124065858


猜你喜欢
- 近日,朋友写一个关于成绩管理的系统,其中遇到一个小问题。如果按照SQLSERVER的ORDER 排序时,比如遇到两个100分,结果必然是名次
- 1.在搭建网络开始时,会调用到 keras.models的Sequential()方法,返回一个model参数表示模型2.model参数里面
- 以读取VOC2012语义分割数据集为例,具体见代码注释:VocDataset.pyfrom PIL import Imageimport t
- 在平时,常常会提醒自己要做一个善于发现的人,时刻发现细节,这样才会更加懂得生活、会让生活更加精彩。在学习上也是如此,我们常常会发现有很多网站
- 如果你经常浏览网页一定见过很多网站在form表单中的文本域(textarea)中添加了的背景图片,一般是使用网站的logo,我记得我最早注意
- 一、新建项目,在主配置文件中,修改以下内容:ALLOWED_HOSTS = ['127.0.0.1','localh
- 有些人说py中有两个函数可以实现对所有函数的了解以及使用,其中之一,就是我们今天要讲解的help函数。有些小伙伴可能比较陌生,但是另一个函数
- 原文地址:30 Days of Mootools 1.2 Tutorials - Day 4 - Functions函数和MooTools
- 现在有一个xml,格式如下: <date> <item> <id> 1 </id> <
- 本文实例讲述了Python Django中间件,中间件函数,全局异常处理操作。分享给大家供大家参考,具体如下:应用名/middleware.
- 1.在myblog中的urls.py中from django.urls import includefrom django.conf.url
- 因为我闲来无事,所以准备找一部电影来看看。 然后我找到了种子搜索网站,可是这类网站的弹窗广告太多,搞得我很烦。所以我就想着自己用python
- Sun公司和Zmanda在3月18号声称他们正在一起合作,为MySQL Enterprise用户交付一种全面、全局数据备份与恢复解决方案。现
- Default.aspx<%@ Page Language="C#" AutoEventWireup="
- Django项目中为什么会加载静态时会失败呢?原因:django部署方式比较特别,采用静态文件路径:STATICFILES_DIRS的部署方
- 我们要生成二维码都需要借助一些类库来实现了,下面我介绍利用PHP QR Code生成二维码吧,生成方法很简单,下面我来介绍一下.利用php类
- 本文实例讲述了Python基于回溯法子集树模板解决旅行商问题(TSP)。分享给大家供大家参考,具体如下:问题旅行商问题(Traveling
- 之前我写过一篇文章介绍如何实现中国站长站的文章干扰码功能:《谈中国站长站的文章干扰码实现方法》 首发在asp之家。如果大家有兴趣可以先看看。
- 读写分离,顾名思义,我们可以把读和写两个操作分开,减轻数据的访问压力,解决高并发的问题。那么我们今天就Python两大框架来做这个读写分离的
- IE中的获取文本方法innerText在firefox中不支持 firefox改成了textContent方法/属性 并且在Firefox中