Python数据分析与处理(二)——处理中国地区信息
作者:a?Fang 发布时间:2021-04-04 17:12:26
标签:Python,数据,分析,处理,中国,地区,信息
2.1数据的爬取
代码:
import pandas as pd
data=pd.read_csv("example_data.csv",header=1)
print(data)
data1=pd.read_csv("北京地区信息.csv",header=1,encoding='gbk')
data2=pd.read_csv("天津地区信息.csv",encoding='gbk')
print(data1)
print(data2)
代码运行结果:
首先使用pandas
的read_csv()
方法进行数据的读取,然后就能够看到相应的表格信息。
2.2检查重复数据
dupnum=data.duplicated()
print(dupnum)
\# 对重复值进行处理
caldup=data.drop_duplicates()
print(caldup)
代码运行结果:
主要是是使用这个duplicated()
方法进行数据的查重,返回一个布尔序列,仅对唯一元素而言为True
。如果有重复的数据就会在该数值的部分返货Flase
。
然后我们就可以使用drop_duplicates()
进行重复值删除。
2.3检查缺失值
代码:
from pandas import Series
from numpy import NAN
\# import pandas as pd
series_obj=Series([1,None])
pd.notnull(series_obj)
\# 上面做的是测试
pd.notnull(data)
pd.notnull(data1)
pd.notnull(data2)
代码运行结果:
使用pd.notnull(data1)
进行非空数值的返回, 返回值是布尔型的矩阵,再取df[布尔型矩阵]返回的是id为非空的行。
2.4 检查异常值
import numpy as np
\# 2.4 检查异常值
def three_sig(ser1):
mean_value=ser1.mean()
\# 标准差
std_value=ser1.std()
\# 位于3σ范围外的都是异常值
\# 数值大于u+3σ小雨u-3σ
rule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1)
index=np.arange(ser1.shape[0])[rule]
outrange=ser1.iloc[index]
return outrange
three_sig(data2["女性"])
代码运行结果:
3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。
通俗理解就是正态分布。
来源:https://blog.csdn.net/qq_46258465/article/details/122178448


猜你喜欢
- 1、基于字典的创建规划问题上篇中介绍了使用 LpVariable 对逐一定义每个决策变量,设定名称、类型和上下界,类似地对约束条件也需要逐一
- 背景对接多个外部接口,需要保存请求参数以及返回参数,方便消息的补偿,因为多个外部接口,多个接口字段都不统一,整体使用一个大字段(longte
- 一、pyc文件我们开发一个python脚本,文件的后缀为.py。如果运行这个py文件,Python内部会先将源码文件(.py文件)编译成字节
- 前言最近有个软件专业等级考试,以下简称软考,为了更好的复习备考,我打算抓取www.rkpass.cn网上的软考试题。首先讲述一下我爬取软考试
- 在多线程的使用时,为了线程的顺利进行,我们会使用函数来对某个线程进行暂停运行。在多线程中有两个函数可以实现sleep和wait,不过它们在使
- 本文实例为大家分享了python版百度语音识别功能的具体代码,供大家参考,具体内容如下环境:使用的IDE是Pycharm1.新建工程2.配置
- 昨天对其配置了一天,其配置为Jena 2.4.0,MySQL数据库版本为5.1.42-community,JDK版本为1.6.0,MySQL
- 1 简介今天我要给大家介绍的这个Python库prettymaps非常的有趣,基于它,我们只需要简单的代码就可以对地球上给定坐标和范围的任意
- 此方法支持IE 不支持火狐。可能是因为FCKEidtor的keyup方法在火狐下不被支持。 FCKEditor编辑器换为TextBox,应该
- 今天尝试了一下据说最好用的编译器Jupyter Lab,安装期间遇到了很多问题,以此为记录。1.安装jupyter labjupyter l
- 1、实现 __getitem__(self)class Library(object): def __init__(self):
- 准备工作右击新建的项目,选择Python File,新建一个Python文件,然后在开头import cv2导入cv2库。我们还要知道在Op
- 当你加入到一个项目,相关的CSS文件可能会看得你头昏眼花。时间一长,修改了哪些内容,增加了哪些内容,也都弄不清,维护成本相当的高。正好我们国
- 【导语】:对自己写的冗长代码,想重构但又无思路?小编整理了系列介绍python代码重构优化的方法,助你一臂之力。编写干净的 Pythonic
- 本文实例为大家分享了python实现局域网内聊天功能的具体代码,供大家参考,具体内容如下功能: 可以向局域网内开启接收信息功能的ip进行发送
- 最近在调代码,碰到幂函数、指数函数,总是提示ValueError: math domain errorValueError: negativ
- 当程序中包含多个线程时,CPU 不是一直被特定的线程霸占,而是轮流执行各个线程。那么,CPU 在轮换执行线程的过程中,即从创建到消亡的整个过
- 这些天,我需要全文搜索。这个区块中最酷的孩子们是Elastic Search和Sorl:他们快速,灵活,资源消耗沉重并且需要Java,这几乎
- 安装在命令提示符框中直接输入pip install beautifulsoup4介绍beautifulsoup是python的一个第三方库,
- 开发应用程序时,若只有一个窗口则只需关心这个窗口里面的各控件之间如何传递数据。如果程序有多个窗口,就要关心不同的窗口之间是如何传递数据。单一