python重复值处理得方法
作者:??FizzH???? 发布时间:2023-07-03 20:57:43
标签:python,重复值,处理
前言:
如果大家接触过数据分析,那么大家可能都知道,最让人头疼的就是在数据录入的过程中,不可避免的会产生重复值,缺失值和异常值了,python也提供了一些方法让我们处理这些值。下面让我们一块来学习一下吧~
今天,先处理重复值,首先创建一个包含重复值的DataFrame,如下:
import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b'])
print(data)
我们将其打印出来,结果如下:
可以看出来第一第二行是重复的,这里的数据量比较少,可以直接肉眼观察,但如果数据量多的时候,我们就需要用到diplicated()函数来查询了,我们用它来查查上面data的重复值。
data[data.duplicated()]
我们可以看出,它把索引为1的行打印了出来,如果有3行一样的呢?我们下面来试试!
import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b'])
data[data.duplicated()]
其结果如下:
可以看出,重复项出了第一个出现的数据外,都会显示出来。
如果想统计出一共有多少行重复了,我们就可以用到sum()函数,代码如下:
data.duplicated().sum()
很多情况下,我们都需要删除掉重复的数据,这时候我们就可以用到drop_duplicated()函数,我们将data的重复行删除掉试试!
data.drop_duplicated()
刚执行代码时发生了错误,原来是duplicates而不是duplicated!
但是要注意,用drop_duplicates()删除重复项并不会影响data的结构,如果你要把data结构改掉就要重新赋值。如果要用来删除某列的重复值的话,直接在括号内加上列名即可。
如下:
来源:https://juejin.cn/post/7064768893092380702


猜你喜欢
- 比如,若要将某个String对象s从gbk内码转换为UTF-8,可以如下操作 s.decode('gbk').encode(
- 语法:Trigger on an INSERT, UPDATE, or DELETE statement to a table or vie
- jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点
- Mysql 远程连接配置实现的两种方法大家在公司工作中,经常会遇到mysql数据库存储于某个人的电脑上,大家要想连接mysql服务,装有my
- 本文借鉴于张广河教授主编的《数据结构》,对其中的代码进行了完善。从某源点到其余各顶点的最短路径Dijkstra算法可用于求解图中某源点到其余
- 一,索引的重要性索引用于快速找出在某个列中有一特定值的行。不使用索引,MySQL必须从第1条记录开始然后读完整个表直到找出相关的行。表越大,
- 有一个表user,字段分别有id、nick_name、password、email、phone。一、单字段(nick_name)查出所有有重
- 废话不多说,直接上代码吧!/** * 函数防抖 (只执行最后一次点击) * @param fn * @param delay * @retu
- RESTful API在Web项目开发中广泛使用,本文针对Go语言如何一步步实现RESTful JSON API进行讲解, 另外也会涉及到R
- 前言本篇来学习下柱状图的实现柱状图实现步骤ECharts 最基本的代码结构准备x轴的数据准备 y 轴的数据准备 option , 将 ser
- 使用wordcloud模块,生成云图,测试文本为:Betty Botter bought some butter but she said
- 前言数据库生成环境中经常会遇到表中有重复的数据,或者进行关联过程中产生重复数据,下面介绍三种剔除重复数据的方法,请针对自己的应用场景选择使用
- React 是 Facebook 里一群牛 X 的码农折腾出的牛X的框架。 实现了一个虚拟 DOM,用 DOM 的方式将需要的组
- 首先我们放出tf2.0关于tf.keras.layers.Conv2D()函数的官方文档,然后逐一对每个参数的含义和用法进行解释:tf.ke
- 在linux服务器lvs负载均衡、双机热备应用中经常用到mysql双机热备,安装和配置过程如下:一、 安装MYSQL# cp mysql-s
- 简介本文分享的实例代码主要通过python语言实现批量替换页眉页脚的操作功能,具体如下。代码#!/usr/bin/env python# -
- 源码及注释:import pygamefrom sys import exitfrom random import randintimpor
- 改编自详解利用OpenCV提取图像中的矩形区域(PPT屏幕等) 原文是c++版,我改成了python版,供大家参考学习。主要思想:边缘检测—
- 一、安装并配置 JMeter下载官网下载,下载二进制的这个 zip配置环境变量然后解压到你喜欢的位置,配置环境变量,新建一个 JMETER_
- 看看效果图:效果图功能点:支持不限城市,不限地区(这个东西的实现..真心死磕了挺久) – 左右两边数据的同步地区一次性多选,若是选择了所有地