位置：首页>> 网络编程>> Python编程>> pandas中的数据去重处理的实现方法

pandas中的数据去重处理的实现方法

作者：我是小蚂蚁　　发布时间：2022-05-13 23:28:50　

标签：Pandas,清除重复数据

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated（subset = None，keep =‘first' ）返回boolean Series表示重复行

参数：
subset：列标签或标签序列，可选
仅考虑用于标识重复项的某些列，默认情况下使用所有列
keep：{‘first'，‘last'，False}，默认'first'

first：标记重复，True除了第一次出现。
last：标记重复，True除了最后一次出现。
错误：将所有重复项标记为True。

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看重复值
# 参数 keep 可以标记重复值 {'first'，'last'，False}
print(df['Seqno'].duplicated())
'''
0 False
1 True
2 True
3 True
4 False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0 0.0
4 1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来去重
'''
Price Seqno Symbol time
0 1623.0 0.0 APPL 1473411962
4 1649.0 1.0 APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值有： first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
Price Seqno Symbol time
3 1623.0 0.0 APPL 1473411963
4 1649.0 1.0 APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates（subset = None，keep ='first'，inplace = False ）

subset ：指定列，默认情况下使用所有列

keep ： {'first'，'last'，False}，默认'first'

first ：删除重复项保留第一次出现的。last ：删除重复项保留最后一次出现的。false：删除所有重复项。

inplace ：布尔值，默认为False 是否删除重复项或返回副本

栗子：

来源：https://blog.csdn.net/missyougoon/article/details/83926840

0

投稿

猜你喜欢

Sklearn调优之网格搜索与随机搜索原理详细分析
前言超参调优是“模型调优”（Model Tuning)阶段最主要的工作，是直接影响模型最终效果的关键
Python3利用Dlib实现摄像头实时人脸检测和平铺显示示例
1. 引言在某些场景下，我们不仅需要进行实时人脸检测追踪，还要进行再加工；这里进行摄像头实时人脸检测，并对于实时检测的人脸进行初步提取；单个
IE6 bug: 消失的绝对定位元素
此BUG最初是在《前端观察》网站刊登，这里再描述一下，代码如下：<style>*{ padding:0; m
asp+jsp+JavaScript动态实现添加数据行
在应用程序的开发中，有些输入信息是动态的，比如我们要注册一个员工的工作经历，比如下图如果做成死的，只能填写三个，如果是四个呢？或者更多呢，那
Caffe卷积神经网络视觉层Vision Layers及参数详解
引言所有的层都具有的参数，如name, type, bottom, top和transform_param请参看我的前一篇文章：Caffe卷
MATLAB数学建模之画图汇总
1. 二维数据曲线图1.1 绘制二维曲线的基本函数1．plot()函数 plot函数用于绘制二维平面上的线性坐标曲线图，要提供一组x坐标和对
模式化窗口
先让我们看一个例子，了解什么是模式化窗口。以下是QQ秀商城在非登录时提示登录的一种状态。当我在非登录状态，通过保存形象的方式买一件衣服时，弹
golang实现的文件上传下载小工具
前言虽然现在文件上传下载工具多如牛毛，比如http、ftp、sftp、scp等方案都可以用于文件传输，但都是需要安装服务器甚至客户端。有一种
关于SQL Server数据库备份和恢复特性介绍
SQL Server 2000中存在的许多的备份和恢复特性都同样保留在了SQL Server 2005中，但是有一些新的提高同样值得我们关注
Python爬虫实现抓取电影网站信息并入库
一.环境搭建1.下载安装包访问 Python官网下载地址：https://www.python.org/downloads/下载适合自己系统
sublime text配置node.js调试(图文教程)
1. 首先到 nodejs.org 下载 Node.js 安装包并安装。2. 打开 Sublime Text 2 编辑器。选择菜单 Tool
JavaScript 获取事件对象的一个注意点
平时我们获取事件对象一般写法如下：function getEvent(event) { return event
利用ASP.NET MVC和Bootstrap快速搭建响应式个人博客站(一)
1.0 为什么要做这个博客站？在工作学习中，经常要搜索查找各种各样的资料，每次找到相关资料后都会顺手添加到浏览器书签中，时间一长，书签也就满
Python 安装setuptools和pip工具操作方法(必看)
setuptools模块和pip模块是python进行第三方库扩展的极重要工具，例如我们在需要安装一些爬虫或者数据分析的包时就可以使用pip
python去除空格和换行符的实现方法(推荐)
一、去除空格strip()" xyz ".strip() &n
Python中staticmethod和classmethod的作用与区别
一般来说，要使用某个类的方法，需要先实例化一个对象再调用方法。而使用@staticmethod或@classmethod，就可以不需要实例化
Python多线程中阻塞(join)与锁(Lock)使用误区解析
关于阻塞主线程join的错误用法Thread.join() 作用为阻塞主线程,即在子线程未返回的时候,主线程等待其返回然后再继续执行.joi
MySQL内建复制功能来优化可用性
MySQL内建复制功能来优化可用性，在Soundbreak我们每天24小时不间断地播放实况音频和视频，所以对于MySQL的新增的复制特性，我
Highcharts 图表中图例显示状态存储的功能设计详解
需求背景公司前端使用 Highcharts 构建图表，图表的图例支持点击显示或隐藏相应的指标。现在有需求后端需要存储用户在前端点击后显示图表
Python脚本操作Excel实现批量替换功能
大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理

如何用python抓取B站数据

Python基于smtplib协议实现发送邮件

Python数据结构之二叉排序树的定义、查找、插入、构造、删除

python中学习K-Means和图片压缩

使用python求解迷宫问题的三种实现方法

使用Protocol Buffers的C语言拓展提速Python程序的示例

python3字符串输出常见面试题总结

python利用opencv实现SIFT特征提取与匹配

vscode配置与python虚拟环境切换的几种方式总结

python实现任意位置文件分割的实例

excel中插入单元格的教程

excel 使用数据验证制作一二三级下拉菜单

excel 中如何实现x的四舍六入五成双到小数点n位?

Apple ID 被停用怎么办？

Win11 Insider Preview 25182.1000发布(附更新修复内容+原版iso镜像下载)

在Excel单元格中如何对各种总值进行计算?

Win7打开应用程序时出现乱码怎么解决？

如何在Word2010文档中打印XML文档时打印XML标记打印XML标记

excel中sumif函数的使用教程

Excel里“批注”的各项操作教程

手机版 网络编程 asp之家 www.aspxhome.com