位置：首页>> 网络编程>> Python编程>> Python Pandas中DataFrame.drop_duplicates()删除重复值详解

Python Pandas中DataFrame.drop_duplicates()删除重复值详解

作者：山茶花开时。　　发布时间：2021-11-10 09:55:20　

标签：pandas,dataframe.drop,duplicates(),重复值

语法

df.drop_duplicates(subset = None,
keep = 'first',
inplace = False,
ignore_index = False)

参数

1.subset:指定的标签或标签序列，仅删除这些列重复值，默认情况为所有列

2.keep:确定要保留的重复值，有以下可选项:

first:保留第一次出现的重复值，默认

last:保留最后一次出现的重复值

False:删除所有重复值

3.inplace:是否生效

4.ignore_index:如果为True，则重新分配自然索引(0,1,…,n - 1)

# 删除重复值 DataFrame.drop_duplicates()
import pandas as pd

df = pd.DataFrame([['x','x',1],['x','x',1],['z','x',2]], columns = ['A','B','C'])

# 删除重复行
res1 = df.drop_duplicates()

# 删除指定列
res2 = df.drop_duplicates(subset = ['A'])

# 保留最后一个
res3 = df.drop_duplicates(subset = ['A'], keep = 'last')

结果展示

df

res1

res2

res3

扩展:识别重复值

import pandas as pd

df = pd.DataFrame({
'studentID':['A001','A002','A003','A004','A005','A006','A006'],
'score':[100,93,94,96,93,95,95]})

# 识别重复值
duplicate_value = df[df.duplicated()]

df

由上图可知studentID为'A006'的记录有两条，我们可以使用duplicated()方法识别重复值，它返回的是布尔值结果(True:有重复值，False:无重复值)

duplicate_value

来源：https://blog.csdn.net/Hudas/article/details/122920865

0

投稿

猜你喜欢

mysql 5.7.30安装配置方法图文教程
之前把服务器里面的MySQL卸了重装，安装mysql时未做总结，换新电脑，补上安装记录，安装的时候，找了些网友的安装记录，发现好多坑截个图，
sqlserver 数据库学习笔记
1，exists和in的理解exists：如果子查询中包括某一行，那么就为TRUE in：如果操作数为TRUE等于表达式列表中的一个，那么就
Python学习之线程池与GIL全局锁详解
线程池线程池的创建 - concurrentconcurrent 是 Python 的内置包，使用它可以帮助我们完成创建线程池的任
sqlplus登录\\连接命令、sqlplus命令的使用大全
我们通常所说的DML、DDL、DCL语句都是sql*plus语句，它们执行完后，都可以保存在一个被称为sql buffer的内存区域中，并且
python3用PyPDF2解析pdf文件,用正则匹配数据方式
我就废话不多说了，大家还是看代码吧！ import PyPDF2 import repdf_file = open('xxx.pdf
python使用itchat模块给心爱的人每天发天气预报
本文实例为大家分享了python给心爱的人每天发天气预报的具体代码，供大家参考，具体内容如下下面的代码实现了用了之前获取天气的代码，然后用i
jQuery 1.4新特性及其变化(上)
为庆祝jQuery的四周年生日，jQuery官方团队正式发布了jQuery 1.4版本。在这个版本中，jQuery官方团队做了大量的编码、测
关于自动化测试框架pytest的Fixture固件
什么是固件Fixture 翻译成中文即是固件的意思。它其实就是一些函数，会在执行测试方法/测试函数之前（或之后）加载运行它们，常见的如接口用
mysql调优的几种方式小结
sql调优的几种方式：避免使用select *、用union all 代替union、小表驱动大表、批量操作、多用limit、in中值太多、
python flask实现分页的示例代码
结合mysql数据库查询，实现分页效果@user.route("/user_list",methods=['PO
ASP从数据库中获取下载文件
数据库的表Info,表部分结构:Info_Id
python实战scrapy操作cookie爬取博客涉及browsercookie
browsercookie 知识铺垫第一个要了解的知识点是使用 browsercookie 获取浏览器 cookie ，该库使用命令 pip
PHP在线生成二维码代码(google api)
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN&
Oracle例外用法实例详解
本文实例讲述了Oracle例外用法。分享给大家供大家参考，具体如下：一、例外分类oracle将例外分为预定义例外、非预定义例外和自定义例外三
Python中浅拷贝copy与深拷贝deepcopy的简单理解
以下是个人对Python深浅拷贝的通俗解释，易于绕开复杂的Python数据结构存储来进行理解！高级语言中变量是对内存及其地址的抽象，Pyth
python3.7+selenium模拟淘宝登录功能的实现
在使用selenium去获取淘宝商品信息时会遇到登录界面这个登录界面处理的难度在于滑动验证的实现，有的人使用微博登录，避免了滑动验证，那可不
手把手教你Navicat如何导出Excel格式的表结构
第1步：打开Navicat，双击打开你要导出表结构的数据库，点击“查询”—&am
python处理二进制数据的方法
本文实例讲述了python处理二进制数据的方法。分享给大家供大家参考。具体如下：#!/usr/env/env python #-*- cod
PHP PDOStatement::nextRowset讲解
PDOStatement::nextRowsetPDOStatement::nextRowset — 在一个多行集语句句柄中推进到下一个行集
pytorch torchvision.ImageFolder的用法介绍
torchvision.datasetsDatasets 拥有以下API:__getitem____len__Datasets都是 torc

Python实现抖音热搜定时爬取功能

python使用pymongo与MongoDB基本交互操作示例

详解python环境安装selenium和手动下载安装selenium的方法

python实现微信每日一句自动发送给喜欢的人

Python实现APP自动化发微信群消息的示例代码

Python动态规划实现虚拟机部署的算法思想

Python 类，property属性(简化属性的操作)，@property，property()用法示例

Python中Selenium模拟JQuery滑动解锁实例

详解python-图像处理（映射变换）

Python模块相关知识点小结

空之要塞启航困龙阵第一关怎么过

win10上传速度慢怎么办

我的起源黑暗弹射陷阱怎么做_黑暗弹射陷阱属性及制作配方分享

Win10一周年RTM版更新推送后 Insider将继续接收到新的buid版本

win7桌面图标有个白色方块怎么去掉？

雷电模拟器提示opengl版本过低怎么办？

word的基本技巧1

一起来捉妖复读鸡技能怎么样？全新妖灵复读鸡技能解析

千万不要被阶乘吓倒

WPS轻松办公—如何快速输入多位数0

手机版 网络编程 asp之家 www.aspxhome.com