位置：首页>> 网络编程>> Python编程>> 聊聊python中令人迷惑的duplicated和drop_duplicates()用法

聊聊python中令人迷惑的duplicated和drop_duplicates()用法

作者：石小秀1995　　发布时间：2022-01-03 19:10:57　

标签：python,duplicated,drop,duplicates

前言

在算face_track_id map有感：

开始验证

data={'state':[1,1,2,2,1,2,2,2],'pop':['a','b','c','d','b','c','d','d']}
frame=pd.DataFrame(data)
frame

frame.shape
$ (8,2)

# 说明duplicated()是对整行进行查重，return 重复了的数据，且只现实n-1条重复的数据（n是重复的次数）
frame[frame.duplicated() == True]

一开始还很疑惑，明明（1，b）只出现了1次，哪里duplicate了。其实，人家return的结果是去掉已经出现过一次的行数据了。所以看起来有点confuse，感觉（1，b）并没有重复，但其实人家的函数很简洁呢，返回了重复值而且不冗余。

# 说明drop_duplicates()函数是将所有重复的数据都去掉了，且默认保留重复数据的第一条。
# 比如（2，d）出现了3次，在duplicated（）中显示了2次，在drop_dupicates（）后保留了一个
frame.drop_duplicates().shape
$ (4,2)

# 留下了完全唯一的数据行
frame.drop_duplicates()

补充：python的pandas重复值处理（duplicated()和drop_duplicates())

一、生成重复记录数据

import numpy as np
import pandas as pd

#生成重复数据
df=pd.DataFrame(np.ones([5,2]),columns=['col1','col2'])
df['col3']=['a','b','a','c','d']
df['col4']=[3,2,3,2,2]
df=df.reindex(columns=['col3','col4','col1','col2']) #将新增的一列排在第一列
df

输出：

二、判断重复记录（行）

#判断重复数据
isDplicated=df.duplicated() #判断重复数据记录
isDplicated

输出：

三、删除重复值

#删除重复值
new_df1=df.drop_duplicates() #删除数据记录中所有列值相同的记录
new_df2=df.drop_duplicates(['col3']) #删除数据记录中col3列值相同的记录
new_df3=df.drop_duplicates(['col4']) #删除数据记录中col4列值相同的记录
new_df4=df.drop_duplicates(['col3','col4']) #删除数据记录中(col3和col4)列值相同的记录
new_df1
new_df2
new_df3
new_df4

输出：

来源：https://blog.csdn.net/weixin_43852674/article/details/87717191

0

投稿

猜你喜欢

如何解决从文本文件中调出记录出现丢失换行的问题？
从文本文件中调出记录出现丢失换行？解决方法：<％Dim fsDim tsset fs=Server.Cr
SQL Server中索引使用及维护
在应用系统中,尤其在联机事务处理系统中,对数据查询及处理速度已成为衡量应用系统成败的标准。而采用索引来加快数据处理速度也成为广大数据库用户所
ansible-playbook实现自动部署KVM及安装python3的详细教程
1、何为ansible-playbookplaybook是ansible用于配置，部署，和管理被控节点的剧本,通过playbook的详细描述
django自带的server 让外网主机访问方法
命令：Python manage.py runserver改为python manage.py runserver 0.0.0.0:80外网
关于Python 常用获取元素 Driver 总结
1、在 Windows 设置临时环境变量 cmd命令窗口输入 path=％path％;E:\soft\python-3.5.2-embed
python删除文件夹下相同文件和无法打开的图片
前天不小心把硬盘格式化了，丢了好多照片，后来用Recuva这款软件成功把文件恢复过来，可是恢复的文件中有好多重复的文件和无法打开的图片，所以
Python多线程爬取豆瓣影评API接口
爬虫库使用简单的requests库，这是一个阻塞的库，速度比较慢。解析使用XPATH表达式总体采用类的形式多线程使用concurrent.f
php获取数组长度的方法（有实例）
在php中获取数组长度方法很简单，php为我们提供了两个函数可以计算一维数组长度，如count,sizeof都可以直接统计数组长度哦，下面我
python中用Scrapy实现定时爬虫的实例讲解
一般网站发布信息会在具体实现范围内发布，我们在进行网络爬虫的过程中，可以通过设置定时爬虫，定时的爬取网站的内容。使用python爬虫框架Sc
详解PHP实现HTTP服务器过程
PHP并非不能实现HTTP服务，一般来讲，这叫网络编程或Socket编程。在学习到其他语言的这部分的时候，一般的思路就是如何监听TCP实现一
原来CSS也可以把IE6弄死
刚刚登甲发来一个文章,看到只要一行代码,就可以把IE6弄死.<style>*{position:relative}&
Keras使用ImageNet上预训练的模型方式
我就废话不多说了，大家还是直接看代码吧！import kerasimport numpy as npfrom keras.applicati
网页设计细节不能丢
因为自己在设计的时候就对这些东西经常不是很在意，以为是很小的事情，结果往往给自己搞出不少的麻烦。可能大家没有我这么粗心，不过还是想提醒一下跟
Mysql触发器处理本表数据
关于Mysql的触发器，基本上每个Mysql教程里都有讲到，但是我发现那些教程里讲的都是如何处理其他表的数据。在Mysql中写触发器操作本表
Python数据分析之pandas比较操作
一、比较运算符和比较方法比较运算符用于判断是否相等和比较大小，Python中的比较运算符有==、!=、<、>、<=、>
DTS构建组件及其如何完成数据转换服务
在使用SQL Server 的过程,中由于经常需要从多个不同地点将数据集中起来或向多个地点复制数据,所以数据的导出,导入是极为常见的操作.我
Python全景系列之数据类型大盘点
引言欢迎来到我们的系列博客《Python全景系列》！在这个系列中，我们将带领你从Python的基础知识开始，一步步深入到高级话题，帮助你掌握
python将unicode和str互相转化的实现
问题一：将u'\u810f\u4e71'转换为'\u810f\u4e71'方法：s_unicode = u&
asp dictionary对象的用法
如果在session级保存一个dictionary对象会降低系统的性能，而在application级保存一个dictionary对象会导致w
如何通过Python实现定时打卡小程序
目录结构：只需在自己的python项目下随便创建一个文件夹（下图中为：daka），然后将下载的chromedriver.exe、ask_fo

Python批量转换文件编码格式

Python实现批量绘制遥感影像数据的直方图

Python批量修改xml的坐标值全部转为整数的实例代码

吴恩达机器学习练习:SVM支持向量机

Python的组合模式与责任链模式编程示例

Python字典循环添加一键多值的用法实例

python用Tkinter做自己的中文代码编辑器

如何编写python的daemon程序

Python中easy_install 和 pip 的安装及使用

Python基于yaml文件配置logging日志过程解析

excel表格没有线条边框网格线怎么办

微信把好友删除了怎么加回来

PS新手教程 --如何使用PS融合图片？

如何为Win10启用ClearType，让屏幕字体更清晰

springboot中bean的加载顺序问题

手机绿洲如何批量取消关注

Hishop.5.13正式版与DISCUZ!nt 2.5论坛整合说明

如何做Excel工资单？学会使用函数在3分钟内生成工资单

wps表格怎么筛选内容？wps表格使用筛选器进行筛选的方法！

Flutter实现底部导航栏

手机版 网络编程 asp之家 www.aspxhome.com