位置：首页>> 网络编程>> Python编程>> python pandas dataframe 去重函数的具体使用

python pandas dataframe 去重函数的具体使用

作者：张某人ER　　发布时间：2023-10-15 00:56:36　

标签：pandas,dataframe,drop,duplicates

今天笔者想对pandas中的行进行去重操作，找了好久，才找到相关的函数

先看一个小例子

from pandas import Series, DataFrame

data = DataFrame({'k': [1, 1, 2, 2]})

print data

IsDuplicated = data.duplicated()

print IsDuplicated
print type(IsDuplicated)

data = data.drop_duplicates()
print data

执行结果是：

k
0 1
1 1
2 2
3 2

0    False
1     True
2    False
3     True

k
0 1
2 2

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。

而 drop_duplicates方法，它用于返回一个移除了重复行的DataFrame

这两个方法会判断全部列，你也可以指定部分列进行重复项判段。

drop_duplicates根据数据的不同情况及处理数据的不同需求，通常会分为两种情况，一种是去除完全重复的行数据，另一种是去除某几列重复的行数据，就这两种情况可用下面的代码进行处理。

1. 去除完全重复的行数据

data.drop_duplicates(inplace=True)

2. 去除某几列重复的行数据

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

subset：列名，可选，默认为None

keep： {‘first', ‘last', False}, 默认值 ‘first'
first：保留第一次出现的重复行，删除后面的重复行。
last：删除重复项，除了最后一次出现。

False：删除所有重复项。
inplace：布尔值，默认为False，是否直接在原数据上删除重复项或删除重复项后返回副本。（inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本。）

例如，希望对名字为k2的列进行去重，

data.drop_duplicates(['k2'])

来源：https://blog.csdn.net/xinxing__8185/article/details/48022401

0

投稿

猜你喜欢

Atlas—微软的Ajax工具包
微软现在已经进入了ASP.NET 2.0和Visual Web Developer 2005发布版最
如何通过python计算圆周率PI
代码如下def PI(n): pi=0 for k in range(n): pi +=
python实现Zabbix-API监控
做运维的朋友应该知道，公司IDC机房经常有上架、下架、报修和报废的服务器。如果服务器数量很多的时候很容易造成监控遗漏。
Python自动化运维和部署项目工具Fabric使用实例
Fabric 是使用 Python 开发的一个自动化运维和部署项目的一个好工具，可以通过 SSH 的方式与远程服务器进行自动化交互，例如将本
站长如何活用"nofollow"标签
nofollow标签是Google2005年推出的，目的是尽量减少垃圾链接对搜索引擎的影响。有用过网页制作工具的人都知道，在这些工具里是找不
mysql 8.0.22 zip压缩包版(免安装)下载、安装配置步骤详解
大家好，今天我在学习 MySQL 8.0.22安装及配置遇到了一些问题，特地将我整个安装过程分享出来希望可以帮助不会安装的小伙伴😜。参考链接
浅谈vue单一组件下动态修改数据时的全部重渲染
今天在学习vue的过程中，发现一个有趣的现象。在某一组件下的某一数据通过点击事件被动态修改的时候，对应view中的数据同步的进行了修改，没错
Golang Gin局部和全局中间件使用详解
中间件中间件是放在客户端和服务端的中间。当你的客户端对某个接口发起一个请求，但是在到达接口2之前，这里是有一层中间件的处理。一般
Elasticsearch属性单词常用解析说明
一、前言说实话，刚测试ES的时候，我的内心是崩溃的，好多单词都不知道
Get方法和Post方法的区别深入理解
Get方法在超链接后边紧跟要传递的参数对于用户是可见的如：http://tieba.baidu.com/f?kw=％D6％A3％D6％DD％
高考考python编程是真的吗
现在只有山东、北京、上海等发达地区有考Python的这个举动，其他地区暂时还没有。首先，Python类似于c++，Python是一种面向对象
python 3.7.0 安装配置方法图文教程
本文记录了python 3.7.0 安装配置方法，供大家参考，具体内容如下S1 登入Python官网下载网址S2 下载后缀为exe的可执行文
Django数据库连接丢失问题的解决方法
问题在Django中使用mysql偶尔会出现数据库连接丢失的情况，错误通常有如下两种OperationalError: (2006,
Django crontab定时任务模块操作方法解析
Django crontab定时任务安装pip install django-crontab配置在settings.py中 INSTALLE
pyinstaller封装exe的操作
我使用的是anaconda。我推荐大家使用anaconda，对环境依赖关系处理的比较好。不用浪费太多时间在安装模块上。首先安装pyinsta
mysql远程跨库联合查询的示例
注意:myemployees库和shoppingCart库在同一台物理主机，如果不在同一台物理主机该怎么办呢？下面我会介绍到。情况一2个库在
python函数默认参数使用避坑指南
引言阿刁是一个自动化测试用例，从一出生他就被赋予终生使命，去测试一个叫登录的过程是否合理。他一直就被关在一个小黑屋里面，从来也没有出去过，小
asp如何对文件进行操作？
这可是个综合性的问题，看看下面对文件操作的集大成代码：<％ 'Set file i/
so easy!10行代码写个"狗屁不通"文章生成器功能
前几天，GitHub 有个开源项目特别火，只要输入标题就可以生成一篇长长的文章。背后实现代码一定很复杂吧，里面一定有很多高深莫测的机器学习等
MySQL中的主键自增机制详情
主键自增MySQL 提供了主键自增机制 AUTO_INCREMENT. 对主键使用, 保证了主键的唯一性.注意：自增长必须与主键字段配合使用

Python实现问题回答小游戏

pyqt5让图片自适应QLabel大小上以及移除已显示的图片方法

浅析Python数据处理

Go/Python/Erlang编程语言对比分析及示例代码

Python计算点到直线距离、直线间交点夹角

python使用cookie库操保存cookie详解

numpy中三维数组中加入元素后的位置详解

Python实现乱序文件重新命名编号

Python Requests 基础入门

解决Python安装后pip不能用的问题

Win10电脑屏幕两边有黑边如何去除？

苹果官方推荐体验这些 iOS 16 新功能：精彩锁屏、一键抠图、实况文本等

Win10外接音响没声音怎么处理？

电脑版wps文档如何插入商标注册符号

wps怎样添加页码

Word文档利用快捷键快速排版的方法分享

如何设置360安全卫士自动升级

Vue便签的简单实现

狐妖小红娘南国有哪些技能？南国技能及用法介绍

Win10 Mobile 10586升级后无限重启怎么办硬重启帮您解决

手机版 网络编程 asp之家 www.aspxhome.com