Python Dataframe 指定多列去重、求差集的方法
作者:jasonwang_ 发布时间:2022-01-12 00:40:19
标签:Python,dataframe,差集
1)去重
指定多列去重,这是在dataframe没有独一无二的字段作为PK(主键)时,需要指定多个字段一起作为该行的PK,在这种情况下对整体数据进行去重。
Attention:主要用到了drop_duplicates方法,并设置参数subset为多个字段名构成的数组。
具体代码如下:
>>>import pandas as pd
>>>data={'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']}
>>>frame=pd.DataFrame(data)
>>>frame
popstate
0a1
1b1
2c2
3d2
4b1
5c2
6d2
>>>frame.drop_duplicates(subset=['pop','state'])
popstate
0a1
1b1
2c2
3d2
2)求差集
假设有两个dataframe为a和b,a和b可以是相互包含的关系,现在想要将a中和b重复的内容去掉,也就是求差集,步骤如下:
(1)需要对两个dataframe进行去重。
(2)利用append方法,a=a.append(b)
(3)再次利用append方法,a=a.append(b)
(4)去重,利用drop_duplicates方法,a=a.drop_duplicates(),以及设置参数keep=False,意思就是只要有重复,重复的记录都去掉。(keep默认='first',也就是保留第一条记录)
具体代码如下:
>>>data_a={'state':[1,1,2],'pop':['a','b','c']}
>>>data_b={'state':[1,2,3],'pop':['b','c','d']}
>>>a=pd.DataFrame(data_a)
>>>a
popstate
0a1
1b1
2c2
>>>b=pd.DataFrame(data_b)
>>>b
popstate
0b1
1c2
2d3
>>>a = a.append(b)
>>>a = a.append(b)
>>>result = a.drop_duplicates(subset=['pop','state'],keep=False)
>>>result
popstate
0a1
来源:https://blog.csdn.net/jasonwang_/article/details/78797458


猜你喜欢
- 如何截取字符函数在工作中我们经常会遇到某种情况需要截取字符串中某个特定标签之间的内容(爬虫可能用到的较多),适用于很多情况例如字符串形式的x
- 作为免费又高效的数据库,mysql基本是首选。良好的安全连接,自带查询解析、sql语句优化,使用读写锁(细化到行)、事物隔离和多版本并发控制
- 概览(循环方式 - 常用)formapforEachfilter声明遍历的数组和异步方法声明一个数组:??const skills = [&
- 本文实例讲述了JS求解三元一次方程组值的方法。分享给大家供大家参考,具体如下:// 求用js 码一段代码求 三元一次方程组的值!// a1
- 1.导入matplotlib.pylab和numpy包import matplotlib.pylab as pltimport numpy
- 这篇论坛文章着重介绍了Access数据库出现0x80004005问题的解决方法,更多内容请参考下文:项目做了三个月了,终于也差不多完成了,昨
- 这是源于两年前,当我在做人生中第一个真正意义上的网站时遇到的一个问题该网站采用前后端分离的方式,由后端的 REST 接口返回 JSON 数据
- 列表生成式基础语法[exp for iter_var in iterable (if conditional)]原理:首先迭代 iterab
- 本文实例讲述了Python数据预处理之数据规范化。分享给大家供大家参考,具体如下:数据规范化为了消除指标之间的量纲和取值范围差异的影响,需要
- 代码如下:'文字水印 Function WordWatermark(ImagePath) Dim&nb
- 1. 下载2. 解压缩3. 添加path环境变量,路径指向mysql所在bin目录下4. 在主目录下创建data文件夹5. 注册window
- 一、状态介绍在了解其他概念之前,我们首先要了解进程的几个状态。在程序运行的过程中,由于 * 作系统的调度算法控制,程序会进入几个状态:就绪,运
- MySQL 在处理 GROUP BY 和 DISTINCT 查询的方式在大多数情况下类似,事实上,在优化过程中有时候会把在这两种方式中转换。
- 简介: tempdb是SQLServer的系统数据库一直都是SQLS
- 一、关闭数据库[oracle@RHEL5]$sqlplus / as sysdba SQL>shutdown immediate; 二
- 本文实例讲述了Python中super函数用法。分享给大家供大家参考,具体如下:这是个高大上的函数,在python装13手册里面介绍过多使用
- 【背景】 最近学习碰到了一件挺令人尴尬的事情,我把MySQL的密码给忘记了,所以
- 1、简介Burp Suite是用于攻击web应用程序的集成平台。它包含了许多工具,并为这些工具设计了许多接口,以促进加快攻击应用程序的过程。
- 前言shape函数是Numpy中的函数,它的功能是读取矩阵的长度,比如shape[0]就是读取矩阵第一维度的长度。直接用.shape可以快速
- JavaScript正变得越来越流行,它已经成为前端开发的第一选择,并且利用基于JavaScript语言的NodeJS,我们也可以开发出高性