python的去重以及数据合并的用法说明
作者:Just_do_it_2018 发布时间:2023-01-12 07:12:57
标签:python,去重,数据合并
python去重及数据合并
drop_dupicates
参数含义:
subset
:即表示要去重指定参考的列keep
: {‘first’, ‘last’, False}, default ‘first’
inplace:boolean, default False, 直接在原来的数据上修改还是保留副本
data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})
#第一个参数传入需要比对的列,在"id"列有相同的id,则进行去重
data.drop_duplicates(['id'],keep='last',inplace=True)
#我想比较"id"、"value"两列的值全部相同时则去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)
#如果想直接比较数据中的全部列都相同时才能去除,则可以按照如下方法.keep默认的是保留第一个
data.drop_duplicates()
merge
首先关于连接,从SQL中的可以得知,连接主要分为外连接和内连接:
内连接
内连接是指在两个数据表中,根据其指定合并的列,找到其交集,也就是既在df1中出现,也在df2中出现的数据
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不写how也没关系,因为merge默认的就是内连接
假设如果在df1和df2中的指定要合并的列的列名不一致的话,则需要显式指定根据哪一列进行合并
df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 该结果比上面的on='key'的结果多一列相同的列,但是两个的本质是一样的,都是内连接
外连接
外连接可以分为三种,全外连接、左连接和右连接。
全外连接就是保留两个表中指定合并的列关键字的并集,然后在左右两个表中找到相对应的数据进行填充,没有的用NAN代替
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='outer')
右连接是保留右表中指定列的所有关键字,然后去左表中找到指定列对应的数据进行补充,没有的就NAN代替
df = pd.merge(df1,df2,on='key',how='right')
左连接是保留左表中指定列的所有关键字,然后去右表中找到指定列对应的数据进行补充,没有的就NAN代替
df = pd.merge(df1,df2,on='key',how='left')
python去重脚本
可以用来去除字典、漏洞数量等
使用方法,将要去重的部分保存成为csv格式,并命名为all.csv,直接执行后,会在当前目录下生成qc.csv的文件!
#coding:utf-8
ciku=open(r'all.csv','r') #打开需要去重文件
xieci=open(r'qc.csv','w') #打开处理后存放的文件
cikus=ciku.readlines()
list2 = {}.fromkeys(cikus).keys() #列表去重方法,将列表数据当作字典的键写入字典,依据字典键不可重复的特性去重
i=1
for line in list2:
if line[0]!=',':
# print line[0:-1].decode('utf-8').encode('gbk')
# print u"writing"+i
i+=1
xieci.writelines(line)
xieci.close()
来源:https://blog.csdn.net/qq_32618817/article/details/80430292


猜你喜欢
- 本文实例讲述了Python基于list的append和pop方法实现堆栈与队列功能。分享给大家供大家参考,具体如下:#coding=utf8
- a. 如果欲使用gb2312编码,那么php要输出头:header(“Content-Type: text/html; charset=gb
- 1、环境PyCharmPython 3.6pip安装的依赖包包括:requests 2.25.0、urllib3 1.26.2、docx 0
- 在JavaScript中单选框的用法和复选框相似。不同之处在于HTML中的应用。复选框是一种开关。如果
- Python中,队列是线程间最常用的交换数据的形式。Queue模块是提供队列操作的模块,虽然简单易用,但是不小心的话,还是会出现一些意外。创
- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN&q
- 在这篇asp之数学函数里,我们将会以表格的形式,让大家了解到关于ASP中能用到的数学函数,里面包括一个数的绝对值、一个数的平方根
- apply_async简介python在同一个线程中多次执行同一方法时,该方法执行耗时较长且每次执行过程及结果互不影响,如果只在主进程中执行
- 注:因为最近想用一下Python做一些简单小游戏的开发作为项目练手之用,而Pygame模块里面提供了大量的有用的方法和属性。今天我们就在之前
- 一、 概念: ① 数据库同步 (主从同步 --- 主数据库写的同时 往从服务器写数据)② 数据库同步 (主主同步 -
- 安装先下载源码,地址:ps://pypi.python.org/pypi/IPy/">https://pypi.python
- 家里没网络,实在无聊,玩游戏都没味道,只好玩CSS。这个东西实在没什么技术含量在里面,纯属打发时间。简单说明:一张图片放在底层,
- // 获取地址栏的参数数组function getUrlParams() { var search =
- 如何使用ADO 2x Command 对象读取数据?具体的读数据代码如下:Cmd = CType(EC.Example1
- 什么是事件呢?按下键盘某个按键,鼠标移动,包括点击关闭按钮都可以算是事件操作。Pygame事件pygame.event.EventType&
- 本文实例讲述了Python进程,多进程,获取进程id,给子进程传递参数操作。分享给大家供大家参考,具体如下:线程与线程之间共享全局变量,进程
- 如果仅仅是定义表格的边框为1(border="1")和边框颜色值(如borderC
- 这篇博客将介绍如何使用Python,OpenCV对图像进行平移转换。平移是图像沿x轴和y轴的移动。使用平移,可以将图像上下左右移动,以及上述
- 反射反射即想到4个内置函数分别为:getattr、hasattr、setattr、delattr 获取成员、检查成员、设置成员、
- 如果你有个5、6 G 大小的文件,想把文件内容读出来做一些处理然后存到另外的文件去,你会使用什么进行处理呢?不用在线等,给几个错误示范:有人