pandas重复行删除操作df.drop_duplicates和df.duplicated的区别
作者:jingzen 发布时间:2021-02-13 05:56:36
标签:pandas,df.drop,duplicates,df.duplicated
概念
df.duplicated()
使用df.cuplicated()来查看重复数据,返回True,False,数据类型是bool.
也可以指定某一列是否有重复值df.cuplidated(‘colname’),不指定则默认为第一列。
df.dropduplicates(’col‘,keep=‘first’,inplace=False)
用来删除重复行。
实例
读取数据
# %% 提取数据 从sqlite
import pandas as pd
from sqlalchemy import create_engine
'''创建sqlite3连接'''
eg = create_engine('sqlite:///I:/jianguoyun/Udoc/WorkDb/dataset2022.db') #创建数据库连接
# 读取数据库文件
q_store = """
select * from pj_store20220525
"""
# 读取表
cols= ['货号','品类','节庆','库位','合格','换包装','错码','维修','总数量' ]
df = pd.read_sql(q_store,eg)[cols]
计算重复项
# df.duplicated 计算重复项
cond = df.duplicated('货号') # 查看货号相同的项 df.duplicated返回的是布尔值
def_line = df[cond]
def_line
计算有多少个重复行
#有多少个重复行
dep_data = df.duplicated('货号').sum()
dep_data
用df.drop_duplicates提取夏季品类
# 用df.drop_duplicates提取夏季品类
df_category = df.query('节庆=="夏季"').drop_duplicates('品类',keep='last',inplace=False)
df_category['品类'].sort_values()
参数:
keep ,保留最后last还是第一行first,
inplace:是否替换原列表,false:不替换,True,替换。
来源:https://blog.csdn.net/m0_46326858/article/details/124969949


猜你喜欢
- 由于多种原因,进行安全设置的人们常常不理解数据的真正价值,所以,他们也无法对数据进行合适的保护。将你的数据只限于需要的人访问,并保证访问的人
- 【OpenCV】⚠️高手勿入! 半小时学会基本操作⚠️ 腐蚀膨胀概述OpenCV 是一个跨平台的计算机视觉库, 支持多语言, 功能强大. 今
- 1. SQL Server导入导出向导,这种方式是最方便的.导入向导,微软提供了多种数据源驱动,包括SQL Server Native Cl
- 自从认识了 CircleCI 之后,基本上都在用这个了。相比于之前用的travis-ci ,CircleCI 丑是丑了点,但是相比与 tra
- 3月27日,淘宝网获得了由国际权威机构G-CEM颁发的2008年度亚洲区在线客户体验大奖,这是全球互联网企业首次获得此殊荣。如何在让买家更方
- 本文实例为大家分享了python3判断IP地址的具体代码,供大家参考,具体内容如下输入一串字符,判断该字符串是否为点分十进制的IP地址,若是
- MySQL中常用到判断符号,而不等于是比较常用的符号,下面讲解以下三种不等于符号符号意义<>不等于的最早用法,可移植性优于下面两
- 过去有很多网页设计师喜欢将他们的网页效果图用table布局实现成网页,但是这样做会遇到一个比较麻烦的问题就是,后期调试和维护会相当的困难。现
- 一、Python字符编码介绍1、须知:在python 2中默认编码是 ASCII,而在python 3中默认编码是 unicodeunico
- return 语句用于退出函数,向调用方返回一个表达式。执行到 return 语句时,会退出函数,return 之后的语句不再执行。如:de
- 一、简介 transitions库pip install transitions状态机 state:状态节点transition:
- 一、打开一个网页获取所有的内容from urllib import urlopendoc = urlopen("http://ww
- Pydicom单张影像的读取使用 pydicom.dcmread() 函数进行单张影像的读取,返回一个pydicom.dataset.Fil
- Table:用于标示删除的数据表的名称。 1:该表必须是一个事实存在的表,对于该处的表必须是一个实际存在于数据库中的表格,必能是由于sele
- 1.为什么写这个?一些简单的页面,无需用比较大的框架来进行爬取,自己纯手写又比较麻烦因此针对这个需求写了talonspider:•1.针对单
- time模块中的三种时间表示方式:时间戳结构化时间对象格式化时间字符串1.时间戳时间戳1970.1.1到指定时间到间隔,单位是秒import
- 如何提高Request集合的使用效率?以加快程序处理速度: strTitle=Request.Form("Title&q
- Oracle关系型数据库管理系统是世界上流行的关系数据库,它是一个极其强大、灵活和复杂的系统,据说,在使用oracle时应有这样的思想,那就
- 本文实例为大家分享了python sort、sort_index的具体代码,供大家参考,具体内容如下对Series进行排序#生成序列objo
- 最近出现一个很奇怪的MySQL问题,使用不同select语句查询全部数据集居然得到不同的记录数。select * 得到4条记录,select