位置：首页>> 网络编程>> Python编程>> pandas重复行删除操作df.drop_duplicates和df.duplicated的区别

pandas重复行删除操作df.drop_duplicates和df.duplicated的区别

作者：jingzen　　发布时间：2021-02-13 05:56:36　

标签：pandas,df.drop,duplicates,df.duplicated

概念

df.duplicated（）

使用df.cuplicated()来查看重复数据，返回True,False，数据类型是bool.

也可以指定某一列是否有重复值df.cuplidated(‘colname’),不指定则默认为第一列。

df.dropduplicates(’col‘,keep=‘first’,inplace=False)

用来删除重复行。

实例

读取数据

# ％％提取数据从sqlite
import pandas as pd
from sqlalchemy import create_engine
'''创建sqlite3连接'''
eg = create_engine('sqlite:///I:/jianguoyun/Udoc/WorkDb/dataset2022.db') #创建数据库连接
# 读取数据库文件
q_store = """
select * from pj_store20220525
"""
# 读取表
cols= ['货号','品类','节庆','库位','合格','换包装','错码','维修','总数量' ]
df = pd.read_sql(q_store,eg)[cols]

计算重复项

# df.duplicated 计算重复项
cond = df.duplicated('货号') # 查看货号相同的项 df.duplicated返回的是布尔值
def_line = df[cond]
def_line

计算有多少个重复行

#有多少个重复行
dep_data = df.duplicated('货号').sum()
dep_data

用df.drop_duplicates提取夏季品类

# 用df.drop_duplicates提取夏季品类
df_category = df.query('节庆=="夏季"').drop_duplicates('品类',keep='last',inplace=False)
df_category['品类'].sort_values()

参数：

keep ，保留最后last还是第一行first,
inplace:是否替换原列表,false:不替换，True，替换。

来源：https://blog.csdn.net/m0_46326858/article/details/124969949

0

投稿

猜你喜欢

获取CSDN文章内容并转换为markdown文本的python
自己写的小工具，可以直接获取csdn文章并转换为markdown格式效果图核心代码from PySide2.QtWidgets import
Python基于jieba分词实现snownlp情感分析
情感分析（sentiment analysis）是2018年公布的计算机科学技术名词。它可以根据文本内容判断出所代表的含义是积极的还是负面的
Python jiaba库的使用详解
目录jiaba库的使用1、jieba库的安装2、统计荷塘月色词频总结jiaba库的使用jieba库是一款优秀的 Python 第三方中文分词
Yii框架实现乐观锁与悲观锁流程详解
一、在Yii中实现乐观锁乐观锁（optimistic locking）表现出大胆、务实的态度。使用乐观锁的前提是，实际应用当中，发生冲突的
ASP实例：即时显示当前页面浏览人数
ASP实现即时显示当前页面浏览人数online.asp文件 <!--#include file="dbconn.a
pycharm安装深度学习pytorch的d2l包失败问题解决
pycharm里边安装不上d2l包。按以下步骤操作即可成功解决。1、首先查看现在pycharm所在的环境File—>
用 JS 来控制 target 链接属性
链接的 target 属性怎么用 JS 来控制？在HTML 4.0 Strict和XHTML 1.0 STRICT里不允许在<a&g
SQL Server 2000如何设置会话上下文信息？
Microsoft SQL Server 2000的会话上下文信息使应用程序得以设置二进制值，以便在同一会话或连接上运行的多个批处理、存储过
Python中的异常处理学习笔记
Python 是面向对象的语言，所以程序抛出的异常也是类。常见的异常类1.NameError：尝试访问一个没有申明的变量2.ZeroDivi
对python 匹配字符串开头和结尾的方法详解
1、你需要通过指定的文本模式去检查字符串的开头或者结尾，比如文件名后缀，URL Scheme 等等。检查字符串开头或结尾
使用Python绘制三种概率曲线详解
曲线一解释这里是使用matplotlib来绘制正态分布的曲线。代码实现import numpy as npimport matplotlib
javascript基础之indexOf函数
JavaScript中indexOf函数方法是返回 String 对象内第一次出现子字符串的字符位置。使用方法：strObj.indexOf
python绘制分组对比柱状图
本文实例为大家分享了python绘制分组对比柱状图的具体代码，供大家参考，具体内容如下首先放效果图: # -*- co
仅用50行Python代码实现一个简单的代理服务器
之前遇到一个场景是这样的：我在自己的电脑上需要用mongodb图形客户端，但是mongodb的服务器地址没有对外网开放，只能通过先登录主机A
基于Python3.6中的OpenCV实现图片色彩空间的转换
不同的色彩空间中对图片的色彩体现有很大不同#色彩空间的相互转换：最常见的是HSV与RGB,YUV与RGB的相互转换#常见色彩空间有：#RGB
ACCESS数据库遇日文时内存溢出的最简单处理办法
ACCESS有个BUG，那就是在使用 like 搜索时如果遇到日文就会出现“内存溢出”的问题，提示“80040e14/内
Python算法之求n个节点不同二叉树个数
问题创建一个二叉树二叉树有限多个节点的集合，这个集合可能是：空集由一个根节点，和两棵互不相交的，分别称作左子树和右子树的二叉树组成创建二叉树
页面制作人员的修练之道
jxdawei的个人博客：http://www.iwcn.net本文目的：与您分享如何学习基于web标准的网页制作。适合人群：网页制作初学者
CSS图片代码效果汇总
图片外框特征参数: ①dashed：虚线②dotted：点虚线③solid：实线④double：双线⑤groove：沟
python之语句mode = 'test' if y is None else 'train'问题
python语句mode = ‘test’ if y is None else &lsquo

Pandas数值排序 sort_values()的使用

TensorFlow基本的常量、变量和运算操作详解

python实现学员管理系统(面向对象版)

如何用python写个模板引擎

Python趣味挑战之用pygame实现飞机塔防游戏

PyHacker实现网站后台扫描器编写指南

Python科学画图代码分享

Python中星号的五种用法小结

python 简单的股票基金爬虫

解决python运行启动报错问题

excel怎么利用公式制作星星图?

Win10 Mobile RedStone预览版14267更新内容汇总(持续更新)

直接单击记忆旁边的前进后退按钮

WPS表格怎么修改更换证件照背景底色？

wps ppt怎么更换母版

c# 深拷贝与浅拷贝的区别分析及实例

如何查看wps历史和删除最近打开的文档历史

用Word轻松制作试卷密封装订线卷头的效果

Win11资源管理器无限重启的解决方法

MAC如何将外接屏幕设置为主屏

手机版 网络编程 asp之家 www.aspxhome.com