pandas统计重复值次数的方法实现
作者:Mr番茄蛋 发布时间:2022-11-09 03:27:58
标签:pandas,统计,重复值
本文主要介绍了pandas统计重复值次数的方法实现,分享给大家,具体如下:
from pandas import DataFrame
df = DataFrame({'key1':['a','a','b','b','a','a'],
'key2':['one','two','one','two','one','one'],
'data1':[1,2,3,2,1,1],
# 'data2':np.random.randn(5)
})
# 打印数据框
print(df)
# data1 key1 key2
# 0 1 a one
# 1 2 a two
# 2 3 b one
# 3 2 b two
# 4 1 a one
# 5 1 a one
# 重复项
print(df[df.duplicated()])
# data1 key1 key2
# 4 1 a one
# 5 1 a one
# 统计重复值
dup=df[df.duplicated()].count()
print(dup) # 最后两项重复
# data1 2
# key1 2
# key2 2
# 去除重复项
nodup=df[-df.duplicated()]
print(nodup)
# data1 key1 key2
# 0 1 a one
# 1 2 a two
# 2 3 b one
# 3 2 b two
pandas 中 dataframe 重复元素个数的获取
方法有二:
1. 在调用duplicated方法后,非重复的元素会被标记为False,而重复的元素会被标记为True
count = 0
for i in users_info['user_id'].duplicated():
if i == True:
count = count + 1
count
【注1】users_info为一个dataframe框,user_id为其中一列
【注2】duplicated( )方法只会把重复的元素标记为True,而不会标记被重复的元素
2.这行代码的速度更快,drop_duplicates(['user_id'])方法为删除user_id列中相同的元素
users_info.shape[0] - users_info.drop_duplicates(['user_id']).shape[0]
【注】shape[0] 为获取行数
来源:https://blog.csdn.net/qq_35203425/article/details/80830911


猜你喜欢
- 当你想快速共享一个目录的时候,这是特别有用的,只需要1行代码即可实现。FTP 服务器,在此之前我都是使用Linux的vsftpd软件包来搭建
- Anaconda简介Anaconda,是一个开源的Python发行版本,其包含了conda、Python以及一大堆安装好的工具包及依赖项,比
- 前言本文主要给大家介绍关于python中__init__、__new__和__call__方法的相关内容,分享出来供大家参考学习,下面话不多
- 一、利用xpath进行(全程使用)driver.find_element_by_xpath()二、代码部分与图片内容打开淘宝网站,点击登录,
- 如下所示://动态删除select中的所有options: function delAllOptions(){&nb
- 一、Ajax简介Ajax被认为是(Asynchronous JavaScript and XML)的缩写,允许浏览器与服务器通信而无需刷新当
- 1、通过requests.get方法r = requests.get("http://200.20.3.20:8080/job/C
- 引言“ 这是MySQL系列笔记的第二篇,文章内容均为本人通过实践及查阅资料相关整理所得,可用作新手入门指南,或
- 滚动条是什么大家自然都是知道的,可以非常直观地显示数据的变化,或者可以非常方便地改变某些数值。此前在介绍按钮、静态文本、输入文本这三个控件时
- 前言 大家好,好男人就是我,我就是好男人,我就是-0nise。在各大漏洞举报平台,我们时常会
- 转:coolcode.cn前几天写了一篇在任意字符集下正常显示网页的方法,里面介绍的很简单,就是把前128个字符以外的字符集都用
- 在PHP网站开发中,时常遇到Mysql数据库备份或数据库迁移工作,这时Mysql怎么导入导出数据库中的数据就非常关键,Mysql本身提供了命
- Go语言中符号 “ ^ ” 不再用于次方,而是表示“按位异或的运算”具体的运算规则如下:按位异或 ^ : 两位一个为 0, 一个为 1 ,结
- 我们的网络协议一般是把数据转换成JSON之后再传输。之前在Java里面,实现序列化和反序列化,不管是 jackson ,还是 fastjso
- aspImage是ServerObjects站点上非常好的一个组件,它可以使我们利用Asp实现很多对于图形的处理功能,他的功能强大,如果你需
- 1、主题如何使用Pycahrm内置终端以及远程SSH工具。2、准备工作Pycharm版本为3.0或更高连接SSH服务器3、使用SSH客户端4
- 最近和一程序员合作项目。弄的我头都大了~埋怨我的CSS命名看不懂~得按照他的来。结果我打开他的页面,看了看,从头第一个开始就是content
- 译序:本文提到了一种很不错的实现跨浏览器圆角的解决方案,但是说的不够全面,前端观察最近将整理更多更全面的资源给大家,敬请期待。前一段时间,我
- 一、Pytest概念Pytest 是 Python 的一种单元测试框架,与 Python 自带的 unittest 测试框架类似,但是比 u
- 生产定制一个彩条标签。首先导入:import matplotlib.pyplot as pltimport numpy as npfrom