Pandas中的unique()和nunique()区别详解
作者:追风少年? 发布时间:2022-02-06 21:51:05
标签:Pandas,unique(),nunique()
Pandas中Series和DataFrame的两种数据类型中都有nunique()和unique()方法。这两个方法作用很简单,都是求Series或Pandas中的不同值。而unique()方法返回的是去重之后的不同值,而nunique()方法则直接放回不同值的个数。
具体如下:
如果Series或DataFrame中没有None值,则unique()方法返回的序列数据的长度等于nunique()方法的返回值(如上述代码中所展示的)。则当Series或DataFrame中有None值时,这两个就不一定相等了。具体如下:
从上述结果可知, nunique()可以通过参数dropna来自定义设置在统计不同值过程中是否需要包含None值,而unique()方法中没有可设置的参数,该方法在统计时无法排除None值。
1 unique()
统计list中的不同值时,返回的是array.它有三个参数,可分别统计不同的量,返回的都是array.
当list中的元素也是list时,尽量不要用这种方法.
import numpy as np
a = [1,5,4,2,3,3,5]
# 返回一个array
print(np.unique(a))
# [1 2 3 4 5]
# 返回该元素在list中第一次出现的索引
print(np.unique(a,return_index=True))
# (array([1, 2, 3, 4, 5]), array([0, 3, 4, 2, 1]))
# 返回原list中每个元素在新的list中对应的索引
print(np.unique(a,return_inverse=True))
# (array([1, 2, 3, 4, 5]), array([0, 4, 3, 1, 2, 2, 4]))
# 返回该元素在list中出现的次数
print(np.unique(a,return_counts=True))
# (array([1, 2, 3, 4, 5]), array([1, 1, 2, 1, 2]))
# 当加参数时,unique()返回的是一个tuple,这里利用了tuple的性质,即有多少个元素即可赋值给对应的多少个变量
p,q,m,n = np.unique(a,return_index=True,return_inverse=True,return_counts=True)
print(p,q,m,n)
# [1 2 3 4 5] [0 3 4 2 1] [0 4 3 1 2 2 4] [1 1 2 1 2]
# 注意当list中的元素不是数字而是list的时候,输出的数据类型与list中元素的长度有关
# 利用这种方法对list中元素去重或求里面元素的个数都不是好方法,很容易出错
统计series中的不同值时,返回的是array,它没有其它参数
import pandas as pd
se = pd.Series([1,3,4,5,2,2,3])
print(se.unique())
# [1 3 4 5 2]
2.nunique()
可直接统计dataframe中每列的不同值的个数,也可用于series,但不能用于list.返回的是不同值的个数.
df=pd.DataFrame({'A':[0,1,1],'B':[0,5,6]})
print(df)
print(df.nunique())
# A B
# 0 0 0
# 1 1 5
# 2 1 6
# A 2
# B 3
# dtype: int64
也可与groupby结合使用,统计每个块的不同值的个数.
all_user_repay = all_user_repay.groupby(['user_id'])['listing_id'].agg(['nunique']).reset_index()
# user_id nunique
# 0 40 1
# 1 56 1
# 2 98 1
# 3 103 1
# 4 122 1
来源:https://blog.csdn.net/Ghjkku/article/details/125773412


猜你喜欢
- Varchar 对每个英文(ASCII)字符都占用2个字节,对一个汉字也只占用两个字节char 对英文(ASCII)字符占用1个字节,对一个
- 我就废话不多说了,大家还是直接看代码 吧~package mainimport ( "fmt" "sort&q
- ADO.NET 连接到 SQL Server SQL Server .NET Framework 数据提供程序支持类似于 OLE DB (A
- 本文实例为大家分享了python mysql个人论文管理系统的具体代码,供大家参考,具体内容如下1.mysql数据库建表在mysql数据库里
- 一、背景大家都知道gevent的机制是单线程+协程机制,当遇到可能会阻塞的操作时,就切换到可运行的协程中继续运行,以此来实现提交系统运行效率
- 使用这些有用的 Python 代码片段提升你的编程技能,在本文中,我将分享 20 个 Python 代码片段,以帮助你应对日常编程挑战,你可
- aspjpeg版本:v1.801 将pic.jpg打上logo.png,可根据图片大小对水印图做适当调整 &
- 本文实例讲述了Django框架实现分页显示内容的方法。分享给大家供大家参考,具体如下:分页1、作用数据加载优化2、前端引入bootstrap
- 本文实例讲述了javascript+HTML5 canvas绘制时钟功能。分享给大家供大家参考,具体如下:效果如下:代码:<!DOCT
- 介绍 append()语法list.append( element )参数element:任何类型的元素列表「末尾」添加元素nam
- Django的ORM是非常好用的,哪怕不是做Web项目也值得一用,所以网上也可以找到不少使用 Django 开发非Web项目的资料,因为除了
- 前言本文记录了对于Python的数据类型中元祖(Tuple)和字典(Dict)的一些认识,以及部分内置方法的介绍。下面话不多说,来看看详细的
- 前言(结尾有彩蛋欧)目前,许多网站采取各种各样的措施来反爬虫,其中一个措施便是使用验证码。随着技术的发展,验证码的花样越来越多。验证码最初是
- 大家好,今天给大家分享一下自己整理的一篇 Python 参数的内容,内容非常的干,全文通过案例的形式来理解知识点,自认为比网上 80% 的文
- 本文为大家讲解了Mysql多表联合查询效率分析及优化,供大家参考,具体内容如下1. 多表连接类型1. 笛卡尔积(交叉连接) 在MySQL中可
- 前情提要因为上一篇提过,每次来一个请求,然后就会起一个goroutinue那么导致的可能就是一个树形结构的请求图,底下节点在执行中如果发生了
- 什么是Python元类?Python元类是与Python的面向对象编程概念相关的高级功能之一。它确定类的行为,并进一步帮助其修改。用Pyth
- 在最古老的JavaScript浏览器里注册事件只能通过内联模式。自从DHTML从根本上改变了你操作页面的方法,事件的注册就必须有扩展性而且要
- 在计算机普及的现代设计领域,文字的设计的工作很大一部分由计算机代替人脑完成了(很多平面设计软件中都有制作艺术汉字的引导,以及提供了数十上百种
- SQL Server 2000 的 XML 功能可以简化将现有代码作为 Web 服务提供的任务。本文集中讨论了传入和传出 Transact