python中pd.cut()与pd.qcut()的对比及示例
作者:Ancky_W 发布时间:2021-06-04 02:25:55
1、pd.cut()
用于将数据值按照值本身进行分段并排序到 bins 中。
参数包含:x, bins, right, include_lowest, labels, retbins, precision
x :被划分的数组
bins :被划分的区间/区间数
- ① 当 bins 为整数时,表示数组 x 被划分为多少个等间距的区间;
- ② 当 bins 为序列时,表示数组 x 将被划分在该指定序列中,若不在则输出 NaN;
# x = [1,2,3,5,3,4,1], bins = 3
[In ] pd.cut(np.array([1,2,3,5,3,4,1]),3)
[Out] [(0.996, 2.333], (0.996, 2.333], (2.333, 3.667], (3.667, 5.0], (2.333, 3.667], (3.667, 5.0], (0.996, 2.333]]
Categories (3, interval[float64]): [(0.996, 2.333] < (2.333, 3.667] < (3.667, 5.0]]
# x = [1,2,3,5,3,4,1], bins = [1,2,3]
[In ] pd.cut(np.array([1,2,3,5,3,4,1]),[1,2,3])
[Out] [NaN, (1.0, 2.0], (2.0, 3.0], NaN, (2.0, 3.0], NaN, NaN]
Categories (2, interval[int64]): [(1, 2] < (2, 3]]
right :是否包含右端点,默认为 True;
include_lowest :是否包含左端点,默认为 False;
# x = [1,2,3,5,3,4,1], bins = [1,2,3], 默认不包含左端点 1,默认包含右端点 3
[In ] pd.cut(np.array([1,2,3,5,3,4,1]),[1,2,3])
[Out] [NaN, (1.0, 2.0], (2.0, 3.0], NaN, (2.0, 3.0], NaN, NaN]
Categories (2, interval[int64]): [(1, 2] < (2, 3]]
# x = [1,2,3,5,3,4,1], bins = [1,2,3], 设置包含左端点 1,设置包含右端点 3
[In ] pd.cut(np.array([1,2,3,5,3,4,1]),[1,2,3],include_lowest=True,right=False)
[Out] [[1.0, 2.0), [2.0, 3.0), NaN, NaN, NaN, NaN, [1.0, 2.0)]
Categories (2, interval[int64]): [[1, 2) < [2, 3)]
labels :是否用标记来替代返回的 bins,默认为 False,如需标记,标记数需与 bins 数一致,并为 labels 赋值一组列表;
# x = [1,2,3,5,3,4,1], bins = 3, 设置用指定标签 ['A','B','C'] 返回序列
[In ] pd.cut(np.array([1,2,3,5,3,4,1]),3,labels=['A','B','C'])
[Out] [A, A, B, C, B, C, A]
Categories (3, object): [A < B < C]
retbins : 是否返回间距 bins,默认为 False,仅返回 x 中每个值对应的 bin 的列表,若 retbins = True,则返回 bin 的列表及对应的 bins。
# x = [1,2,3,5,3,4,1], bins = 3, 设置一并返回对应 bins 序列
[In ] pd.cut(np.array([1,2,3,5,3,4,1]),3,retbins=True)
[Out] ([(0.996, 2.333], (0.996, 2.333], (2.333, 3.667], (3.667, 5.0], (2.333, 3.667], (3.667, 5.0], (0.996, 2.333]]
Categories (3, interval[float64]): [(0.996, 2.333] < (2.333, 3.667] < (3.667, 5.0]],
array([0.996 , 2.33333333, 3.66666667, 5. ]))
precision : 精度,区间边界值保留的小数点位数
# x = [1,2,3,5,3,4,1], bins = 3, 精度为2
[In ] pd.cut(np.array([1,2,3,5,3,4,1]),3,precision=2)
[Out] [(1.0, 2.33], (1.0, 2.33], (2.33, 3.67], (3.67, 5.0], (2.33, 3.67], (3.67, 5.0], (1.0, 2.33]]
Categories (3, interval[float64]): [(1.0, 2.33] < (2.33, 3.67] < (3.67, 5.0]]
2、pd.qcut()
基于分位数的离散化功能。 根据等级或基于样本分位数(或者说基于样本值落在区间的频率),将变量分离为相等大小的桶。
参数包含:x, q, labels, retbins, precision, duplicates
x、labels、retbins、precision 与 pd.cut() 中参数用法一致;
q : 将序列 x 划分为 q 个区间,使落在每个区间的值的数量一致;
duplicates :重复值处理,默认为 duplicates = ‘raise’,表示不忽略重复值。如需忽略 x 中的重复值,可指定 duplicates = ‘drop’。
3、pd.cut() v.s. pd.qcut()
pd.cut() 将指定序列 x,按指定数量等间距的划分(根据值本身而不是这些值的频率选择均匀分布的bins),或按照指定间距划分
pd.qcut() 将指定序列 x,划分为 q 个区间,使落在每个区间的记录数一致
[In] ll = [1,2,3,5,3,4,1,2]
print('- - - pd.cut()示例1 - - -')
print(pd.cut(ll, 4, precision=2).value_counts())
print('- - - pd.cut()示例2 - - -')
print(pd.cut(ll, [1,2,4], precision=2).value_counts())
print('- - - pd.qcut()示例 - - -')
print(pd.qcut(ll, 4, precision=2).value_counts())
[Out] - - - pd.cut()示例1 - - -
(1.0, 2.0] 4
(2.0, 3.0] 2
(3.0, 4.0] 1
(4.0, 5.0] 1
dtype: int64
- - - pd.cut()示例2 - - -
(1, 2] 2
(2, 4] 3
dtype: int64
- - - pd.qcut()示例 - - -
(0.99, 1.75] 2
(1.75, 2.5] 2
(2.5, 3.25] 2
(3.25, 5.0] 2
dtype: int64
来源:https://blog.csdn.net/m0_47478595/article/details/106384696


猜你喜欢
- 数据库(database)MySQL 是最流行的开源数据库系统,可运行于几乎所有的操作系统平台。在《MySQL 安装》一文中详解介绍了安装步
- 本文实例讲述了SESSION存放在数据库用法。分享给大家供大家参考。具体如下:<?php/*CREATE TABLE `ws_sess
- 完成asp语言对XML文档中指定节点文本的增加、删除、修改、查看 <% '-------------------
- DNA序列ACTGATCGATTACGTATAGTATTTGCTATCATACATATATATCGATGCGTTCAT求其互补DNA序列。在
- 本文实例为大家分享了python opencv实现图像矫正的具体代码,供大家参考,具体内容如下问题简介一般的我们对图像中的目标进行分析和检测
- 目录一、图示二、准备三、一个简单服务器应用四、向服务器发送图片五、最终关键yolov5调用代码:一、图示客户端请求输入一段视频或者一个视频流
- 微软今天宣布正式发布SQL Server 2008服务器软件,这将帮助微软与Oracle 11g,IBM DB2 9.5数据库产品对抗.此前
- 安装@vitejs/plugin-vue-jsxyarn add -D @vitejs/plugin-vue-jsxnpm i -D @vi
- 用户日活百万级,注册用户千万级,而且若还没有进行分库分表,则该DB里的用户表可能就一张,单表上千万的用户数据。某系统专门通过各种条件筛选大量
- 1 通过官网下载MySQL5.6版本压缩包,mysql-5.6.36-winx64.zip;2 在D盘创建目录,比如D:\MySQL,将my
- 泡了论坛的艺术版块很长一段时间了,发现许多网站做不好,不对头的原因是在配色问题上,对于我来说,配色尤其重要,假如自己的绘图艺术能力不高,要突
- 今天在GOOGLE上查图片资料,这一幕真让我纠结啊:使用【向前】【向后】这种说法,就默认了有一个对比坐标,那就是当前显示的4张缩略图。点击【
- GoLang调试工具Delve1.先获取呗:go get -u github.com/derekparker/delve/cmd/dlv2.
- 众所周知,Jupyter notebook是一个交互式的Python shell,也就是IPython的封装版,非常适合用来进行数据分析和机
- 前言大家都知道,早期的XMLHttpRequest不支持文件上传,一般用第三方js插件或者flash,现在可以借助XMLHttpReques
- 外部直接执行python文件时,我们有时需要获得命令行的参数获得命令行参数的两种方式1、通过sys.argvsys.argv:获得一个参数列
- 前言:分区是一种表的设计模式,正确的分区可以极大地提升数据库的查询效率,完成更高质量的SQL编程。但是如果错误地使用分区,那么分区可能带来毁
- 最近在研究tensorflow自带的例程speech_command,顺便学习tensorflow的一些基本用法。其中tensorboard
- Python 3.6 版本 Pytesseract 图像验证码识别环境:(1) win7 64位 (2) Idea (3) python 3
- 前言在用python处理表格数据中,这其中的工作重点就是对表格类型的数据进行梳理、计算和展示,本文重点介绍展示这个方面的工作。首先我们看一个