理解Python数据离散化手写if-elif语句与pandas中cut()方法实现
作者:奕泽 发布时间:2023-02-24 10:33:33
标签:Python,数据离散化,pandas
当我们进行数据分析时,有时候需要对数值型数据进行离散化,将其划分为不同的标签或类别。这样做可以方便我们进行统计和分析,并帮助我们更好地理解数据。
在本文中,我们将介绍两种常见的离散化方法,并提供实现代码。
方法一:使用条件语句
第一种方法是使用条件语句来显式地检查输入值 x 是否在每个区间内,并返回相应的标签。这种方法适用于自定义的分段方式,要求手动设置每个阈值和对应的标签。
下面是一个示例函数 transfor_num 的实现代码:
def transfor_num(x):
if x ==0:
label = '无交易'
elif 0 < x <=0.01:
label = '0-0.01'
elif 0.01 < x <=0.04:
label = '0.01-0.04'
elif 0.04 < x <=0.09:
label = '0.04-0.09'
elif 0.09 < x <=0.49:
label = '0.09-0.49'
elif 0.49 < x <=0.99:
label = '0.49-0.99'
elif 0.99 < x <=4.99:
label = '0.99-4.99'
elif 4.99 < x <=9.99:
label = '4.99-9.99'
elif 9.99 < x <=19.99:
label = '9.99-19.99'
elif 19.99 < x <=49.99:
label = '19.99-49.99'
elif 49.99 < x <=99.99:
label = '49.99-99.99'
elif x > 99.99 :
label = '100及以上'
return label
# 你可以通过调用 transfor_num(x) 函数并将所需的值传递给 x 参数来使用该函数。例如:
label = transfor_num(5.67)
print(label)
输出结果应该是 '0.01-0.04',因为 5.67 在指定的区间范围内。
方法二:使用 pd.cut() 方法
第二种方法是使用 pandas 库的 cut() 方法将输入值 x 映射到不同的标签中,并返回标签。这种方法更加简洁和易于使用,同时也可以通过调整 bins 参数来灵活地控制分段的方式和结果。
下面是一个示例函数 transfor_num1 的实现代码:
def transfor_num1(x):
bins = [-1,0, 0.01, 0.04, 0.09, 0.49, 0.99, 4.99, 9.99, 19.99, 49.99, 99.99, float('inf')]
labels = [ '无交易','0-0.01', '0.01-0.04', '0.04-0.09', '0.09-0.49', '0.49-0.99', '0.99-4.99', '4.99-9.99', '9.99-19.99', '19.99-49.99', '49.99-99.99', '100及以上']
return pd.cut(x, bins=bins, labels=labels)
你可以通过调用 transfor_num1(x) 函数并将所需的值传递给 x 参数来使用该函数。例如:
import pandas as pd
data = {'transaction': [0, 0.005, 0.0125, 0.044, 0.067, 0.55, 2.99, 8.75, 15.6, 30.25, 80.5, 150]}
df = pd.DataFrame(data)
df['tran_amount_label'] = transfor_num1(df['transaction'])
print(df)
# 输出结果将会是如下数据框的形式:
transaction tran_amount_label
0 0.00000 无交易
1 0.00500 0-0.01
2 0.01250 0.01-0.04
3 0.04400 0.01-0.04
4 0.06700 0.04-0.09
5 0.55000 0.49-0.99
6 2.99000 0.99-4.99
7 8.75000 4.99-9.99
8 15.60000 9.99-19.99
9 30.25000 19.99-49.99
10 80.50000 49.99-99.99
11 150.00000 100及以上
其中 tran_amount_label 是新添加的一列,它显示了每个交易额所属的标签和类别。
两种方法各有优缺点。使用条件语句需要手动设置阈值和对应的标签,比较繁琐;而使用 pd.cut() 方法则可以自动划分区间,但其不太灵活。因此,在具体使用时,需要根据实际情况进行选择。
希望本文能够帮助你更好地理解离散化的概念和实现方法,更多关于Python数据离散化的资料请关注脚本之家其它相关文章!
来源:https://segmentfault.com/a/1190000043794384
0
投稿
猜你喜欢
- 导航标签彼此互斥、完全穷尽。导航标签其实就是一种文字表达形式,我们用标签来代表网站上的各种分类信息。比如“联系我们”这个标签,代表的内容通常
- 本文记录,如何使用 Python 来抓取,图片或者文件的,创建日期,修改日期1. 读取照片创建日期(._getexif())from PIL
- 早就想用一个系列的文章来写AJAX,让自己头到尾理一遍,更好的掌握基础知识(昨天的面试受打击了,基础知识很重要).要是写的好,也许也可以帮助
- 本文总结了一些简单基本的输出格式化形式,下面话不多说了,来看看详细的介绍吧。一、打印字符串>>> print "
- 前言每种编程语言为了表现出色,并且实现卓越的性能,都需要有大量编译器级与解释器级的优化。由于字符串是任何编程语言中不可或缺的一个部分,因此,
- 别误会,IE是不支持CSS3高级选择器,包括最新的IE8(详见《CSS选择器的浏览器支持》),但是CSS选择器的确是很有用的,它可以大大的简
- jQuery的选择器是CSS 1-3,XPath的结合物。jQuery提取这二种查询语言最好的部分,融合后创造出了最终的jQuery表达式查
- 首先忠心感谢凌宇5942给我的帮助!在他的启迪下我发现了另一种实现flash透明背景的办法,愿与大家共同探讨:凌宇5942告知的解决办法:在
- 一、查询条件精确,针对有参数传入情况 二、SQL逻辑执行顺序 FROM-->JOIN-->WHERE-->GROUP--&
- 本文实例讲述了PHP中使用addslashes函数转义的安全性原理分析。分享给大家供大家参考。具体分析如下:先来看一下ECshop中adds
- 本文实例讲述了PHP实现微信公众号支付功能。分享给大家供大家参考,具体如下: 直言无讳,我就是一个初涉微信
- MySQL 如何从表中取出随机数据 以前在群里讨论过这个问题,比较的有意思.mysql的语法真好玩. 他们原来都想用P
- 最近没事,写了个在项目经常要取城市或省份名的方法,所以改成了一个类.方便以后调用//****************************
- 由于XML本身的诸多优点,XML技术已被广泛的使用,目前的好多软件技术同XML紧密相关,比如微软的.net 平台对xml提供了强大的支持,提
- 当我想要完美的使用:nth-child或者:nth-of-type的时候有点儿头晕。你越理解它们,就能写出越好的CSS规则!在这些简单的”秘
- 网页中使用flash可以增强页面的动态交互效果,特别是用flash来制作广告,效果更好。经常使用flash的人,可能就碰到了flash会遮住
- 前言在几周前,我开始工作于一个证券投资组合网站。虽然我只能使用 React 完成整个网站,但我决定使用 Go 来创建一个可以处理某些任务(例
- 在ASP.NET2.0通过SMTP的验证发送EMAIL ,代码如下:’Create a new MailMes
- 现在不写asp了这次我将我以前沉淀下的一些函数库共享给大家,希望能给初学者启示,给老手也有所帮助吧.先谢谢大家支持! <%@
- 前言当我们编写任何程序时,都会遇到一些错误,会让我们有挫败感,所以我有一个解决方案给你。 今天在这篇文章中,我们将讨论错误类型error: