理解Python数据离散化手写if-elif语句与pandas中cut()方法实现
作者:奕泽 发布时间:2023-02-24 10:33:33
标签:Python,数据离散化,pandas
当我们进行数据分析时,有时候需要对数值型数据进行离散化,将其划分为不同的标签或类别。这样做可以方便我们进行统计和分析,并帮助我们更好地理解数据。
在本文中,我们将介绍两种常见的离散化方法,并提供实现代码。
方法一:使用条件语句
第一种方法是使用条件语句来显式地检查输入值 x 是否在每个区间内,并返回相应的标签。这种方法适用于自定义的分段方式,要求手动设置每个阈值和对应的标签。
下面是一个示例函数 transfor_num 的实现代码:
def transfor_num(x):
if x ==0:
label = '无交易'
elif 0 < x <=0.01:
label = '0-0.01'
elif 0.01 < x <=0.04:
label = '0.01-0.04'
elif 0.04 < x <=0.09:
label = '0.04-0.09'
elif 0.09 < x <=0.49:
label = '0.09-0.49'
elif 0.49 < x <=0.99:
label = '0.49-0.99'
elif 0.99 < x <=4.99:
label = '0.99-4.99'
elif 4.99 < x <=9.99:
label = '4.99-9.99'
elif 9.99 < x <=19.99:
label = '9.99-19.99'
elif 19.99 < x <=49.99:
label = '19.99-49.99'
elif 49.99 < x <=99.99:
label = '49.99-99.99'
elif x > 99.99 :
label = '100及以上'
return label
# 你可以通过调用 transfor_num(x) 函数并将所需的值传递给 x 参数来使用该函数。例如:
label = transfor_num(5.67)
print(label)
输出结果应该是 '0.01-0.04',因为 5.67 在指定的区间范围内。
方法二:使用 pd.cut() 方法
第二种方法是使用 pandas 库的 cut() 方法将输入值 x 映射到不同的标签中,并返回标签。这种方法更加简洁和易于使用,同时也可以通过调整 bins 参数来灵活地控制分段的方式和结果。
下面是一个示例函数 transfor_num1 的实现代码:
def transfor_num1(x):
bins = [-1,0, 0.01, 0.04, 0.09, 0.49, 0.99, 4.99, 9.99, 19.99, 49.99, 99.99, float('inf')]
labels = [ '无交易','0-0.01', '0.01-0.04', '0.04-0.09', '0.09-0.49', '0.49-0.99', '0.99-4.99', '4.99-9.99', '9.99-19.99', '19.99-49.99', '49.99-99.99', '100及以上']
return pd.cut(x, bins=bins, labels=labels)
你可以通过调用 transfor_num1(x) 函数并将所需的值传递给 x 参数来使用该函数。例如:
import pandas as pd
data = {'transaction': [0, 0.005, 0.0125, 0.044, 0.067, 0.55, 2.99, 8.75, 15.6, 30.25, 80.5, 150]}
df = pd.DataFrame(data)
df['tran_amount_label'] = transfor_num1(df['transaction'])
print(df)
# 输出结果将会是如下数据框的形式:
transaction tran_amount_label
0 0.00000 无交易
1 0.00500 0-0.01
2 0.01250 0.01-0.04
3 0.04400 0.01-0.04
4 0.06700 0.04-0.09
5 0.55000 0.49-0.99
6 2.99000 0.99-4.99
7 8.75000 4.99-9.99
8 15.60000 9.99-19.99
9 30.25000 19.99-49.99
10 80.50000 49.99-99.99
11 150.00000 100及以上
其中 tran_amount_label 是新添加的一列,它显示了每个交易额所属的标签和类别。
两种方法各有优缺点。使用条件语句需要手动设置阈值和对应的标签,比较繁琐;而使用 pd.cut() 方法则可以自动划分区间,但其不太灵活。因此,在具体使用时,需要根据实际情况进行选择。
希望本文能够帮助你更好地理解离散化的概念和实现方法,更多关于Python数据离散化的资料请关注脚本之家其它相关文章!
来源:https://segmentfault.com/a/1190000043794384


猜你喜欢
- 这些导航菜单来自于Dribbble网站,出自于世界各地的优秀设计师之手,涵盖了各种不同的风格,个个都非常精美。这里我将这些导航菜单展示出来,
- 本文实例讲述了python实现多进程按序号批量修改文件名的方法。分享给大家供大家参考,具体如下:说明文件名命名方式如图,是数字序号开头,但是
- 如果进入了shell交互窗口,python的退出方式只能够用函数不能够用命令,这有时候让人感觉到很不习惯。因为函数会比命令多一个括号的输入,
- <?php # 设置 $domain 为你的域名 (注意没有www) $domain = "aspxhome.com&quo
- <%'解析一个xml文件的公用函数集合dim document'装载一个xml文档,函数名Loaddocument(文
- 在所有信息技术领域,网页设计、网站设计长期是个几乎搞不清楚的、弱势的、被边缘化的职能职位。但近些年发展中,不断有远见卓识的从业者认识到,“设
- 本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下:# _*_ co
- fixHtmlTag version 0.2 这个版本解决了上次遗留的问题,即就近闭合和嵌套闭合问题。具体可以看代码的注释。 <?ph
- 多支付原理1.利用鸭子类型。规定前台传过来支付方式。pay_methon2.再支付方式里面实现pay(名字统一)方法3.回调函数,在支付方式
- 废话不多说了,直接给大家贴代码了,具体代码如下所述: var aLi = document.querySelectorAll('.a
- virtualenvwrapper是用来管理virtualenv的扩展包,用着很方便。1. 安装:#安装virtualenvwrapper$
- 前言最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发
- 我的项目环境:平台:Windows10语言环境:python3.7编译器:PyCharmPyTorch版本:1.11.0PyG版本:2.1.
- 先举个例子,分别以不指定编码、指定编码为 utf-8、指定编码为 utf-8-sig 三种方式来做比较,再将写入 csv 文件和 txt 文
- 这篇文章主要介绍了基于Python执行dos命令并获取输出的结果,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值
- 一个用HTML和CSS实现的注册页面模板,废话不多说了,上代码!更新:使用JavaScript实现用户名和密码表单校验功能。代码如下:<
- Python具有基本的文本文件读写功能。Python的标准库提供有更丰富的读写功能。文本文件的读写主要通过open()所构建的文件对象来实现
- 本文实例讲述了MySQL学习笔记之数据定义表约束,分页方法。分享给大家供大家参考,具体如下:1. primary key 主键特点:主键是用
- 遇到的问题:在做爬虫的时候,爬取的url链接内还有转义字符,反斜杠 \,打算用正则的re.sub()替换掉的时候遇到了问题,这是要做替换的字
- 场景描述在update表的时候出现DeadlockLoserDataAccessException异常 (Deadlock found wh