详解pandas映射与数据转换
作者:元小疯 发布时间:2022-07-09 11:47:58
在 pandas 中提供了利用映射关系来实现某些操作的函数,具体如下:
replace() 函数:替换元素;
map() 函数:新建一列;
rename() 函数:替换索引。
一、replace() 用映射替换元素
在数据处理时,经常会遇到需要将数据结构中原来的元素根据实际需求替换成新元素的情况。要想用新元素替换原来元素,就需要定义一组映射关系。在映射关系中,将旧元素作为键,新元素作为值。
例如,创建字典 fruits 用于指明水果标识和水果名称的映射关系。
fruits={101:'orange',102:'apple',103:'banana'}
如要将用于存储水果标识、水果数量和单价的 DataFrame 对象中的水果标识替换成水果名称,就需要运用 replace() 函数,通过 fruits 映射关系来实现元素的替换。
replace() 函数的基本语法格式如下:
obj.replace(to_replace=None,value=None,inplace=False,limit=None,regex=
False,method='pad')
函数中的参数说明如下:
obj:DataFrame 或 Series 对象;
to_replace:接收 str、regex、list、dict、Series、int、float 或者 None,表示将被替换的值;
value:接收标量、字典、列表、str、正则表达式,默认为 None;用于替换与 to_replace 匹配的任何值的值;对于 DataFrame,可以使用值的 dict 来指定每列使用哪个值(不在 dict 中的列将不会被填充);还允许使用正则表达式、字符串和列表或这些对象的 dict;
inplace:接收布尔值,默认为 False,如果是 True,将修改原来的数据;
limit:接收 int,默认为 None,用于限制填充次数;
regex:接收 bool 或与 to_replace 相同的类型,默认为 False,表示是否将 to_replace 或 value 解释为正则表达式,如果是 True,那么 to_replace 必须是一个字符串,当是正则表达式或正则表达式的列表、字典或数组时,to_replace 必须为 None;
method:取值为 {'pad','ffill','bfill',无},表示替换时使用的方法,与缺失值填充方法类似,当 to_replace 是标量、列表或元组时,值为 None。
【例 1】利用 replace() 函数和映射关系实现将水果数据框中水果标识替换成水果名称。
示例代码 test1.py 如下:
import numpy as np
import pandas as pd
#创建水果标识与水果名称的映射关系
fruits = {101:'orange',102:'apple',103:'banana'}
#创建水果数据框DataFrame
data = pd.DataFrame({'fru_No':[101,102,103] ,'fru_Num':[1000,2000,3000]
,'price':[3.56,4.2,2.5]})
#用映射替换fru_No列的元素
newDf = data.replace(fruits)
print(newDf)
#输出如下
fru_No fru_Num price
0 orange 1000 3.56
1 apple 2000 4.20
2 banana 3000 2.50
replace() 函数应用的示例代码 example1.py 如下:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
s = Series([-1000,-999,2,3,4,5,-2000])
#单数值替换
print(s.replace(-2000,np.nan))
0 -1000.0
1 -999.0
2 2.0
3 3.0
4 4.0
5 5.0
6 NaN
#将多个数值替换
print(s.replace([-1000,-999],0))
0 0
1 0
2 2
3 3
4 4
5 5
6 -2000
#不同的值进行不同的替换
print(s.replace([-1000,-999],[np.nan,0]))
0 NaN
1 0.0
2 2.0
3 3.0
4 4.0
5 5.0
6 -2000.0
#用字典方式进行不同的替换
print(s.replace({-1000:np.nan,-999:0,-2000:np.nan}))
0 NaN
1 0.0
2 2.0
3 3.0
4 4.0
5 5.0
6 NaN
二、用映射添加元素
在【例 1】中介绍了利用函数和映射来实现将水果标识替换成水果名称的方法。但是有时需要保留水果标识,将水果名称添加到数据集中。
那么,这时可利用 map() 函数,通过构建 fruits 映射关系来实现元素的添加。
map() 函数是作用于 Series 或 DataFrame 对象的一列,它接收一个函数或表示映射关系的字典作为参数,它的基本语法格式如下:
Series.map(arg,na_action=None)
函数中的参数说明如下:
arg:接收 function、dict 或 Series,表示映射通信;
na_action:取值为{无,'忽略'},默认值为 None,如果为'忽略',则传播 NA 值,而不将它们传递给映射对应关系。
【例 2】利用 map() 函数和映射关系实现将水果名称添加到水果数据框中。
示例代码 test2.py 如下:
import pandas as pd
#创建水果标识与水果名称的映射关系
fruits = {101:'orange',102:'apple',103:'banana'}
#创建水果数据框DataFrame
data = pd.DataFrame({'fru_No':[101,102,103],'fru_Num':[1000,2000,3000],'price':
[3.56,4.2,2.5]})
#用映射为data添加fru_name列元素
data['fru_name'] = data['fru_No'].map(fruits)
print(data)
fru_No fru_Num price fru_name
0 101 1000 3.56 orange
1 102 2000 4.20 apple
2 103 3000 2.50 banana
三、重命名行/列索引
在数据处理中,有时需要使用映射关系转换轴标签。pandas 的 rename() 函数是以表示映射关系的字典对象作为参数,替换轴的索引标签。
rename() 函数的基本语法格式如下:
DataFrame.rename(mapper=None,index=None,columns=None,axis=None,copy=True,
inplace=False,level=None)
或
Series.rename(index=None,**kwargs)
函数中的参数说明如下:
mapper、index、columns:接收 dict或 function,表示将 dict 或函数转换为应用于该轴的值,使用 mapper 参数要指定映射器;使用 columns 参数可重命名各列;
axis:接收 int 或 str,可选,表示映射器定位的轴,可以是轴名称(“index”,“columns”)或数字(0,1),默认为“index”;
copy:接收 boolean,默认为 True,表示是否复制数据;
inplace:接收 boolean,默认为 False,如果为 True,将会修改原来的数据;
level:接收 int 或 level name,默认为 None,如果是 MultiIndex,只重命名指定级别中的标签。
rename() 函数返回值是 DataFrame 或 Series。
【例 3】利用 rename() 函数和映射关系重命名水果数据框的行索引和列索引。
示例代码 test3.py 如下:
import pandas as pd
#创建行索引的映射关系
reindex = {0:'row1',1:'row2',2:'row3'}
#创建水果数据框DataFrame
data = pd.DataFrame({'fru_No':[101,102,103],'fru_Num':[1000,2000,3000],'price':
[3.56,4.2,2.5]})
fru_No fru_Num price
0 101 1000 3.56
1 102 2000 4.20
2 103 3000 2.50
#用映射重命名水果数据框的行索引,产生新DataFrame,但原数据不改变
newDf = data.rename(reindex)
print(newDf)
fru_No fru_Num price
row1 101 1000 3.56
row2 102 2000 4.20
row3 103 3000 2.50
#用映射重命名水果数据框的行索引,产生新DataFrame,但原数据改变
newDf = data.rename(reindex,inplace=True)
print(newDf) #newDf是None,data原数据改变
#创建列索引的映射关系
recolumns = {'fru_No':'col1','fru_Num':'col2','price':'col3'}
#用映射重命名水果数据框中的行索引和列索引
newDf = data.rename(index=reindex,columns=recolumns)
print(newDf)
col1 col2 col3
row1 101 1000 3.56
row2 102 2000 4.20
row3 103 3000 2.50
#用映射重命名水果数据框的单个行索引和单个列索引
newDf = data.rename(index={'row2':'s1'},columns={'fru_No':'111'})
print(newDf)
111 fru_Num price
row1 101 1000 3.56
s1 102 2000 4.20
row3 103 3000 2.50
注意:rename() 函数返回一个经过改动的新 DataFrame 对象,但原 DataFrame 对象仍保持不变,如果要改变调用函数的对象本身,可使用 inplace 选项,并将其值设置为 True。
来源:https://www.cnblogs.com/aitree/p/14308931.html


猜你喜欢
- 一、保存:graph_util.convert_variables_to_constants 可以把当前session的计算图串行化成一个字
- 要写爬虫爬取大量的数据,就会面临ip被封的问题,虽然可以通过设置延时的方法来延缓对网站的访问,但是一旦访问次数过多仍然会面临ip被封的风险,
- GeoPandas是一个基于pandas,针对地理数据做了特别支持的第三方模块。它继承pandas.Series和pandas.Datafr
- 本文实例讲述了Flask框架学习笔记之模板操作。分享给大家供大家参考,具体如下:flask的模板引擎是Jinja2。引入模板的好处是增加程序
- 1。formpanel数据源和grid相同,使用 Form.getForm().loadRecord(row);则数据便可自动加载在form
- 数据库引擎以InnoDB为主1.磁盘碎片是什么InnoDB表的数据存储在页中,每个页可以存放多条记录,这些记录以树形结构组织,这棵树称为B+
- PyQt5选项卡控件QTabWidget简介QTabWidget控件提供了一个选项卡和一个页面区域,默认显示第一个选项卡的页面,通过单击各选
- 本文实例为大家分享了Python将图片彩色转化为素描的具体代码,供大家参考,具体内容如下第一种:from PIL import Image,
- 一:PIL功能介绍与安装PIL,全称Python Image Library,主要作用是图像处理,可用于图片剪切、粘贴、缩放、镜像、水印、颜
- 本文讲述了python安装mysql-python的方法。分享给大家供大家参考,具体如下:ubuntu 系统下进行的操作首先安装了pip工具
- 本文实例讲述了Python上下文管理器类和上下文管理器装饰器contextmanager用法。分享给大家供大家参考,具体如下:一. 什么是上
- 目录方案一:重建 Replicas前提条件优点缺点操作步骤MasterSlave方案二:使用percona-toolkit进行数据修复前提条
- Python安装Graphviz画图器首先,要明确他是一个独立的软件,如果大家用pip的方法装了graphviz可以先卸载pip unins
- 本次薯片会讨论了关于分类与类型的问题。怎么找一个item?页面导航一般分类为主,在具体的分类展示下选择类型:典型例子:炫铃(QQ客户端)当只
- 本文主要分享的是一则python+opencv实现任意角度的透视变换的实例,具体如下:# -*- coding:utf-8 -*-impor
- 一、hashlib模块什么是哈希模块:hashlib模块是一种加密模块,内部存有多种加密类型加密的作用:可将明文数据进行加密,转换成一串密文
- 先贴代码,之后完善:<!doctype html><html lang="en"> <he
- 在MySQL里,聚集索引和非聚集索引分别是什么意思,有什么区别?在MySQL中,InnoDB引擎表是(聚集)索引组织表(clustered
- 解决空格和空行报错问题到build文件夹下面的webpack.base.conf.js文件。然后打开该文件,找到图下这段代码,把他注释掉。注
- 下面的教程总结了Javascript在网页定位方面的相关知识。一、网页的绝对大小和相对大小首先,要明确两个基本概念。一张网页的全部面积,就是