python数据处理之Pandas类型转换的实现
作者:B.Bz 发布时间:2021-04-11 11:17:36
标签:Pandas,类型转换
转换为字符串类型
tips['sex_str'] = tips['sex'].astype(str)
转换为数值类型
转为数值类型还可以使用to_numeric()函数
DataFrame每一列的数据类型必须相同,当有些数据中有缺失,但不是NaN时(如missing,null等),会使整列数据变成字符串类型而不是数值型,这个时候可以使用to_numeric处理
#创造包含'missing'为缺失值的数据
tips_sub_miss = tips.head(10)
tips_sub_miss.loc[[1,3,5,7],'total_bill'] = 'missing'
tips_sub_miss
自动转换为了字符串类型:
使用astype转换报错:
tips_sub_miss['total_bill'].astype(float)
使用to_numeric()函数:
直接使用to_numeric()函数还是会报错,添加errors参数
errors
可变参数:
ignore
遇到错误跳过 (只是跳过没转类型)coerce
遇到不能转的值强转为NaN
pd.to_numeric(tips_sub_miss['total_bill'],errors='ignore')
pd.to_numeric(tips_sub_miss['total_bill'],errors='coerce')
to_numeric向下转型:
downcast
参数
integer
和signed
最小的有符号int dtypefloat
最小的float dtypeunsigned
最小的无符号int dtype
downcast参数设置为float之后, total_bill的数据类型由float64变为float32
pd.to_numeric(tips_sub_miss['total_bill'],errors='coerce',downcast='float')
分类数据(Category)
利用pd.Categorical()
创建categorical数据,Categorical()常用三个参数
参1 values,如果values中的值,不在categories参数中,会被NaN代替
参2 categories,指定可能存在的类别数据
参3 ordered, 是否指定顺序
s = pd.Series(pd.Categorical(["a","b","c","d"],categories=['c','b','a']))
分类数据排序会自动根据分类排序:
ordered指定顺序:
from pandas.api.types import CategoricalDtype
# 创建一个分类 ordered 指定顺序
cat = CategoricalDtype(categories=['B','D','A','C'],ordered=True)
# 指定series_cat1转换类型为创建的分类类型
series_cat1 = series_cat.astype(cat)
print(series_cat.sort_values())
print(series_cat1.sort_values())
数据类型小结
知识点 | 内容 |
---|---|
Numpy的特点 | 1. Numpy是一个高效科学计算库,Pandas的数据计算功能是对Numpy的封装 2. ndarray是Numpy的基本数据结构,Pandas的Series和DataFrame好多函数和属性都与ndarray一样 3. Numpy的计算效率比原生Python效率高很多,并且支持并行计算 |
Pandas数据类型转换 | 1. Pandas除了数值型的int 和 float类型外,还有object ,category,bool,datetime类型 2. 可以通过as_type 和 to_numeric 函数进行数据类型转换 |
Pandas 分类数据类型 | 1. category类型,可以用来进行排序,并且可以自定义排序顺序 2. CategoricalDtype可以用来定义顺序 |
来源:https://blog.csdn.net/bjsyc123456/article/details/124437311


猜你喜欢
- 问题在Django中使用mysql偶尔会出现数据库连接丢失的情况,错误通常有如下两种OperationalError: (2006,
- 如下所示:def resize(src, dsize, dst=None, fx=None, fy=None, interpolation=
- 现在有一个xml,格式如下: 代码如下:<date> <item> <id>&nbs
- seed() 设置生成随机数用的整数起始值。调用任何其他random模块函数之前调用这个函数。语法以下是seed()方法的语法:
- 导入 python 库import matplotlib.pyplot as pltimport skimage.io as ioimpor
- 源码如下from scapy.all import *import logginglogging.getLogger('scapy.
- 我们都一定对比过编程的轻松与简单性。虽然我们都确认php和perl是最容易学习和编程的语言,但我仍旧想知道,如果用php、asp、jsp以及
- 一、背景说明以前就感觉进步的速度和博客的数量成正比,所以很长一段时间内想不通为什么很多博客为什么到最后很少甚至不在更新了,直到最近自己也快成
- 经常看到有人误删数据,或者误操作,特别是update和
- 1.最大值max(3,4) ##运行结果为42.最小值min(3,4) ##运行结果为33.求和sum(range
- 本文实例讲述了正则表达式匹配ip地址实例。代码结构非常简单易懂。分享给大家供大家参考。主要实现代码如下:import rereip = re
- 本文实例为大家分享了python爬取哈尔滨天气信息的具体代码,供大家参考,具体内容如下环境:windows7python3.4(pip in
- 前提条件:本地已经安装好oracle单实例,能使用plsql developer连接,或者能使用TNS连接串远程连接到oracle集群读取e
- 英文原文:http://www.smashingmagazine.com/2008/08/18/译文原文:http://blog.bingo
- 如下所示:from ctypes import *import osimport win32con,win32clipboardaStrin
- 天下武功,唯快不破。编程也不例外,你的代码跑的快,你能快速找出代码慢的原因,你的码功就高。安装pip install pyinstrumen
- 1. 介绍通俗的来讲,MobaXterm就是一款SSH客户端,它帮助我们在Windows操作系统下去连接并操作Linux服务器。MobaXt
- 这个功能需要写一点代码来实现。下面的函数可以得到一个变量的类型,调用时传递一个变量进去,会返回用字符串形式描述的变量类型。//得到x的类型,
- 如下所示:import pandas as pdcontent = ['T', 'F'] * 10data
- 一、方法原理(步骤)1.将彩色图片转换为灰度图片(调用opencv的cvtColor()方法);2.将图片分割为若干个小方块,后面会统一小方