Pandas实现一列数据分隔为两列
作者:Dennis_Shaw 发布时间:2021-01-06 04:31:36
分割成一个包含两个元素列表的列
对于一个已知分隔符的简单分割(例如,用破折号分割或用空格分割).str.split() 方法就足够了 。 它在字符串的列(系列)上运行,并返回列表(系列)。
>>> import pandas as pd
>>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']})
>>> df
AB
0 A1-B1
1 A2-B2
>>> df['AB_split'] = df['AB'].str.split('-')
>>> df
AB AB_split
0 A1-B1 [A1, B1]
1 A2-B2 [A2, B2]
分割成两列,每列包含列表的相应元素
下面来看下如何从:分割成一个包含两个元素列表的列至分割成两列,每列包含列表的相应元素。
>>> df['AB'].str[0]
0 A
1 A
Name: AB, dtype: object
>>> df['AB'].str[1]
0 1
1 2
Name: AB, dtype: object
因此可以得到
>>> df['AB'].str.split('-', 1).str[0]
0 A1
1 A2
Name: AB, dtype: object
>>> df['AB'].str.split('-', 1).str[1]
0 B1
1 B2
Name: AB, dtype: object
可以通过如下代码将pandas的一列分成两列:
>>> df['A'], df['B'] = df['AB'].str.split('-', 1).str
>>> df
AB AB_split A B
0 A1-B1 [A1, B1] A1 B1
1 A2-B2 [A2, B2] A2 B2
补充知识:pandas某一列中每一行拆分成多行的方法
在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。
在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,
info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))
看起来非常之长,分开来看,流程如下:
将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列
将拆分后的多列数据进行列转行操作(stack),合并成一列
将生成的复合索引重新进行reset保留原始的索引,并命名
将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接
具体操作如下:
预操作:生成需要使用的DataFrame
# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb()
# 生成一个DataFrame
info = myDB.gen_dataframe(10,['name','phone','city','state'])
结果如下:
name | phone-number | city | state | |
---|---|---|---|---|
0 | Hannah Richard | 810-859-7815 | Irwinville | Louisiana |
1 | Ronald Berry | 591-564-0585 | Glen Ellen | Minnesota |
2 | Caitlin Barron | 969-840-8580 | Dubois | Oklahoma |
3 | Felicia Stephens | 154-858-1233 | Veedersburg | Alaska |
4 | Shelly Dennis | 343-104-9365 | Mattapex | Virginia |
5 | Nicholas Hill | 992-239-1954 | Moneta | Minnesota |
6 | Steve Bradshaw | 164-081-7811 | Ten Broeck | Colorado |
7 | Gail Johnston | 155-259-9514 | Wayan | Virginia |
8 | John Gray | 409-892-4716 | Darlington | Pennsylvania |
9 | Katherine Bautista | 185-861-1677 | McNab | Texas |
假如现在我们要对city列进行进行拆分,按照空格拆分,转换成多行的数据,
第一步:拆分,生成多列
info_city = info['city'].str.split(' ', expand=True)
结果如下:
0 | 1 | |
---|---|---|
0 | Irwinville | None |
1 | Glen | Ellen |
2 | Dubois | None |
3 | Veedersburg | None |
4 | Mattapex | None |
5 | Moneta | None |
6 | Ten | Broeck |
7 | Wayan | None |
8 | Darlington | None |
9 | McNab | None |
可以看到已经将原始数据拆分成了2列,对于无法拆分的数据为None
第二步:行转列
info_city = info_city.stack()
结果如下:
0 | 0 | Irwinville |
1 | 0 | Glen |
1 | Ellen | |
2 | 0 | Dubois |
3 | 0 | Veedersburg |
4 | 0 | Mattapex |
5 | 0 | Moneta |
6 | 0 | Ten |
1 | Broeck | |
7 | 0 | Wayan |
8 | 0 | Darlington |
9 | 0 | McNab |
其中前面两列是索引,返回的是一个series,没有名字的series
第三步:重置索引,并命名(并删除多于的索引)
info_city = info_city.reset_index(level=1, drop=True)
结果如下:
0 | Irwinville |
1 | Glen |
1 | Ellen |
2 | Dubois |
3 | Veedersburg |
4 | Mattapex |
5 | Moneta |
6 | Ten |
6 | Broeck |
7 | Wayan |
8 | Darlington |
9 | McNab |
第四步:和原始数据合并
info_new = info.drop(['city'], axis=1).join(info_city)
结果如下:
name | phone-number | state | city | |
---|---|---|---|---|
0 | Hannah Richard | 810-859-7815 | Louisiana | Irwinville |
1 | Ronald Berry | 591-564-0585 | Minnesota | Glen |
1 | Ronald Berry | 591-564-0585 | Minnesota | Ellen |
2 | Caitlin Barron | 969-840-8580 | Oklahoma | Dubois |
3 | Felicia Stephens | 154-858-1233 | Alaska | Veedersburg |
4 | Shelly Dennis | 343-104-9365 | Virginia | Mattapex |
5 | Nicholas Hill | 992-239-1954 | Minnesota | Moneta |
6 | Steve Bradshaw | 164-081-7811 | Colorado | Ten |
6 | Steve Bradshaw | 164-081-7811 | Colorado | Broeck |
7 | Gail Johnston | 155-259-9514 | Virginia | Wayan |
8 | John Gray | 409-892-4716 | Pennsylvania | Darlington |
9 | Katherine Bautista | 185-861-1677 | Texas | McNab |
需要特别注意的是,需要使用原始的连接新生成的,因为新生成的是一个series没有join方法,也可以通过将生成的series通过to_frame方法转换成DataFrame,这样就没有什么差异了
写了这么多,记住下面的就行了:
info.drop([‘city'], axis=1).join(info[‘city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city'))
如果原数据中已经是list了,可以将info[‘city'].str.split(' ', expand=True)这部分替换成info[‘city'].apply(lambda x: pd.Series(x)),就可以达到相同的目的。
来源:https://blog.csdn.net/Dennis_Shaw/article/details/96136723


猜你喜欢
- 1、查看死锁1)用dba用户执行以下语句select username,lockwait,status,machine,program fr
- 1.如何引入在vue-cli里,引入文件有几钟方法一种是用npm或者cnpm指令去下载对应的插件,然后在main.js里用import方法引
- 一、Python下载1.进入Python官网:https://www.python.org/2.选择windows版本(Download &
- 之前写了一个ajax上传工具。但是只是客户端的工具是我写的,服务器端的那个程序,我是修改了一个网上流传的无组件上传类。因为当时我还不懂什么a
- 直接使用Navicat通过IP连接会报各种错误,例如:Error 1130: Host '192.168.1.80' is
- #-*- coding: UTF-8 -*-'''Created on 2013-12-5@author: good
- 其实不光是上面描述的情况会锁住表,还有很多种场景会使表放生死锁,解锁其实很简单,下面用一个示例来讲解: 1 首先创建一个测试用的表: 代码如
- 一、系统环境yum update升级以后的系统版本为[root@yl-web yl]# cat /etc/redhat-release Ce
- 今天是我们来玩一个钉子。通过一个钉子来学习一个opencv中的一个函数,这个函数我网上也有搜过,不过遗憾的是,各路好手都是写的是有点不堪入目
- 看youa的源码发现的,原来flash可以有fallback content:<object type="applicati
- 本文实例讲述了mysql 复制原理与实践应用。分享给大家供大家参考,具体如下:复制功能是将一个mysql数据库上的数据复到一个或多个mysq
- (一)RabbitMQ的简介RabbitMq 是实现了高级消息队列协议(AMQP)的开源消息代理中间件。消息队列是一种应用程序对应用程序的通
- 最近的uniapp开发中遇到了H5调微信授权登录的业务,记录一下解决方法微信授权微信授权分为两种类型:静默授权:scope=snsapi_b
- 优化算法时间复杂度算法的时间复杂度对程序的执行效率影响最大,在Python中可以通过选择合适的数据结构来优化时间复杂度,如list和set查
- 1 前言之前已经介绍了基金的变动信息,但是这些基金都是属于场外的,今天我们要介绍的是一个带门槛的投资产品-ETF。只有开立证券账户的玩家才能
- static function convert($size) { &
- 构思学生管理系统 应该包含老师注册登录 管理学生信息(增删改查)还有数据持久化因为数据存入JSON文件 增删改查都需要读取和修改文件所以需要
- 前言如果我们的应用在启动的时候需要对数据库进行初始化(比如建表等), 可以通过读取.sql文件内容直接执行. 但是, 这样会带出一个问题:在
- 本文实例讲述了python标准算法实现数组全排列的方法,代码来自国外网站。分享给大家供大家参考。具体分析如下:从n个不同元素中任取m(m≤n
- 刚刚看了bootstrap的导航栏,发现有点弄混了,现在来整理一下;导航栏是一个很好的功能,是 Bootstrap 网站的一个突出特点。导航