位置：首页>> 网络编程>> Python编程>> python pandas分割DataFrame中的字符串及元组的方法实现

python pandas分割DataFrame中的字符串及元组的方法实现

作者：侯小啾　　发布时间：2022-09-10 09:30:14　

标签：python,DataFrame,分割

1.使用str.split()方法

可以使用pandas 内置的 str.split() 方法实现分割字符串类型的数据，并将分割结果写入DataFrame中，以表格形式呈现。

语法：

Series.str.split(pat=None, n=-1, expand=False)

其中，pat是字符串或正则表达式，
n是一个整数数字，默认为-1。为0或-1时即为最大次数的分割。其他数值因数值而定。
expand为布尔类型，表示分割后是否转换为DataFrame。默认为False表示不转换。

首先准备一组DataFrame数据：

import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
address = ['重庆重庆市南岸区 ',
'江苏省苏州市吴江区吴江经济技术开发区亨通路',
'江苏省苏州市园区苏州市工业园区唯亭镇阳澄湖大道维纳阳光花园',
'重庆重庆市南岸区长生桥镇茶园新区长电路',
'安徽省滁州市明光市三界镇中心街10001号',
'山东省潍坊市寿光市圣城街道潍坊科技学院',
'吉林省长春市二道区东盛街道彩虹风景',
'福建省厦门市湖里区江头街道厦门市湖里区祥店福满园小区',
'山西省吕梁市离石区滨河街道山西省吕梁市离石区后瓦师巷',
'河南省濮阳市华龙区中原路街道中原路与107国道交叉口东',
'广东省深圳市宝安区松岗街道松岗镇潭头第二工业区',
'河北省石家庄市辛集市辛集镇辛集市新皮革城7期125楼',
'广东省深圳市宝安区松岗街道松岗镇潭头第二工业区',
'贵州省贵阳市花溪区党武镇师范大学师大超市',
'广东省深圳市福田区沙头街道上沙龙秋村五十巷',
'福建省福州市闽侯县上街镇福州闽侯上街国宾大道',
'湖北省鄂州市鄂城区西山街道江碧路和馨居',
'上海上海市松江区',
'山东省青岛市市北区',
'山西省晋中市灵石县',
'浙江省杭州市余杭区']
df = pd.DataFrame()
df['address'] = address
print(df)

原数据示例如下：

将address分割成不同的地理级别，结果生成一个DataFrame对象：

print("=======================================================================")
df1 = df['address'].str.split(' ', expand=True)
print(df1)

结果如下：

最后将结果放入原DataFrame中。

df['省'] = series[0]
df['市'] = series[1]
df['区'] = series[2]
df = df[['省', '市', '区']]
print(df)

2.使用join()与split()方法结合

import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
address = ['重庆重庆市南岸区 ',
'江苏省苏州市吴江区吴江经济技术开发区亨通路',
'江苏省苏州市园区苏州市工业园区唯亭镇阳澄湖大道维纳阳光花园',
'重庆重庆市南岸区长生桥镇茶园新区长电路',
'安徽省滁州市明光市三界镇中心街10001号',
'山东省潍坊市寿光市圣城街道潍坊科技学院',
'吉林省长春市二道区东盛街道彩虹风景',
'福建省厦门市湖里区江头街道厦门市湖里区祥店福满园小区',
'山西省吕梁市离石区滨河街道山西省吕梁市离石区后瓦师巷',
'河南省濮阳市华龙区中原路街道中原路与107国道交叉口东',
'广东省深圳市宝安区松岗街道松岗镇潭头第二工业区',
'河北省石家庄市辛集市辛集镇辛集市新皮革城7期125楼',
'广东省深圳市宝安区松岗街道松岗镇潭头第二工业区',
'贵州省贵阳市花溪区党武镇师范大学师大超市',
'广东省深圳市福田区沙头街道上沙龙秋村五十巷',
'福建省福州市闽侯县上街镇福州闽侯上街国宾大道',
'湖北省鄂州市鄂城区西山街道江碧路和馨居',
'上海上海市松江区',
'山东省青岛市市北区',
'山西省晋中市灵石县',
'浙江省杭州市余杭区']
df = pd.DataFrame()
df['address'] = address
df = df.join(df['address'].str.split(' ', expand=True))
print(df)

运行结果同上。

3. 使用apply方法分割元组

使用apply方法，将某个元素类型为元组的列，将其元组中的元素拆分为不同的列。

import pandas as pd

df = pd.DataFrame({'a': [1, 2, 3, 4, 5], 'b': [(1, 2), (3, 4), (5, 6), (7, 8), (9, 10)]})
print(df)
df[['b1', 'b2']] = df['b'].apply(pd.Series)
print(df)

或者也可以这样写：

import pandas as pd

df = pd.DataFrame({'a': [1, 2, 3, 4, 5], 'b': [(1, 2), (3, 4), (5, 6), (7, 8), (9, 10)]})
print(df)

df = df.join(df['b'].apply(pd.Series))
print(df)

参考资源： python数据分析从入门到精通明日科技编著清华大学出版社

来源：https://skylarkprogramming.blog.csdn.net/article/details/123353821

投稿

python pandas分割DataFrame中的字符串及元组的方法实现

1.使用str.split()方法

2.使用join()与split()方法结合

3. 使用apply方法分割元组

猜你喜欢