pandas 实现某一列分组,其他列合并成list
作者:lxp198837 发布时间:2022-06-12 13:49:21
标签:pandas,分组,合并,list
pandas列转换为字典,但将相同第一列(键)的所有值合并为一个键
形式一:
import pandas as pd
# data
data = pd.DataFrame({'column1':['key1','key1','key2','key2'],
'column2':['value1','value2','value3','value3']})
print(data)
# Grouped dict
data_dict = data.groupby('column1').column2.apply(list).to_dict()
print(data_dict)
输出结果:
column1 column2
0 key1 value1
1 key1 value2
2 key2 value3
3 key2 value3
{'key1': ['value1', 'value2'], 'key2': ['value3', 'value3']}
形式二:
import pandas as pd
# data
df = pd.DataFrame({'column1':['key1','key1','key2','key2'],
'column2':['value1','value2','value1','value2'],
'column3':['value11','value11','value22','value22'],
'column4':['value44','value44','value55','value55']})
# Grouped dict
data_dict = df.groupby('column1').apply(lambda x: {col:x[col].tolist() for col in x.columns if col != 'column2'}).to_dict()
print(data_dict)
data_dict2 = df.groupby('column1').apply(lambda x: {col:x[col].tolist()[0] if col != 'column2' else x[col].tolist() for col in x.columns}).to_dict()
print(data_dict2)
输出结果:
#data_dict
{
'key1': {
'column1': ['key1', 'key1'],
'column3': ['value11', 'value11'],
'column4': ['value44', 'value44']
},
'key2': {
'column1': ['key2', 'key2'],
'column3': ['value22', 'value22'],
'column4': ['value55', 'value55']
}
}
#data_dict2
{
'key1': {
'column1': 'key1',
'column2': ['value1', 'value2'],
'column3': 'value11',
'column4': 'value44'
},
'key2': {
'column1': 'key2',
'column2': ['value1', 'value2'],
'column3': 'value22',
'column4': 'value55'
}
}
补充:pandas中,利用groupby分组后,对字符串字段进行合并拼接
在pandas里对于数值字段而言,groupby后可以用sum()、max()等方法进行简单的处理,对于字符串字段, 如果把它们的值拼接在一起,可以用使用 str.cat() 和 lamda 方法。
如,将下面表格中的内容,对skill字段按照id进行分组合并
实现代码:
import pandas as pd
file_name='test.xlsx'
df=pd.read_excel(file_name)
data=df.groupby('id')['skill'].apply(lambda x:x.str.cat(sep=':')).reset_index()
print(data)
效果如下:
另,数据处理时,常常需要将某一列进行拆分,分列,替换等,相关的函数有str.split()、str.extract()、str.replace().
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
来源:https://blog.csdn.net/lxp198837/article/details/103593082


猜你喜欢
- 在一台新的申请服务器上安装Oracle,在创建数据库实例时,遇到Enterprise Manager配置失败问题,无法进行远程连接。操作系统
- 本文实例为大家分享了python使用matplotlib绘制雷达图的具体代码,供大家参考,具体内容如下示例代码:# encoding: ut
- temp.html<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transiti
- SELECT语句,去除某个字段的重复信息,例如: 表名:table id uid username message dateline 1 6
- 这篇文章主要介绍了Python如何实现强制数据类型转换,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋
- 环境ubuntu 12.04 LTSpython 2.7.3opencv 2.3.1-7安装依赖sudo apt-get install l
- 最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现。下面就看看怎样使用吧。PD
- 前言相信大家可能曾遇到过这种情况,在开发中类似站内信的需求时,我们经常要使用字符串模板,比如尊敬的用户${name}。。。。里面的${nam
- Python 条件语句是通过一条或多条语句的执行结果(True 或者 False)来决定执行的代码块。可以通过下图来简单了解条件语句的执行过
- 技术背景GPU的加速技术在深度学习、量子计算领域都已经被广泛的应用。其适用的计算模型是小内存的密集型计算场景,如果计算的模型内存较大,则需要
- 1.Ansible Inventory 介绍;Ansible Inventory 是包含静态 Inventory 和动态 Inv
- 目录一、简单字段定义1、定义 Schema 并生成 Parquet 文件2、验证 Parquet 数据文件二、含嵌套字段定义1、验证 Par
- 前言最近做了一个爬取妹子套图的小功能,小伙伴们似乎很有兴趣,为了还特意组建了一个Python兴趣学习小组,来一起学习。十个python九个爬
- <?php echo CHtml::link('错误链接','user/register')?>
- 关于浅拷贝和深拷贝想必大家在学习中遇到很多次,这也是面试中常常被问到的问题,借由这个时间,整理一下浅拷贝和深拷贝的关系先从一个简单的例子入手
- 1.问:在DW中如何设置页面边距为0?答:在DW中似乎没有直接设置的方法,你只有在Html文档中插入以
- PS笔刷,样式,形状、渐变、滤镜载入方式及使用:1、笔刷载入方式: 打开PS,编辑-->预设管理器-->载入-->然后点你
- 组合模式是把一个类别归为一个整体,并且组织多个整体之间的关系,使用通过树形结构来描述所有整体。一般的编写方式为一个类别对象下添加多个该对象的
- 最近在学习的时候遇到了一个问题始终没有解决,这个博客写的也不是完全解决了这个问题。指示换了一种可行的思路而已。在运行一些显示动态的图片时,P
- 一、图片验证码django-simple-captcha配置1.在pycharm中,File====》Settings====》Projec