一文详解Python如何优雅地对数据进行分组
作者:Python技术大本营 发布时间:2022-05-20 01:10:15
标签:Python,数据,分组
假设我们有这样一种数据:
data = [
("apple", 30), ("apple", 35),
("apple", 32), ("pear", 60),
("pear", 32), ("pear", 60),
("banana", 102), ("banana", 104)
]
# 我们希望变成如下格式
"""
[('apple', [30, 35, 32]),
('pear', [60, 32, 60]),
('banana', [102, 104])]
"""
如果是你的话,你会怎么做呢?很容易想到的一种解决方案是构造一个字典:
data = [
("apple", 30), ("apple", 35),
("apple", 32), ("pear", 60),
("pear", 32), ("pear", 60),
("banana", 102), ("banana", 104)
]
data_dict = {}
for name, count in data:
if name not in data_dict:
data_dict[name] = []
data_dict[name].append(count)
print(data_dict)
"""
{'apple': [30, 35, 32],
'pear': [60, 32, 60],
'banana': [102, 104]}
"""
print(list(data_dict.items()))
"""
[('apple', [30, 35, 32]),
('pear', [60, 32, 60]),
('banana', [102, 104])]
"""
这种方案完全没有问题,不过我们还可以写的更优雅一些,也就是使用字典的 setdefault 方法:
data = [
("apple", 30), ("apple", 35),
("apple", 32), ("pear", 60),
("pear", 32), ("pear", 60),
("banana", 102), ("banana", 104)
]
data_dict = {}
for name, count in data:
# setdefault(k, v) 含义如下
# 当 k 不存在时,将 k: v 设置在字典中,并返回 v
# 当 k 存在时,直接返回 k 对应值
data_dict.setdefault(name, []).append(count)
print(list(data_dict.items()))
"""
[('apple', [30, 35, 32]),
('pear', [60, 32, 60]),
('banana', [102, 104])]
"""
setdefault 是一个非常方便的方法,但是使用频率却不怎么高,或者说该方法不太让人喜欢。主要是每次调用都要给一个初始值,比如代码中的空列表 []。另外这里的初始值可以任意,如果你希望添加的时候还能实现去重效果,那么就将空列表换成空集合即可。
或者我们还可以使用 defaultdict,它位于 collections 模块中。
from collections import defaultdict
data = [
("apple", 30), ("apple", 35),
("apple", 32), ("pear", 60),
("pear", 32), ("pear", 60),
("banana", 102), ("banana", 104)
]
# 里面接收一个 callable
# 当访问的 k 不存在时,返回 callable 调用之后的值
data_dict1 = defaultdict(list)
for name, count in data:
data_dict1[name].append(count)
print(list(data_dict1.items()))
"""
[('apple', [30, 35, 32]),
('pear', [60, 32, 60]),
('banana', [102, 104])]
"""
# 也可以指定为 set
data_dict2 = defaultdict(set)
for name, count in data:
data_dict2[name].add(count)
print(list(data_dict2.items()))
"""
[('apple', {32, 35, 30}),
('pear', {32, 60}),
('banana', {104, 102})]
"""
总的来说,defaultdict 和字典的 setdefault 方法非常类似,我们使用 setdefault 即可。
当然啦,关于分组,还有一种特殊情况,就是词频统计。假设我们想统计可迭代对象中,每个元素出现的次数该怎么做呢?
data = ["apple", "apple", "apple",
"pear", "pear", "pear",
"banana", "banana"]
data_dict = {}
for item in data:
# 此处不能使用 setdefault,因为它是函数
# .setdefault(item, 0) += 1 是不符合语法规则的
if item not in data_dict:
data_dict[item] = 0
data_dict[item] += 1
print(data_dict)
"""
{'apple': 3, 'pear': 3, 'banana': 2}
"""
# 或者使用 defaultdict
from collections import defaultdict
data_dict = defaultdict(int)
for item in data:
data_dict[item] += 1
print(data_dict)
"""
defaultdict(<class 'int'>,
{'apple': 3, 'pear': 3, 'banana': 2})
"""
然而说到词频统计,我们还可以使用 collections 下的 Counter 类。
from collections import Counter
data = ["apple", "apple", "apple",
"pear", "pear", "pear",
"banana", "banana"]
data_dict = Counter(data)
# 直接搞定,Counter 已经包含了我们之前的逻辑
print(data_dict)
"""
Counter({'apple': 3, 'pear': 3, 'banana': 2})
"""
# Counter 继承 dict,除了支持字典操作之外
# 还提供了很多其它操作,其中一个就是 most_common
# 用于选择出现频率最高的几个元素
print(data_dict.most_common(2))
"""
[('apple', 3), ('pear', 3)]
"""
还是很简单的。
来源:https://segmentfault.com/a/1190000042098698


猜你喜欢
- 最近在改个程序用到了在js中设置css的float属性,以为和平常的写法一样,原来不是,只好去请教google,原来...首先大家先来看一下
- 一提到python,大家经常会提到爬虫,爬虫近来兴起的原因我觉得主要还是因为大数据的原因,大数据导致了我们的数据不在只存在于自己的服务器,而
- 对于一般的图像提取轮廓,介绍了一个很好的方法,但是对于有噪声的图像,并不能很好地捕获到目标物体。比如对于我的鼠标,提取的轮廓效果并不好,因为
- python的scipy.stats模块是连续型随机变量的公共方法,可以产生随机数,通常是以正态分布作为scipy.stats的基本使用方法
- 该方是基于uiautomator2如下版本进行验证的:PS C:\windows\system32> pip show uiautom
- 前言new = old[:]Python老鸟都知道以上代码是什么意思。它复制列表old到new。它对于新手来说是种困惑而且应该避免使用这种方
- 本文实例讲述了PHP实现断点续传乱序合并文件的方法。分享给大家供大家参考,具体如下:分割成多个文件发送,由于网络原因并不上先发就能发接收到。
- 一 前言 提出这个问题,是因为在工作中发现 mysql 中的 user 表的 id 默认
- 1、项目背景对于不会PS的小伙伴,抠图是一个难度系数想当高的活儿,某宝照片抠图和证件照换底色均价都是5元RMB,所以今天要介绍的这款神工具,
- 在使用reflect包获取函数,并调用时,总出现这个报错:panic: reflect: call of reflect.Value.Cal
- 1 输出大写字母、小写字母、大小写字母、数字、大小写字母和数字1.1输出小写:找到小写a(97)到z(122)的的ASCII码,然后转义为字
- 获取所有文章数据o := orm.NewOrm()qs := o.QueryTable("Article")12获取总条
- 1. 引言在Python中有很多好玩的花式打印,对厉害的高手来说可能是小菜一碟,对入门的小白来说往往让人望而退步,我们今天就来挑战下面三个常
- 起步要介绍一个非常方便的 Django 扩展包-- django-hosts 。它能够提供在不同的子域名下访问不同的 app。例如,在项目中
- 今天有个需要需要传递中文参数给URL但是在GBK环境下的脚本传递GBK的参数老是给我报UNICODE的解码错误。烦的很。所以我们果断选择用u
- 一、Tesseract文字识别是ORC的一部分内容,ORC的意思是光学字符识别,通俗讲就是文字识别。Tesseract是一个用于文字识别的工
- 使用tensorflow训练模型的时候,模型持久化对我们来说非常重要。如果我们的模型比较复杂,需要的数据比较多,那么在模型的训练时间会耗时很
- 似乎讨论分页的人很少,难道大家都沉迷于limit m,n?在有索引的情况下,limit m,n速度足够,可是在复杂条件搜索时,where s
- 导包效果展示以下截图显示的撤回消息类型依次是文字消息、微信自带表情、图片、语音、定位地图、名片、公众号文章、音乐、视频。有群里撤回的,也有个
- 2。date_default_timezone_set("PRC"); 3。PHP&