Python Pandas实现数据分组求平均值并填充nan的示例
作者:好男孩朋友99 发布时间:2021-03-24 11:51:30
标签:Python,Pandas,平均值,填充,nan
Python实现按某一列关键字分组,并计算各列的平均值,并用该值填充该分类该列的nan值。
DataFrame数据格式
fillna方式实现
groupby方式实现
DataFrame数据格式
以下是数据存储形式:
fillna方式实现
1、按照industryName1列,筛选出业绩
2、筛选出相同行业的Series
3、计算平均值mean,采用fillna函数填充
4、append到新DataFrame中
5、循环遍历行业名称,完成2,3,4步骤
factordatafillna = pd.DataFrame()
industrys = newfactordata1.industryName1.unique()
for ind in industrys:
t = newfactordata1.industryName1 == ind
a = newfactordata1[t].fillna(newfactordata1[t].mean())
factordatafillna = factordatafillna.append(a)
groupby方式实现
采用groupby计算,详细见代码注释
df = pd.DataFrame({'code':[1,2,3,4,5,6,7,8],
'value':[np.nan,5,7,8,9,10,11,12],
'value2':[5,np.nan,7,np.nan,9,10,11,12],
'indstry':['农业1','农业1','农业1','农业2','农业2','农业4','农业2','农业3']},
columns=['code','value','value2','indstry'],
index=list('ABCDEFGH'))
# 只留下需要处理的列
cols = [col for col in df.columns if col not in['code','indstry']]
# 分组的列
gp_col = 'indstry'
# 查询nan的列
df_na = df[cols].isna()
# 根据分组计算平均值
df_mean = df.groupby(gp_col)[cols].mean()
print(df)
# 依次处理每一列
for col in cols:
na_series = df_na[col]
names = list(df.loc[na_series,gp_col])
t = df_mean.loc[names,col]
t.index = df.loc[na_series,col].index
# 相同的index进行赋值
df.loc[na_series,col] = t
print(df)
code value value2 indstry
A 1 NaN 5.0 农业1
B 2 5.0 NaN 农业1
C 3 7.0 7.0 农业1
D 4 8.0 NaN 农业2
E 5 9.0 9.0 农业2
F 6 10.0 10.0 农业4
G 7 11.0 11.0 农业2
H 8 12.0 12.0 农业3
code value value2 indstry
A 1 6.0 5.0 农业1
B 2 5.0 6.0 农业1
C 3 7.0 7.0 农业1
D 4 8.0 10.0 农业2
E 5 9.0 9.0 农业2
F 6 10.0 10.0 农业4
G 7 11.0 11.0 农业2
H 8 12.0 12.0 农业3
来源:https://blog.csdn.net/u010383605/article/details/78879515#groupby方式实现
0
投稿
猜你喜欢
- 目前很多网站都使用ajax技术动态加载数据,和常规的网站不一样,数据时动态加载的,如果我们使用常规的方法爬取网页,得到的只是一堆html代码
- 这篇文章主要介绍了Python django框架输入汉字,数字,字符转成二维码实现详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作
- 年关将至,大家对疫情的关注度也愈发提升,本次使用PyQt5撰写100行代码写一个疫情信息快速查看工具。一.准备工作1.PyQt5PyQt 是
- 前言网上的做法基本都是下面的代码return HttpResponseForbidden()试了一下,效果一般,没有异常页面显示,最终显示的
- python实现取余操作的方法:可以利用求模运算符(%)来实现。求模运算符可以将两个数相除得到其余数。我们还可以使用divmod()函数来实
- 一、绘制线性图形执行如下代码import matplotlib.pyplot as pltdataX=[1,2,3,4]dataY=[2,4
- PHP ini_set用来设置php.ini的值,在函数执行的时候生效,脚本结束后,设置失效。无需打开php.ini文件,就能修改配置,对于
- 问题,在一个程序内构建好了一个图,运行完之后想重新使用这个图进行计算,或者想同时在train完的时候做test,就会提示***变量已存在。解
- magpierss中就用到了snoopy,这让我有点兴趣去研究下这个咚咚。再SF上,找到了这个源代码。居然就是一个类,但不要笑看哦,功能可是
- 1、方法一在使用多线程更新 MongoDB 数据时,需要注意以下几个方面:确认您的数据库驱动程序是否支持多线程。在 PyMongo 中,默认
- Supervisor 是基于 Python 的进程管理工具,只能运行在 Unix-Like 的系统上,也就是无法运行在 Windows 上。
- 本文实例讲解了Python中除法使用的注意事项,是非常重要的技巧,对于Python程序设计来说有很好的借鉴价值。具体分析如下:现来看如下示例
- 网页给人最直观的感受就是它的页面框架与构造,就像一座大楼的主体框架与形态,你可能记不起东方明珠塔和艾菲尔铁塔是用什么颜色或什么材料涂的外墙,
- 生成器(generator)概念生成器不会把结果保存在一个系列中,而是保存生成器的状态,在每次进行迭代时返回一个值,直到遇到StopIter
- Python 通过pip安装Django详细介绍经过前面的 Python 包管理工具的学习,接下来我们就要基于前面的知识,来配置 Djang
- 这篇论坛文章着重介绍了SQL Server数据库简体繁体数据混用的问题,详细内容请参考下文:我现在要说的是一个在简体繁体数据混用的时候很容易
- 本人就职于一个本地门户网站,每天网站上的天气都得更新。久而久之感到相当麻烦,于是写了一个定时的新闻小偷,帖出来大家参考一下系统
- Python计算的位数在电脑上做了一个实验,看看python能计算到多少位,一下是结果。x = math.sqrt((3))print (&
- 本文实例讲述了python实现的简单FTP上传下载文件的方法。分享给大家供大家参考。具体如下:python本身自带一个FTP模块,可以实现上
- 本文实例讲述了Python实现测试磁盘性能的方法。分享给大家供大家参考。具体如下:该代码做了如下工作:create 300000 files