python pandas遍历每行并累加进行条件过滤方式
作者:向日葵 发布时间:2023-08-07 12:41:54
pandas遍历每行并累加进行条件过滤
本次记录主要实现对每行进行排序,并保留前80%以前的偏好。
思路:
将每行的概率进行排序,然后累加,累加值小于等于0.8的偏好保留,获得一个累加过滤的dataframe,然后映射回原始数据中,保留每行的偏好。接下来是代码的实现
a = [[0.2, 0.35, 0.45], [0.1,0.2, 0.7], [0.3, 0.5, 0.2]]
data = pd.DataFrame(a, index=['user1','user2','user3'], columns=["a", "b", "c"])
sum_df=[]
for index,row in data.iterrows():
df = row.sort_values(ascending=False).cumsum()
if df[0]>0.8:
new_df = df[:1]
else:
new_df = df[df<=0.8]
sum_df.append(new_df)
sum_df = pd.DataFrame(sum_df)
print(sum_df)
这是累加之后每个用户保留的前80%偏好的类型,接下来如何将这个特征映射回去,将累加后的dataframe通过空值将其转化为0-1dataframe,再和原数据集一一对应相乘,就可以映射回去了,代码如下
d = (sum_df.notnull())*1
print(d)
final_df = d*data #将保留地特征映射到原始数据中
print(final_df)
本节内容目标明确,实现了每个用户的前80%偏好,不知道正在看的小伙伴有没有懂?可以一起讨论哦!
接下来,考虑优化这个实现的代码,前面的思路是通过两个dataframe相乘实现的,当数据集非常大的时候,效率很低,于是不用list,利用字典的形式实现
sum_df=[]
for index,row in data.iterrows():
df = row.sort_values(ascending=False).cumsum()
origin = row.to_dict() #原始每个用户值
if df[0]>0.8:
new_df = df[:1]
else:
new_df = df[df<=0.8]
name = new_df.name #user
tmp = new_df.to_dict()
for key in tmp.keys(): # 原始值映射
tmp[key] = origin[key]
tmp['user'] = name
sum_df.append(tmp)
sum_df = pd.DataFrame(sum_df).set_index('user').fillna(0)
print(sum_df)
通过字典映射效率很高,新测有效!
python DataFrame遍历
在数据分析的过程中,往往需要用到DataFrame的类型,因为这个类型就像EXCEL表格一样,便于我们个中连接、计算、统计等操作。在数据分析的过程中,避免不了的要对数据进行遍历,那么,DataFrame如何遍历呢?之前,小白每次使用时都是Google或百度,想想,还是总结一下~
小白经常用到的有三种方式,如下:
首先,先读入一个DataFrame
import pandas as pd
#读入数据
df = pd.read_table('d:/Users/chen_lib/Desktop/tmp.csv',sep=',', header='infer')
df.head()
-----------------result------------------
mas effectdate num
0 371379 2019-07-15 361
1 344985 2019-07-13 77
2 425090 2019-07-01 105
3 344983 2019-02-19 339
4 432430 2019-02-21 162
1.DataFrame.iterrows()
将DataFrame的每一行迭代为{索引,Series}对,对DataFrame的列,用row['cols']读取元素
for index, row in df.iterrows():
print(index,row['mas'],row['num'])
------------result---------------
0 371379 361
1 344985 77
2 425090 105
3 344983 339
4 432430 162
从结果可以看出,第一列就是对应的index,也就是索引,从0开始,第二第三列是自定义输出的列,这样就完成了对DataFrame的遍历。
2.DataFrame.itertuples()
将DataFrame的每一行迭代为元祖,可以通过row['cols']对元素进行访问,方法一效率高。
for row in df.itertuples():
print(getattr(row, 'mas'), getattr(row, 'num')) # 输出每一行
-------------result-----------------
371379 361
344985 77
425090 105
344983 339
432430 162
从结果可以看出,这种方法是没有index的,直接输出每一行的结果。
3.DataFrame.iteritems()
这种方法和上面两种不同,这个是按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row['cols']对元素进行访问。
for index, row in df.iteritems():
print(index,row[0],row[1],row[2])
-------------result------------------
masterhotelid 371379 344985 425090
effectdate 2019-07-15 2019-07-13 2019-07-01
quantity 361 77 105
从结果可以看出,index输出的是列名,row是用来读取第几行的数据,结果是按列展示
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。
来源:https://blog.csdn.net/mao15827639402/article/details/104053980


猜你喜欢
- 数组去重复和数组排序'数组名次 Function Sort(ary,stra) KeepChecking =&n
- 摘要:面部识别技术的应用越来越广泛,它广泛应用于安全系统、人机交互、社交媒体、医疗保健等领域。本文介绍了基于Python的人脸识别技术,包括
- mysql在查询上千万级数据的时候,通过索引可以解决大部分查询优化问题。但是在处理上亿数据的时候,索引就不那么友好了。数据表(日志)是这样的
- 那我们什么时候可以用到ibatis呢,我们用hibernate的时候会发现,有的时候hibernate不支持一些特别精确的查询,这个时候我们
- 一、媒体管道1.1、媒体管道的特性媒体管道实现了以下特性:避免重新下载最近下载的媒体指定存储位置(文件系统目录,Amazon S3 buck
- 完成asp语言对XML文档中指定节点文本的增加、删除、修改、查看 <% '-------------------
- 一.介绍多表查询就是同时查询两个或两个以上的表,因为有的时候用户在查看数据的时候,需要显示的数据来自多张表.多表查询有以下分类:交叉连接查询
- 1.子查询概念 (1)就是在查询的where子句中的判断依据是另一个查询的结果,如此就构成了一个外部的查询和一个内部的查询,这个内部的查询就
- 对于Mac上Homebrew安装的MySQL,默认情况下只能使用本地登录。而使用其它主机远程登录Mac上的MySQL则会被拒绝访问。下面修改
- IE在处理透明度上真够恶心,而且在IE7必须让元素的hasLayout为ture,要不会失效。以下是我最新处理透明度的代码:var 
- 1、生成配置文件''' 生成配置文件'''import configparse
- Truncate是SQL中的一个删除数据表内容的语句,用法是:TRUNCATE TABLE [Table Name]。下面是对Truncat
- 本文实例讲述了PHP封装的PDO数据库操作类。分享给大家供大家参考,具体如下:<?phpclass DatabaseHandler {
- 前言今天给大家分享一些Python的基础知识,想要盖好大房子,不把地基打扎实打牢怎么行呢?所以,今天咱们就来学习基础知识,这样后期学习Pyt
- 在编程中我们往往会希望能够实现这样的操作:点击Button,选择了图片,然后在窗口中的Label处显示选到的图片。那么这时候就需要如下代码:
- 前言最近用 Vue 写项目的时候,用到 axios ,因为 axios 不能用 Vue.use() (详细介绍可以参考这篇文章),所以在每个
- Accessibility—-可访问性/无障碍访问Accessibility在此处指网页的可访问性。W3C的网页可访问性定义如下:“网页可访
- 思路:<img alt="" src="/img/图片真实地址" ></img&g
- 这两天在用python的bottle框架开发后台管理系统,接口约定使用RESTful风格请求,前端使用jquery ajax与接口进行交互,
- 来,考考大家一个问题,在 MySQL 中当某一列设置为 int(0) 时会发生什么 ?为了演示这个问题,我们先要创建一个表DROP TABL