Python通过两个dataframe用for循环求笛卡尔积
作者:何未生 发布时间:2023-11-02 04:32:24
标签:Python,dataframe,for,笛卡尔
合并两个没有共同列的dataframe,相当于按行号求笛卡尔积。
最终效果如下
以下代码是参考别人的代码修改的:
def cartesian_df(A,B):
new_df = pd.DataFrame(columns=list(A).extend(list(B)))
for _,A_row in A.iterrows():
for _,B_row in B.iterrows():
row = A_row.append(B_row)
new_df = new_df.append(row,ignore_index=True)
return new_df
#这个方法,如果两张表列名重复会出错
这段代码的思路是对两个表的每一行进行循环,运行速度比较慢,复杂度应该是O(m*n),m是A表的行数,n是B表的行数。
因为我用到的合并表行数比较多,时间太慢,所以针对上面的代码进行了优化。
思路是利用dataframe的merge功能,先循环复制A表,将循环次数添加为列,直接使用merge合并,复杂度应该为O(n)(n是B表的行数),代码如下:
def cartesian_df(df_a,df_b):
'求两个dataframe的笛卡尔积'
#df_a 复制n次,索引用复制次数
new_df_a = pd.DataFrame(columns=list(df_a))
for i in range(0,df_b.shape[0]):
df_a['merge_index'] = i
new_df_a = new_df_a.append(df_a,ignore_index=True)
#df_b 设置索引为行数
df_b.reset_index(inplace = True, drop =True)
df_b['merge_index'] = df_b.index
#merge
new_df = pd.merge(new_df_a,df_b,on=['merge_index'],how='left').drop(['merge_index'],axis = 1)
return new_df
#两个原始表中不能有列名'merge_index'
使用一张8行的表和一张142行的表进行测试,优化前的方法用时:5.560689926147461秒
优化后的方法用时:0.1296539306640625秒(142行的表作为b表)
根据计算原理,将行数少的表放在b表可以更快,测试用时:0.021603107452392578秒(8行的表作为b表)
这个速度已经达到预期,基本感觉不到等待,优化完成。
来源:https://www.cnblogs.com/hewish/p/12785348.html
0
投稿
猜你喜欢
- 场景一:A网站全站均为UTF-8编码,B网站全站为GB2312编码。A网站提供一段JS代码供B网站调用,该代码会动态生成一个FORM表单,以
- Python3 abs() 函数描述abs() 函数返回数字的绝对值。语法以下是 abs() 方法的语法:abs( x )参数x-- 数值表
- 如下所示:' '.join(line.split())例如:'line dd',运行line.split()
- 背景:Email地址存于MSSql一用户信息表中,数量上万。公司自有服务器,集SMTP,POP3,WWW,FTP,MSSql,DNS等多种服
- 一.ajax介绍1、ajax的含义Ajax全称“Async Javascript And XML”即:异步的javascript和XML。它
- 这篇文章主要介绍了Python远程开发环境部署与调试过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需
- 1、在Asp页面首部加入Response.Buffer = True Response.ExpiresAbso
- cmake-2.8.3.tar.gzmysql-5.5.8.tar.gz一,cmake-2.8.3的安装:tar -zxf cmake-2.
- 第一种方法:在php.ini文件里改变display_errors和error_reporting的值,没有的直接加上; 第一处修改; di
- 以下是服务端代码var HTTPREQUEST_PROXYSETTING_DEFAULT = 0;var&nb
- 个人觉得还是不要使用中文作为文件名的好,虽然我们用的语言是中文,毕竟中文容易出现问题,兼容性不好。用Dreamweaver制作网页时,如果插
- 最近经常遇到xmlHttp组件的问题, 今天终于有空将解决过程中的经验整理下来了! ^o^一、在运用xmlhttp组件编
- 导读我们在使用selenium打开google浏览器的时候,默认打开的是一个新的浏览器窗口,而且里面不带有任何的浏览器缓存信息。当我们想要爬
- 项目有时要用一些Ajax的效果,因为比较简单,也就没有去用什么Ajax.net之类的东西,手写代码也就实现了。 第二天,有人反馈错
- 在国内外大中型数据库管理系统中,把ORACLE作为数据库管理平台的用户比较多。RACLE 不论是数据库管理能力还是安全性都是无可非
- 本文实例为大家分享了python多线程http压力测试的具体代码,供大家参考,具体内容如下#coding=utf-8import sysim
- 注:所有文字,除注明网站类型外,其他均针对企业站点.请随时注意留言,若修改则会在首页提示文字里标注.若牵扯到业务方面的问题,我可能不会做过多
- 在数据库开发方面,通过单表所表现的实现,有时候需要组合查询来找到我们需要的记录集,这时候我们就会用到连接查询。连接查询主要包括以下几个方面:
- 发送普通邮件发送文本和html普通邮件如下:from email.header import Headerfrom email.mime.t
- 不论你做什么样的设计,色彩都是一个不容忽视的问题。色彩以一种“隐蔽”的方式传达的各种信息,这些信息会影响观看者的心理和感受,左右他们的判断和