使用pandas忽略行列索引,纵向拼接多个dataframe
作者:呆萌的代Ma 发布时间:2022-05-23 08:52:42
标签:pandas,索引,纵向,拼接,dataframe
从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表
它的思路是:
生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引。
使用方法见代码的最后一行,传入一个dataframe的list就可以了。
import pandas as pd
from random import Random
# 随机生成一堆单词作为公共的列名
def random_list(random_str_count, randomlengtd=6):
result_list = []
random = Random()
chars = "qwertyuiopasdfghjklzxcvbnm"
for str_count in range(random_str_count):
ranstr = ""
lengtd = len(chars) - 1
for str_lengtd in range(randomlengtd):
ranstr += chars[random.randint(0, lengtd)]
result_list.append(ranstr)
return result_list
def combine_as_data_location(pd_list, columns=''):
if not pd_list:
return None
old_columns = pd_list[0].columns
if columns:
new_columns = columns
else:
new_columns = random_list(pd_list[0].shape[1])
for data_df in pd_list:
# data is pandas Dataframe
data_df.columns = new_columns
result_df = pd.concat(pd_list, ignore_index=True)
if columns:
return result_df
else:
result_df.columns = old_columns
return result_df
result_df = combine_as_data_location([df1,df2,df3])
补充:pandas.concat实现竖着拼接、横着拼接DataFrame
1、concat竖着拼接(默认的竖着,axis=0)
话不多说,直接看例子:
import pandas as pd
df1=pd.DataFrame([10,12,13])
df2=pd.DataFrame([22,33,44,55])
df3=pd.DataFrame([90,94])
df1
0 | |
---|---|
0 | 10 |
1 | 12 |
2 | 13 |
df2
0 | |
---|---|
0 | 22 |
1 | 33 |
2 | 44 |
3 | 55 |
df3
0 | |
---|---|
0 | 90 |
1 | 94 |
res= pd.concat([df1,df2,df3])
res
0 | |
---|---|
0 | 10 |
1 | 12 |
2 | 13 |
0 | 22 |
1 | 33 |
2 | 44 |
3 | 55 |
0 | 90 |
1 | 94 |
如果要生成新索引,忽略原来索引怎么办?
默认有个参数ignore_index= False,将其值改为True:
res2= pd.concat([df1,df2,df3], ignore_index=True)
res2
0 | |
---|---|
0 | 10 |
1 | 12 |
2 | 13 |
3 | 22 |
4 | 33 |
5 | 44 |
6 | 55 |
7 | 90 |
8 | 94 |
2、concat横着拼接
用参数axis= 1,看例子:
res_heng= pd.concat([df1,df2,df3], axis=1)
res_heng
0 | 0 | 0 | |
---|---|---|---|
0 | 10.0 | 22 | 90.0 |
1 | 12.0 | 33 | 94.0 |
2 | 13.0 | 44 | NaN |
3 | NaN | 55 | NaN |
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
来源:https://blog.csdn.net/weixin_35757704/article/details/90177680
0
投稿
猜你喜欢
- 常用字段类型bit(0和1),datetime,int,varchar,nvarchar(可能含有中文用nvarchar) Varchar,
- import time# time模块中包含了许多与时间相关的模块,其中通过time()函数可以获取当前的时间。count = 100pri
- 代码如下: 代码如下:///<summary> /// 将两个列不同的DataTable合并成一个新的DataTab
- Python 超简单的聊天程序客户端:import socket, syshost = '10.248.27.23'# ho
- 本文实例讲述了js捐赠管理完整实现方法。分享给大家供大家参考。具体实现方法如下:index.html页面如下:<!DOCTYPE ht
- 这篇文章主要介绍了python的time模块和datetime模块实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参
- 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一
- 首先,说明一下python确实可以根据照片获取地理位置,但是也是有一定的限制条件的。获取照片地理位置的实现思路是这样的:通过提取照片中的经纬
- 本文实例为大家分享了python机器学习实现决策树的具体代码,供大家参考,具体内容如下# -*- coding: utf-8 -*-&quo
- 本文实例讲述了Python实现求解括号匹配问题的方法。分享给大家供大家参考,具体如下:这个在本科学习数据结构的时候已经接触很多了,主流的思想
- 当你标记了翻译字符串,你就需要写出(或获取已有的)对应的语言翻译信息。 这里就是它如何工作的。地域限制Django不支持把你的应用本地化到一
- 阅读上一节:美化段落文本 Ⅰweb标准知识——美化段落文本 Ⅱ懒,可能是唯一解释为什么这么长时间才写这一篇的主要原因。不述详情,以此责心。上
- 1. 为什么要使用协程在上一篇中,我们从生成器的基本认识与使用,成功过渡到了协程。但一定有许多人,只知道协程是个什么东西,但并不知道为什么要
- 1 解决方案【方案一】载入模型结构放在全局,即tensorflow会话外层。'''载入模型结构:最关键的一步'
- 本文实例讲述了Python基于最小二乘法实现曲线拟合。分享给大家供大家参考,具体如下:这里不手动实现最小二乘,调用scipy库中实现好的相关
- 登录流程:实例化一个driver,然后driver.get()发送请求最重要的:切换iframe子框架,因为豆瓣的网页中的登录那部分是一个i
- 本文实例讲述了flask框架自定义过滤器。分享给大家供大家参考,具体如下:除了一些内置的join length safe等过滤器外, fla
- Django的信号Django的信号机制不同于Linux的信号机制,Django 中的信号用于在框架执行操作时解耦。当某些动作发生的时候,系
- 本文实例讲述了Python 面向对象之封装、继承、多态操作。分享给大家供大家参考,具体如下:封装、继承、多态 是面向对象的3大特性为啥要封装
- 详细:1.闵可夫斯基距离(Minkowski Distance)2.欧氏距离(Euclidean Distance)3.曼哈顿距离(Manh