Pandas实现数据拼接的操作方法详解
作者:Mr数据杨 发布时间:2023-08-16 02:45:40
数据科学领域日常使用 Python 处理大规模数据集的时候经常需要使用到合并、链接的方式进行数据集的整合,其中应用的数据类型包括 Series 和 DataFrame,可以使用的方法也很多,比如本文中介绍的 .merge()、 .join() 和 .concat() 三种方法,进行拼接处理后的数据集可以发挥最大的用途。
merge 操作
.merge() 方法是用于组合通用列或索引上的数据,这个方法有点类似于 MySQL 中的 join 操作,可以实现左拼接、右拼接、全连接等操作。
通过关键字的索引进行拼接,实现多对一、一对多、多对多(笛卡尔乘积)连接。
merge 中参数解释:
how:定义合并方式,选择参数有 『inner』,『outer』, 『left’』,『right』。
on:定义2个 DataFrame 中都必须包含的列用于连接(索引键)。
left_on 和 right_on:指定要合并的左侧或右侧对象中存在的列或索引。
left_index 和 right_index:默认为 False,设置为以索引列作为合并基准。
suffixes:字符串元组,用于附加到不是合并键的相同列名。
merge 拼接方式
一张图就能看明白不同关键字参数 merger 的方式。
merge 举例
数据读取
我们要进行势力所属和人物直接关系的拼接操作,读取的数据包括下面的2个列表,并将 人物历史登入数据 中没有势力的数据剔除。
import pandas as pd
country = pd.read_excel("Romance of the Three Kingdoms 13/势力列表.xlsx")
people = pd.read_excel("Romance of the Three Kingdoms 13/人物历史登入数据.xlsx")
# 剔除不包含的势力数据,即武将在野的状态
people = people[people["勢力"]!="-"]
country.head()
people.head()
内部联接
使用 merge 默认参数可以直接进行内部连接,匹配两个DataFrame交集的结果。
将人物和所属势力进行一个拼接,这里我们取的是这个人物最终归属的势力,即改人物数据聚合后的最后一条数据信息。
people_new = people.groupby('名前').nth(-1)
people_new["名前"] = people_new.index
people_new.reset_index(drop=True,inplace=True)
people_new
merge 中DataFrame的顺序决定了拼接结果的顺序。
inner_merged_total = pd.merge(country,people_new,on=["勢力"])
inner_merged_total.head()
inner_merged_total = pd.merge(people_new,country,on=["勢力"])
inner_merged_total.head()
外连接
外连接(也称为完全外连接)中,来自两个 DataFrame 的所有行都将出现在新的 DataFrame 中。
本质上对于数据全的 df_A 和包含的 df_B 进行 outer 拼接,相当于 pd.merge(df_A ,df_B,on=[“key”])。
outer_merged = pd.merge(people_new,country,how="outer",on=["勢力"])
outer_merged.head()
如果我们不剔除在野武将的数据的话会发现是整张表单进行拼接。
country = pd.read_excel("Romance of the Three Kingdoms 13/势力列表.xlsx")
people = pd.read_excel("Romance of the Three Kingdoms 13/人物历史登入数据.xlsx")
outer_merged = pd.merge(people_new,country,how="outer",on=["勢力"])
outer_merged
左连接
新合并的 DataFrame 与左侧 DataFrame 中的所有行一起保留(即merge中的第一个dataframe),同时丢弃右侧 DataFrame 中在左侧 DataFrame 的键列中没有匹配的行。
left_merged = pd.merge(people_new,country,how="left",on=["勢力"])
left_merged
右连接
新合并的 DataFrame 与右侧 DataFrame 中的所有行一起保留(即merge中的第二个dataframe),同时丢弃右侧 DataFrame 中在左侧 DataFrame 的键列中没有匹配的行。
right_merged = pd.merge(people_new,country,how="right",on=["勢力"])
right_merged
join 操作
join 操作和 merge 很相似,是在列或索引上组合数据,join 相当于指定了 merge 中的第一个 DataFreme 。并且命名冲突的列可以定义后缀进行重新命名。
这个结果和之前的左右 merger 很相似。
join 中参数解释:
other:定义要拼接的 DataFrame。
on:指定左侧 DataFrame 的可选列或索引名称。如果设置为 None,这是默认 index 连接。
how:与 merge 中的 how 具有相同,如果不指定列则使用索引拼接。
lsuffix 和 rsuffix:类似 merge() 中的后缀。
sort:对生成后的 DataFrame 进行排序。
join 举例
people_new.join(country, lsuffix="left", rsuffix="right")
仅仅是index的横向拼接。
concat 操作
concat 操作起来就比较灵活,可以进行横向的拼接操作,也可以进行纵向的拼接操作。
纵向拼接操作
横拼接操作
concat 中参数解释:
objs:要连接的任何数据对象。可以是List,Serices,DataFrame,Dict 等等。
axis:连接的轴。默认值为0(行轴),1(纵直)连接。
join:类似于 merger 中的 how 参数,只接受值 inner 或 outer 。
ignore_index:默认为False。True 为设置新的组合数据集将不会保留 axis 参数中指定的轴中的原始索引值。
keys:构建分层索引,用于查询不同的行来自的原始数据集。
copy:是否要复制源数据,默认值为True。
concat 举例
我们使用三国的宝物数据来观察,数据 74 行。
import pandas as pd
items = pd.read_excel("Romance of the Three Kingdoms 13/道具列表.xlsx")
items.head()
横向拼接后,保持数据最大行数 74。
pd.concat([items, items], axis=1)
纵向拼接后,最大行数变成 74 的 2倍。
pd.concat([items, items], axis=0)
append 举例
append 也是 DataFrame 数据进行拼接的有效方式,方式同 concat 的纵向拼接,返回的结果需要对变量重新定义才能生效。
注意下面2个 append 行数的区别
items.append(items)
items
items = items.append(items)
items
来源:https://blog.csdn.net/qq_20288327/article/details/124269511


猜你喜欢
- 本文实例讲述了Python有序查找算法之二分法。分享给大家供大家参考,具体如下:二分法是一种快速查找的方法,时间复杂度低,逻辑简单易懂,总的
- 任务说明:编写一个钱币定位系统,其不仅能够检测出输入图像中各个钱币的边缘,同时,还能给出各个钱币的圆心坐标与半径。效果代码实现Canny边缘
- 本文实例讲述了python妹子图简单爬虫实现方法。分享给大家供大家参考。具体如下:#!/usr/bin/env python#coding:
- 前言sklearn是python的重要机器学习库,其中封装了大量的机器学习算法,如:分类、回归、降维以及聚类;还包含了监督学习、非监督学习、
- 本文主要介绍了Opencv图片生成视频,分享给大家,具体如下:生成视频import random as rdimport cv2 as cv
- 一、观察者模式观察者模式,必须包含 “观察者” 和 “被观察者&rdqu
- Python3实现旋转数组的3种算法下面是Python3实现的旋转数组的3种算法。一、题目给定一个数组,将数组中的元素向右移动 k 个位置,
- random 模块中的常用函数random()返回一个位于区间 [0,1] 内的实数;uniform(a, b)返回一个位于区间 [a,b]
- 从官方文档知道linux上面编译安装的mysql默认的连接为100个,这样对于网站的需求来说是远远不够的。 mysql官方告诉我们需要修改m
- 看下面这个函数def test(): sum = 3/0if __name__ == '__main__': test()除
- 本文实例讲述了C#实现Excel表数据导入Sql Server数据库中的方法。分享给大家供大家参考,具体如下:Excel表数据导入Sql S
- 要很好地领会Ajax技术的关键是了解超文本传输协议(HTTP),该协议用来传输网页、图像以及因特网上在浏览器与服务器间传输的其他类型文件。只
- 在开发Web应用时,无一例外地需要访问数据库,以完成对数据的查询、插入、更新、删除等操作。受应用逻辑的影响,有时需要将多条数据库操作指令组成
- 圆形的绘制 :OpenCV中使用circle(img,center,radius,color,thickness=None,lineType
- 一、开发时管理数据库遇到的问题:现在开发一般都是团队开发,这样就会出现项目同步的问题,代码同步可以通过SVN工具管理起来,那数据库同步怎么办
- 前段时间我们部门的粉丝和布林同学都写过关于这个问题的文章。刚好阅读了关于这个问题的其他争论文章。所以顺便在这补充几点。首先说明这里讨论的是在
- python中shape()函数shape函数是numpy.core.fromnumeric中的函数,它的功能是读取矩阵的长度。1、shap
- 计算年、月、日需要安装组件包pip install python-dateutil当前日期时间import datetimeprint da
- 前言小程序支持webview以后,我们开发的好多h5页面,就可以直接在小程序里使用了,比如我们开发的微信商城,文章详情页,商品详情页,就可以
- 在网上找了很多资料,但是一直没有实际效果,现在终于搞定问题如下: 用的post请求,然后入参格式为json并且入参中包含中文,调用