位置：首页>> 网络编程>> Python编程>> pandas去除重复列的实现方法

pandas去除重复列的实现方法

作者：Emily_2018　　发布时间：2022-06-27 12:37:31　

标签：pandas,去除,重复列

数据准备

假设我们目前有两个数据表：

① 一个数据表是关于三个人他们的id以及其他的几列属性信息

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randint(low=1,high=20,size=(3,4)))
data['id'] = range(1,4)
# 输出：其中，最左边的0 1 2 为其索引

② 另外一个数据表是3个用户的app操作日志信息，一个人会有多条app操作记录

sample = pd.DataFrame(np.random.randint(low=1,high=9,size=(7,1)),columns=['hhh'])
sample['id'] = [1,1,2,2,3,3,3]
# 输出：

问题描述

① 首先我们需要统计每个用户app操作记录数，比如上表可以看出用户id为1的用户有2条操作记录，用户id为3的用户有3条操作记录

s = sample.groupby('id').count()
# 输出：

② 此时，S是一个以id为索引，count出来的记录数为value的Series结构。因为考虑到后面我们需要id列进行merge，所以我们需要让id列从索引列变成真实的一列。

s = s.reset_index()
# 输出：

③ 将S与最上的data表进行merge，我们不想要看到重复的id列，甚至我们也可以将问题延伸为S与data表不止是id列的重复，还有好多条其他的列的重复，那么如何保证将它们merge之后没有重复列呢？

解决方案

第一想法是用 DataFrame.drop(‘列名') 或者用 del DataFrame[‘列名']

但是如果用该方法，会删除掉所有的重复列，而达不到我们的要求。

办法是：参考StackOverflow解答

cols_to_use = s.columns.difference(data.columns) # pandas版本在0.15及之上的都可以用这种方法，该方法找出S和data表的不同列，然后再进行merge
pd.merge(data, s[cols_to_use], left_index=True, right_index=True, how='outer')

来源：https://blog.csdn.net/qq_32618817/article/details/80676455

0

投稿

猜你喜欢

老生常谈Python中的Pickle库
简介Python 中有个序列化过程叫作 pickle，它能够实现任意对象与文本之间的相互转化，也可以实现任意对象与二进制之间的相互转化。也就
asp如何更好地保护我的网页？
用下列方法可以做到： main.htm<html><body><form action="
perl 简明教程 perl教程集合
前言：perl是什么，干什么用的？perl原来设计者的意图是用来处理字符的，80％的强项是处理字符，当然其它的很多都可以。现在很多网页也是
在js中判断checkboxlist(.net控件客户端id)是否有选中
在提交添加或修改内容时，需要对关键数据进行判空处理，如何在js中判断checkboxlist是否有选择项呢？具体操作如下： var Che
SQL Server 2000/2005/2008删除或压缩数据库日志的方法
由于数据库日志增长被设置为“无限制”，所以时间一长日志文件必然会很大，一个400G的数据库居然有600G的LOG文件，严重占用了磁盘空间。
能否用显示/隐藏层来控制FLASH播放与停止
新手，看到很多网页上有显示/隐藏的菜单，可以显示隐藏层的同时控制FLASH的播放与停止。找了好久都找不到这个功能。。。还望高人指点当点击时就
python实现对excel进行数据剔除操作实例
前言学习Python的过程中，我们会遇到Excel的各种问题。下面这篇文章主要给大家介绍了关于python对excel进行数据剔除操作的相关
python3.7+selenium模拟淘宝登录功能的实现
在使用selenium去获取淘宝商品信息时会遇到登录界面这个登录界面处理的难度在于滑动验证的实现，有的人使用微博登录，避免了滑动验证，那可不
python实现简单flappy bird
本文实例为大家分享了python实现flappy bird的简单代码，供大家参考，具体内容如下import pygamefrom pygam
mysql 表索引的一些要点
1、表的主键、外键必须有索引；2、数据量超过300的表应该有索引；3、经常与其他表进行连接的表，在连接字段上应该建立索引；4、经常出现在Wh
JavaScript之解构赋值的理解
1. ES6的新特性允许将对象或者数组'分解'成多个单独的值, 以对象的解构开始. &
详解如何在cmd命令窗口中搭建简单的python开发环境
1、快捷键win+r输入cmd回车调出cmd界面，在命令行输入python回车，显示python命令无法识别2、登陆python官网http
Python实现LR1文法的完整实例代码
一、使用步骤 1.引入库（安装Python环境、PyQt、PyQt-tools)from PyQt5 import QtCore,
Python爬虫之UserAgent的使用实例
问题: 在Python爬虫的过程中经常要模拟UserAgent, 因此自动生成UserAgent十分有用, 最近看到一个Python库(fa
asp无组件备份与还原数据库
看过数据库的备份与还原。大多数都是用组件来完成的。其实可通过sql语句来完成。由于时间关系，未对参数进行验证和界面美化。代码
详解js加减乘除精确计算
JS无法进行精确计算的bug在做CRM，二代审核需求审核详情页面时。需要按比例（后端传类似0.8的小数）把用户输入的数字显示在不同的地方。
python3实现ftp服务功能（客户端）
本文实例为大家分享了python3实现ftp服务功能的具体代码，供大家参考，具体内容如下客户端 main代码：#Author by Andy
使用Python paramiko模块利用多线程实现ssh并发执行操作
1.paramiko概述ssh是一个协议，OpenSSH是其中一个开源实现，paramiko是Python的一个库，实现了SSHv2协议(底
python批量复制图片到另一个文件夹
本文实例为大家分享了python批量复制图片到文件夹的具体代码，供大家参考，具体内容如下直接上代码：# -*- coding: utf-8
Python面向对象class类属性及子类用法分析
本文实例讲述了Python面向对象class类属性及子类用法。分享给大家供大家参考，具体如下：class类属性class Foo(objec

Python3使用turtle绘制超立方体图形示例

Python使用Mechanize模块编写爬虫的要点解析

使用tensorflow实现线性回归

Python3读取文件常用方法实例分析

python中xrange和range的区别

Python数据类型详解（三）元祖：tuple

Pycharm之如何安装cv2 [python3.6]

玩转python爬虫之URLError异常处理

python爬虫数据保存到mongoDB的实例方法

python 通过exifread读取照片信息

agent.exe是什么进程？agent.exe程序文件介绍 agent.exe会是病毒吗？

App Store最值得下载的MAC应用推荐

怎样设计网站首页？(解答)

l英雄联盟手游符文系统免费吗？lol手游符文与装备机制改动详解

Python Pandas批量读取csv文件到dataframe的方法

5个强大的磁盘工具，轻松管理磁盘的空间

Mac切换桌面快捷键操作教程

Python 相对路径和绝对路径及写法演示

王牌战士团队对抗哪些英雄强？团队战角色推荐

奇迹暖暖重岩攀越怎么搭配

手机版 网络编程 asp之家 www.aspxhome.com