位置：首页>> 网络编程>> Python编程>> Python数据处理的三个实用技巧分享

Python数据处理的三个实用技巧分享

作者：Python学习与数据挖掘　　发布时间：2023-07-01 23:37:13　

标签：Python,数据处理,技巧

我使用的 Pandas 版本如下，顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下：

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后，正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
Rank Title Genre ... Votes Revenue (Millions) Metascore
0 1 Guardians of the Galaxy Action,Adventure,Sci-Fi ... 757074 333.13 76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列：

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除：

>>> df.head(1) # df 变为 11列
Rank Genre ... Revenue (Millions) Metascore
0 1 Action,Adventure,Sci-Fi ... 333.13 76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta，显示 meta 前 3 行：

>>> meta.head(3)
Title
0 Guardians of the Galaxy
1 Prometheus
2 Split

标题是由单词组成，中间用空格分隔。

# .str.count(" ") + 1 得到单词个数
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1
>>> meta.head(3) # words_count 列代表单词个数
Title words_count
0 Guardians of the Galaxy 4
1 Prometheus 1
2 Split 1

3 Genre 频次统计

下面统计电影 Genre 的频次，

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ，最高频为出现 50 次的 Action,Adventure,Sci-Fi 类，次之为 48 次的 Drama 类：

>>> vc.head()
Action,Adventure,Sci-Fi 50
Drama 48
Comedy,Drama,Romance 35
Comedy 32
Drama,Romance 31
Name: Genre, dtype: int64

展示 Top5 的饼状图：

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

来源：https://blog.csdn.net/weixin_38037405/article/details/123869850

0

投稿

猜你喜欢

mysql与mssql的md5加密语句
1. mysql的md5 mysql存在系统函数md5(“xxxxx”);2. mssql的md5&nb
Python使用遗传算法解决最大流问题
本文为大家分享了Python遗传算法解决最大流问题，供大家参考，具体内容如下Generate_matrixdef Generate_matr
pytorch网络模型构建场景的问题介绍
记录使用pytorch构建网络模型过程遇到的点1. 网络模型构建中的问题1.1 输入变量是Tensor张量各个模块和网络模型的输入，一定要是
关于Python3的import问题(pycharm可以运行命令行import错误)
以前从来没有写过特别多的代码，这次在阅读论文的时候跑别人的代码的时候出现了很多import的问题，这里我想跟大家分享一下，我在Ubuntu系
几款优秀的中文字体设计
中文字体设计发展到现在，风格越来越多样化，特别是在广告（美术）字体方面，因为字数少局限小，优秀的作品层出不穷，比较突出的应用在标志设计唱片
pytorch中的优化器optimizer.param_groups用法
optimizer.param_groups：是长度为2的list，其中的元素是2个字典；optimizer.param_groups[0
pandas object格式转float64格式的方法
在数据处理过程中比如从CSV文件中导入数据data_df = pd.read_csv("names.csv")在处理之前
分析Python读取文件时的路径问题
Python在读取文件内容时的路径问题，值得深究一下.我想讨论的重点还是在绝对路径上面.在这之前我们先看一下1：相对路径这张图演示了在相对路
Python 3.6 中使用pdfminer解析pdf文件的实现
所使用python环境为最新的3.6版本一、安装pdfminer模块安装anaconda后，直接可以通过pip安装pip install
一篇文章带你了解kali局域网攻击
前言很久以前的博客才发现，发布一下。这个系列以后有时间再做。arp攻击arp路由链表,感兴趣的自行百度,我的博客我的笔记.路由指向介绍两个东
python 猴子补丁(monkey patch)
写了一段时间java切回写python偶尔会出现一些小麻烦，比如：在java中自定义对象变成json串很简单，调用一个方法就行，但同样的转换
Go语言使用select{}阻塞main函数介绍
很多时候我们需要让main函数不退出，让它在后台一直执行，例如：func main() { for i := 0;
Python使用googletrans报错的解决方法
问题最近在工作中发现了一个问题，Python代码一直用着免费的Google翻译API插件googletrans，这两天突然就报错了：Trac
参考sql2012存储过程写的统计所有用户表尺寸大小的示例
可以结合sp_MSforeachdb再遍历所有用户数据库查看所有表的尺寸大小，注意它的参数@sql不能超过nvarchar(2000)，这里
深入学习Python中的上下文管理器与else块
前言本文主要个大家介绍了关于Python上下文管理器与else块的相关内容，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧。
浅谈Python 对象内存占用
一切皆是对象在 Python 一切皆是对象，包括所有类型的常量与变量，整型，布尔型，甚至函数。参见stackoverflow上的一个问题
pycharm 使用心得（三）Hello world！
1，新建一个项目File --> New Project...2，新建一个文件右键单击刚建好的helloWord项目，选择New --
Python SQLite3数据库操作类分享
接触Python时间也不是很长的，最近有个项目需要分析数据，于是选用Python为编程语言，除了语言特性外主要还是看重Python对于SQL
JSQL SQLProxy 的 php 版本代码
<?php date_default_timezone_set("PRC"); $host = stripslas
Python执行时间的几种计算方法
首先说一下我遇到的坑，生产上遇到的问题，我调度Python脚本执行并监控这个进程，python脚本运行时间远远大于python脚本中自己统计

Python访问MongoDB,并且转换成Dataframe的方法

Python实现比较两个文件夹中代码变化的方法

浅析Python3爬虫登录模拟

python实现公司年会抽奖程序

Python通用验证码识别OCR库之ddddocr验证码识别

linux下编译boost.python简单方法

Django中Forms的使用代码解析

python实现KNN近邻算法

pytorch实践线性模型3d详解

利用python汇总统计多张Excel

酷音铃声怎么设置来电秀？酷音铃声置来电秀的方法

win10 0xc0000001安全模式进不了怎么办？win10出现0xc0000001的解决方法

Android关于FTP文件上传和下载功能详解

Excel中进行表格导入Word汇总的操作方法

Windows10 RS2的发布时间将被推迟到2017年

Python中三元表达式的几种写法介绍

家国梦手游火车次数如何计算？火车货物次数一览

金铲铲之战瑟提技能属性怎么样

Excel中表格快速对多列进行排序的操作方法

手把手教你使用PPT做专业级海报

手机版 网络编程 asp之家 www.aspxhome.com