使用pandas库对csv文件进行筛选保存
作者:笛在月明楼 发布时间:2022-12-25 04:55:10
这个操作现在看来真没啥难的,但是我找相关的资料真的找了好久。
多数大佬都是直接pandas官网甩我脸上,然后举一个入门级的例子。
https://pandas.pydata.org/docs/reference/index.html
首先导入pandas库
import pandas as pd
然后使用read_csv来打开指定的csv文件
df = pd.read_csv('./IP2LOCATION.csv',encoding= 'utf-8')
这个函数里面需要写入csv文件的路径,如果是把csv文件保存到了python的工程文件夹下,则只需要./文件名即可,然后encoding='utf-8'是使用utf-8方式编码,有时候需要换成gbk。
虽然我们读取的是csv文件,但其实由于我们使用的是pandas库,所以我们实际获得的是一个DataFrame的数据结构。
可以使用print(type(df))进行检验
print(type(df))
DataFrame 是表格型的数据结构。因此,我们可以将其当做表格。DataFrame 是以表格类似展示,而且还包含行标签、列标签。
我们可以添加一个列标签,使用方法为pandas.DataFrame.columns
在我们的例子中DataFrame类型的变量为df,因此使用方法为df.columns,我们添加的列标签为a、b、c、d、e、f
df.columns = ['a','b','c','d','e','f']
然后,我们想把某一列中等于特定值的那些行提取出来
可以将读出来的内容当做一个列表,然后这个列表的元素是表中的每一行,然后这每一行也是一个列表,也就是列表中的列表。
比如,我想将表中第5列中值为Andhra Pradesh的行提取出来,并且由于我们之前定义了第五列的列标签为e
因此代码为:
data = df[df['e'] == 'Andhra Pradesh']
最后我们可以通过pandas中的to_csv,来将筛选出来的数据保存到新的csv文件中。
data.to_csv('my_IP2LOCATION.csv')
用法为表名.to_csv('所要保存地方的路径/表名.csv')
最后总结一下我们的代码
import pandas as pd
df = pd.read_csv('./IP2LOCATION.csv',encoding= 'utf-8')
# print(type(df))
df.columns = ['a','b','c','d','e','f']
data = df[df['e'] == 'Andhra Pradesh']
data.to_csv('my_IP2LOCATION.csv')
IP2LOCATION.csv内容如下:
总共有759727行
然后经过我们的筛选后的my_IP2LOCATION.csv
只有3461行
PS:可以使用print(len(df.values))来查看行数
来源:https://www.cnblogs.com/cyx-b/p/12897807.html
猜你喜欢
- python3.6.2环境安装配置图文教程,具体如下一、需要下载的软件》python3.6.2.exe (也可以选择更新的版本) ----
- 通过在File->setting->File and Code Templates设置模板代码,这样就可以在新建python文件
- Mac 下 Flask 框架 workon命令找不到 ---- 最终解决方案(详解具体实现操作过程中遇到的坑)2018年08月17日 00:
- 前言: 上一篇讲了Python排序问题中比较经典的三个方法,(链接:关于Python排
- 做了一个Python的小项目。利用了一点python的可视化技巧,做出烟花绽放的效果,文章的灵感来自网络上一位大神。一.编译环境Pychar
- 使用正则表达式的几个步骤:1、用import re 导入正则表达式模块;2、用re.compile()函数创建一个Regex对象;3、用Re
- class Node: def __init__(self,dataval=None): self.d
- 前言selenium处理文件上传大致会有两种情况,一种是文件上传使用的是input标签元素,即<input type="fi
- PDO::lastInsertIdPDO::lastInsertId — 返回最后插入行的ID或序列值(PHP 5 >= 5.1.0,
- 一个动态载入asp树源码。把 node.htc, style.css 保存与 css 目录下. index.asp subtree.asp
- array和asarray都可以将结构数据转化为ndarray,但是主要区别就是当数据源是ndarray时,array仍然会copy出一个副
- 申明如下:1 本着大家都学习的目的,我们只研究官方对应的4.0板本,请大家注意尊重开发者,保护知识产权,商业使用,请到官方购买正板!2 文章
- 一、BN(Batch Normalization)算法1. 对数据进行归一化处理的重要性神经网络学习过程的本质就是学习数据分布,在训练数据与
- 本文实例讲述了vue+php实现的微博留言功能。分享给大家供大家参考,具体如下:html部分:<!doctype html>&l
- PyTorch创建自己的数据集图片文件在同一的文件夹下思路是继承 torch.utils.data.Dataset,并重点重写其 __get
- import time, randomclass GuessNum: def __init__(self
- 前言看到这篇文章我就默认你已经在你的电脑上使用 pipenv搭建好了虚拟环境并且设置好了开发环境(pycharm)。如果没有,请参照这篇文章
- 之前版本的代理中,可以使用fiddler进行HTTP包的代理,但是代理HTTPS包时,执行错误 self._sslobj.do_
- 给静态网页加密的方法有很多,有的简单有的复杂。前两天看见有人问静态网页加密问题,就写了这个代码思路:加密时:先把用户的密钥A用md5加密为B
- 本文实例讲述了Python实现矩阵加法和乘法的方法。分享给大家供大家参考,具体如下:本来以为python的矩阵用list表示出来应该很简单可