详解Pandas之容易让人混淆的行选择和列选择
作者:kylinlin 发布时间:2023-01-15 05:12:57
在刚学Pandas时,行选择和列选择非常容易混淆,在这里进行一下讨论和归纳
本文的数据来源:https://github.com/fivethirtyeight/data/tree/master/fandango
import pandas as pd
fandango = pd.read_csv('fandango_score_comparison.csv')
原始的数据如下(截取了一部分)
行选择
Pandas进行行选择一般有三种方法:
连续多行的选择用类似于python的列表切片
按照指定的索引选择一行或多行,使用loc[]方法
按照指定的位置选择一行多多行,使用iloc[]方法
第一种,使用类似于python的列表切片
n = fandango[1:3]
从结果可以看到,和python的列表切片一样,索引号从0开始,选择了索引号1和2的数据(不包括3)
第二种,按照指定的索引选择一行或多行,使用loc[]方法
o = fandango.loc[1]
p = fandango.loc[1:3]
可以看到,o是一个Series,选择了索引号为1的那一行数据,注意p,它与第一种的列表索引最大的不同是包含了索引号为3的那一行数据
u = fandango.loc[[1,3]]
这里按照索引号选择不连续的行
第三种,按照指定的位置选择一行多多行,使用iloc[]方法
在上面的数据中,使用iloc[]和loc[]的效果是一样的,因为索引号都是从0开始并且连续不断,现在我要删除索引号为1和2的这两行
fandango_drop = fandango.drop([1,2], axis=0)
可以看到的确删除了两行数据
此时我仍然用loc[]来索引行号为2的那一行,就会出错
s = fandango_drop.loc[2]
但是,我使用iloc[]来进行一次
t = fandango_drop.iloc[2]
看到了吧,iloc[2]的意思是选择第三行的数据,也就是索引号为4的那一行数据,因为iloc[]的计算也是从0开始的,所以iloc[]适用于数据进行了筛选后造成索引号与原来不一致的情况
loc[]与iloc[]方法之间还有一个巨大的差别,那就是loc[]里的参数是对应的索引值即可,所以参数可以是整数,也可以是字符串。而iloc[]里的参数表示的是第几行的数据,所以只能是整数
列选择
列选择比较简单,只要直接把列名传递过去即可,如果有多列的数据,要单独指出列名或列的索引号
第一种,选择单列,选择了电影名称那一列
q = fandango['FILM']
第二种,通过指定列名选择多列
r = fandango[['FILM','Metacritic']]
第三种,非常容易让人混淆的,通过列的索引号选择多列
v = fandango[[0,1,2]]
其实,列也是有一个索引号的,看到这里不禁想问,那我要选择前5列呢?我不想写一个长列表,又不想逐个写出这5列的名称,能否用切片呢?
x = fandango[[0:5]]
事实证明,这是不行的,更好的方法是在参数中构建一个列表
w = fandango[list(range(5))]
更多的参考资料:http://pandas.pydata.org/pandas-docs/version/0.17.0/api.html
来源:https://www.cnblogs.com/kylinlin/p/5231404.html


猜你喜欢
- 一、数学相关1、绝对值:abs(-1)2、最大最小值:max([1,2,3])、min([1,2,3])3、序列长度:len('ab
- 将VS2017上配置OpenCV4.1.0的过程记录于此。准备工具:OpenCV:4.1.0IDE:VS2017安装环境:Win10 &nb
- 本文实例讲述了Python实现统计文本文件字数的方法。分享给大家供大家参考,具体如下:统计文本文件的字数,从当前目录下的file.txt取文
- 查看Tensor尺寸及查看数据类型Tensor尺寸查看命令:x.shape例子:input = torch.randn(20,16,50,3
- CSS重设就是由于各种浏览器解释CSS样式的初始值有所不同,导致设计师在没有定义某个CSS属性时,不同的浏览器会按照自己的默认值来为没有定义
- 在很多应用程序开发中,需要记录某些数据表的历史记录或修改痕迹,以便日后出现数据错误时进行数据排查。这种业务需求,我们可以通过数据库的触发器来
- 1. os.listdir()概述os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。例如:dir ='
- 至于对好广告的评判,不同的人有不同的标准,一些人认为那些打动人、有新意、有共鸣的广告是好广告,另一些人的观点则是:观众喜欢与否,不是广告好与
- 外键查询一个表的主键是哪些表的外键SELECTTABLE_NAME,COLUMN_NAME,CONSTRAINT_NAME,REFERENC
- ⭐️requests的使用(二)上一篇我们说了requests的简单用法,知道了如何发送请求,今天我们更深层次的来学习requests。我们
- 生活形态(Life-Style)的概念源自社会学与心理学,六十年代即有学者正式引用到市场营销领域,并运用其心理影射与多维度等特质,着力解释人
- 应该是开心网(kaixin.com)的宠物功能又升级了,这几次发来的邮件内容不仅不能让我开心,反而让我觉得很恶心。开心网注册也一段时间了,之
- 1.format() 基本用法python2.6 开始,新增了一种格式化字符串的函数str.format(),它增强了字符串格式化的功能基本
- 可能接触网站与编程设计的人都知道,一个属性值需要引号包括起来,但是有的时候就是因为没有正确设定引号类型,导致程序出错,就连我自己也是这样,我
- 该章节来开始学习分组查询,上一章节我们学习了聚合函数,默认统计的是全表范围内的数据,配合上 WHERE 就能够缩小统计的范围了。但是这并不能
- #!/usr/bin/perluse strict;use warnings;use re 'debug';sub test
- Ø 基本常用查询 --select select * from student; --all 查询所有 select
- 本文实例讲述了PHP中使用addslashes函数转义的安全性原理分析。分享给大家供大家参考。具体分析如下:先来看一下ECshop中adds
- 用下列方法可以做到: main.htm<html><body><form action="
- TensorFlow提供了TFRecords的格式来统一存储数据,理论上,TFRecords可以存储任何形式的数据。TFRecords文件中