python pandas库的安装和创建
作者:bugingcode 发布时间:2023-09-25 22:49:02
pandas
对于数据分析的人员来说都是必须熟悉的第三方库,pandas
在科学计算上有很大的优势,特别是对于数据分析人员来说,相当的重要。python中有了Numpy
,但是Numpy
还是比较数学化,还需要有一种库能够更加具体的代表数据模型,我们都非常的清楚在数据处理中EXCEL
扮演着非常重要的作用,表格的模式是数据模型最好的一种展现形式。
pandas
是对表格数据模型在python上的模拟,它有简单的像SQL
对数据的处理,能够方便的在python上实现。
pandas 的安装
pandas
在python上的安装同样的使用pip
进行:
pip install pandas
pandas 创建对象
pandas
有两种数据结构:Series
和 DataFrame
。
Series
Series
像python中的数据list
一样,每个数据都有自己的索引。从list
创建 Series
。
>>> import pandas as pd
>>> s1 = pd.Series([100,23,'bugingcode'])
>>> s1
0 100
1 23
2 bugingcode
dtype: object
>>>
在Series
中添加相应的索引:
>>> import numpy as np
>>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
>>> ts
在index中设置索引值是一个从1到366的值。
Series
的数据结构最像的是python中的字典,从字典中创建Series
:
sd = {'xiaoming':14,'tom':15,'john':13}
s4 = pd.Series(sd)
这时候可以看到Series
已经是自带索引index。
pandas
本身跟 python的另外一个第三方库Matplotlib
有很多的连接,Matplotlib
一个最经常用到的是用来展示数据的,如果还对Matplotlib
不了解的话,后面的章节会进行介绍,现在先拿过来直接用下,如果还没有安装的话,一样的用pip
命令安装 pip install Matplotlib
, 展示如下数据:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
ts.plot()
plt.show()
一个不规则的图形,在数据分析中,时间是一个重要的特性,因为很多数据都是跟时间是有关系的,销售额跟时间有关系,天气跟时间有关系。。。,在pandas
中也提供了关于时间的一些函数,使用date_range
生成一系列时间。
>>> pd.date_range('01/01/2017',periods=365)
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
'2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
'2017-01-09', '2017-01-10',
...
'2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
'2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
'2017-12-30', '2017-12-31'],
dtype='datetime64[ns]', length=365, freq='D')
>>>
之前我们的图形不规则,有一个原因是数据不是连续的,使用cumsum
让数据连续:
如下:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ts = pd.Series(np.random.randn(365), index=pd.date_range('01/01/2017',periods=365))
ts = ts.cumsum()
ts.plot()
plt.show()
DataFrame
DataFrame
相当于Series
一维的一个扩展,是一种二维的数据模型,相当于EXcel表格中的数据,有横竖两种坐标,横轴很Series
一样使用index,竖轴用columns 来确定,在建立DataFrame
对象的时候,需要确定三个元素:数据,横轴,竖轴。
df = pd.DataFrame(np.random.randn(8,6), index=pd.date_range('01/01/2018',periods=8),columns=list('ABCDEF'))
print df
数据如下:
A B C D E F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
2018-01-04 -0.818066 1.629542 -0.595451 0.910141 0.160980 0.306660
2018-01-05 2.008658 0.456592 -0.839597 1.615013 0.718422 -0.564584
2018-01-06 0.480893 0.724015 -1.076434 -0.253731 0.337147 -0.028212
2018-01-07 -0.672501 0.739550 -1.316094 1.118234 -1.456680 -0.601890
2018-01-08 -1.028436 -1.036542 -0.459044 1.321962 -0.198338 -1.034822
在数据分析的过程中,很常见的一种情况是数据直接从excel
或者cvs
过来,可以excel
中读取数据到DataFrame
,数据在 DataFrame
中进行处理:
df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
print df
同样的有保存数据到excel
中 to_excel
。
处理cvs数据的函数是:read_cvs
和 to_cvs
,处理HDF5的函数为 read_hdf
和 to_hdf
。
访问DataFrame
可以跟二位数组一样的访问方式:
print df['A']
带出横轴标签:
2018-01-01 0.712636
2018-01-02 -1.292799
2018-01-03 1.762894
2018-01-04 -0.818066
2018-01-05 2.008658
2018-01-06 0.480893
2018-01-07 -0.672501
2018-01-08 -1.028436
同样的可以指定某一个元素:
print df['A']['2018-01-01']
对数组进行切片出来,认清横轴和纵轴:
>>> import pandas as pd
>>> df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
>>> df[:][0:3]
A B C D E F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
>>>
DataFrame 涉及的较多的函数,接下来会有更多的介绍。
来源:https://www.cnblogs.com/bugingcode/p/8310032.html
猜你喜欢
- 这一段要毕业,得折磨自己两个月....这段时间还是会摆弄了javascript的.大致在下面两个方面: 1.javascript的
- 决策树之ID3算法及其Python实现,具体内容如下主要内容决策树背景知识决策树一般构建过程ID3算法分裂属性的选择ID3算法流程及其优缺点
- opencv 进行任意形状目标识别,供大家参考,具体内容如下工作中有一次需要在简单的图上进行目标识别,目标的形状不固定,并且存在一定程度上的
- 方法一:利用Cookies对象 因为Cookies对象把变量的值保存在浏览器客户端,所以可以根据Cookies保存的IsVoted的值来判断
- 读取nc数据相关信息#导入库import netCDF4from netCDF4 import Dataset#读取数据文件nc
- 权重初始化对于训练神经网络至关重要,好的初始化权重可以有效的避免梯度消失等问题的发生。在pytorch的使用过程中有几种权重初始化的方法供大
- 导入相关包import timeimport pydashimport base64import requestsfrom lxml imp
- 如题,度娘前几条答案说的都不清不楚,俺来补上:点击下拉选项中的Edit Configuration进入如下界面:如果左侧没有出现django
- Django提供了一个新的类来帮助管理分页数据,这个类存放在django/core/paginator.py.它可以接收列表、元组或其它可迭
- 一、Python开机自动运行假如Python自启动脚本为 auto.py 。那么用root权限编辑以下文件:sudo vim /etc/rc
- 做图像识别的时候需要在图片中画出特定大小和角度的矩形框,自己写了一个函数,给定的输入是图片名称,矩形框的位置坐标,长宽和角度,直接输出画好矩
- atan 和 atan2 都是反正切函数,返回的都是弧度对于两点形成的直线,两点分别是 point(x1,y1) 和 point(x2,y2
- 这篇文章记录一个采样器都随机地从原始的数据集中抽样数据。抽样数据采用permutation。 生成任意一个下标重排,从而利用下标来提取dat
- 本文实例讲述了Django实现简单分页功能的方法。分享给大家供大家参考,具体如下:使用django的第三方模块django-pure-pag
- socket解析HTTP请求内容思路1. 解析HTTP请求的头部HTTP请求头部的结束符行为"\r\n",可以按行读取H
- 如何显示数据库里的图片?asp调用数据库中的图片并显示。怎样把数据库里的图片显示出来?我们以gif格式的图片为例,代码如下:showimag
- 前言python与C/C++不一样,它的变量使用有自己的特点,当初学python的时候,一定要记住“一切皆为对象,一切皆为对象的引用”这句话
- 详解python中的文件与目录操作一 获得当前路径1、代码1>>>import os>>>print(&
- oracle远程连接数据库,需要配置本地服务,具体步骤如下:1.2.添加新的服务3.输入服务名(例如:orcl3即服务器数据库名)4.选择T
- 在做我的友情链接批量检查工具过程中,碰到一些情况,就是对方网页会用gzip压缩。用gzip压缩的好处是,能压缩网页大小,加快网页的浏览速度,