Pandas.DataFrame时间序列数据处理的实现
作者:饺子大人 发布时间:2022-09-20 08:43:41
将pandas.DataFrame,pandas.Series的索引设置为datetime64 [ns]类型时,将其视为DatetimeIndex,并且可以使用各种处理时间序列数据的函数。
可以按年或月指定行,并按切片指定提取周期,这在处理包含日期和时间信息(例如日期和时间)的数据时非常方便。
在此,将对以下内容进行描述。
如何将一列现有数据指定为DatetimeIndex
读取CSV时如何指定DatetimeIndex
关于pandas.Series
如何将一列现有数据指定为DatetimeIndex
将pandas.DataFrame与默认的基于0的索引和一个字符串列作为日期。
import pandas as pd
df = pd.read_csv('./data/26/sample_date.csv')
print(df)
# date val_1 val_2
# 0 2017-11-01 65 76
# 1 2017-11-07 26 66
# 2 2017-11-18 47 47
# 3 2017-11-27 20 38
# 4 2017-12-05 65 85
# 5 2017-12-12 4 29
# 6 2017-12-22 31 54
# 7 2017-12-29 21 8
# 8 2018-01-03 98 76
# 9 2018-01-08 48 64
# 10 2018-01-19 18 48
# 11 2018-01-23 86 70
print(type(df.index))
# <class 'pandas.core.indexes.range.RangeIndex'>
print(df['date'].dtype)
# object
将to_datetime()应用于日期字符串列,并转换为datetime64 [ns]类型。
df['date'] = pd.to_datetime(df['date'])
print(df['date'].dtype)
# datetime64[ns]
使用set_index()方法将datetime64 [ns]类型的列指定为索引。
Pandas.DataFrame,重置列的行名(set_index)
索引现在是DatetimeIndex。索引的每个元素都是时间戳类型。
df.set_index('date', inplace=True)
print(df)
# val_1 val_2
# date
# 2017-11-01 65 76
# 2017-11-07 26 66
# 2017-11-18 47 47
# 2017-11-27 20 38
# 2017-12-05 65 85
# 2017-12-12 4 29
# 2017-12-22 31 54
# 2017-12-29 21 8
# 2018-01-03 98 76
# 2018-01-08 48 64
# 2018-01-19 18 48
# 2018-01-23 86 70
print(type(df.index))
# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
print(df.index[0])
print(type(df.index[0]))
# 2017-11-01 00:00:00
# <class 'pandas._libs.tslib.Timestamp'>
可以按年或月指定行,并按切片提取周期。
print(df['2018'])
# val_1 val_2
# date
# 2018-01-03 98 76
# 2018-01-08 48 64
# 2018-01-19 18 48
# 2018-01-23 86 70
print(df['2017-11'])
# val_1 val_2
# date
# 2017-11-01 65 76
# 2017-11-07 26 66
# 2017-11-18 47 47
# 2017-11-27 20 38
print(df['2017-12-15':'2018-01-15'])
# val_1 val_2
# date
# 2017-12-22 31 54
# 2017-12-29 21 8
# 2018-01-03 98 76
# 2018-01-08 48 64
还可以指定各种格式的行。
print(df.loc['01/19/2018', 'val_1'])
# 18
print(df.loc['20180103', 'val_2'])
# 76
读取CSV时如何指定DatetimeIndex
如果原始数据是CSV文件,则在使用read_csv()进行读取时可以指定DatetimeIndex。
在参数index_col中指定要用作索引的日期和时间数据的列名(或从0开始的列号),并将parse_dates设置为True。
df = pd.read_csv('./data/26/sample_date.csv', index_col='date', parse_dates=True)
print(df)
# val_1 val_2
# date
# 2017-11-01 65 76
# 2017-11-07 26 66
# 2017-11-18 47 47
# 2017-11-27 20 38
# 2017-12-05 65 85
# 2017-12-12 4 29
# 2017-12-22 31 54
# 2017-12-29 21 8
# 2018-01-03 98 76
# 2018-01-08 48 64
# 2018-01-19 18 48
# 2018-01-23 86 70
print(type(df.index))
# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
如果CSV文件的日期字符串为非标准格式,请在read_csv()的参数date_parser中指定由lambda表达式定义的解析器。
parser = lambda date: pd.to_datetime(date, format='%Y年%m月%d日')
df_jp = pd.read_csv('./data/26/sample_date_cn.csv', index_col='date', parse_dates=True, date_parser=parser)
print(df_jp)
# val_1 val_2
# date
# 2017-11-01 65 76
# 2017-11-07 26 66
# 2017-11-18 47 47
# 2017-11-27 20 38
# 2017-12-05 65 85
# 2017-12-12 4 29
# 2017-12-22 31 54
# 2017-12-29 21 8
# 2018-01-03 98 76
# 2018-01-08 48 64
# 2018-01-19 18 48
# 2018-01-23 86 70
print(type(df_jp.index))
# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
关于pandas.Series
这可能不是实际的模式,但是如果pandas.Series索引是日期字符串。
s = pd.read_csv('./data/26/sample_date.csv', index_col=0, usecols=[0, 1], squeeze=True)
print(s)
# date
# 2017-11-01 65
# 2017-11-07 26
# 2017-11-18 47
# 2017-11-27 20
# 2017-12-05 65
# 2017-12-12 4
# 2017-12-22 31
# 2017-12-29 21
# 2018-01-03 98
# 2018-01-08 48
# 2018-01-19 18
# 2018-01-23 86
# Name: val_1, dtype: int64
print(type(s))
print(type(s.index))
# <class 'pandas.core.series.Series'>
# <class 'pandas.core.indexes.base.Index'>
如果要将此索引转换为DatetimeIndex,则可以通过将用to_datetime转换的索引替换为属性索引来覆盖它。
s.index = pd.to_datetime(s.index)
print(s)
# date
# 2017-11-01 65
# 2017-11-07 26
# 2017-11-18 47
# 2017-11-27 20
# 2017-12-05 65
# 2017-12-12 4
# 2017-12-22 31
# 2017-12-29 21
# 2018-01-03 98
# 2018-01-08 48
# 2018-01-19 18
# 2018-01-23 86
# Name: val_1, dtype: int64
print(type(s))
print(type(s.index))
# <class 'pandas.core.series.Series'>
# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
print(s['2017-12-15':'2018-01-15'])
# date
# 2017-12-22 31
# 2017-12-29 21
# 2018-01-03 98
# 2018-01-08 48
# Name: val_1, dtype: int64
来源:https://blog.csdn.net/qq_18351157/article/details/108185814


猜你喜欢
- “你如何为成千上万的用户和页面提供CSS?” 这是Nicole Sullivan在她的在丹佛的Web Directions North 大会
- 需要注意的是:更改完源程序.c文件,需要对整个项目重新编译、make install,对已经生成的文件进行更新,类似于之前VS中在一个类中增
- 查看表空间的名称及大小代码如下:SQL>select t.tablespace_name, round(sum(bytes/(1024
- 内容摘要:本文介绍了对数据库的基本操作:数据记录筛选(select),更新数据库(update),删除记录(delete),添加数据记录(i
- 方法一:局部刷新我们讲述到最多的是ajax 了,当然也可以不使用ajax来刷新页面了,我们可以使用jquery中的append来给指定内容加
- pytorch geometric的GNN、GCN节点分类# -*- coding: utf-8 -*-import osimport to
- 本文实例为大家分享了python实现多人聊天室的具体代码,供大家参考,具体内容如下刚开始学习python,写了一个聊天室练练手。Server
- base64模块是用来作base64编码解码的。这种编码方式在电子邮件中是很常见的。它可以把不能作为文本显示的二进制数据编码为可显示的文本信
- strstr 定义和用法注释:该函数是二进制安全的。语法strstr(string,search,before_search)参数
- 本文实例讲述了python中二维阵列的变换方法。分享给大家供大家参考。具体方法如下:先看如下代码:arr = [ [1, 2, 3], [4
- 内容摘要合理使用渐变留白网格布局提高字体应用明确而有效的导航设计漂亮、有用的页脚介绍优秀设计和卓越设计之间的区别是比较小的。一般人可能无法解
- 多的不说,看了代码就懂了!df = pd.DataFrame ({'a' : np.random.randn(6), &nb
- 微信小程序 滚动选择器(时间日期)详解微信小程序自己封装了很多控件,用起来确实很方便,如果这是Android里面,还需要自己去定
- 01 实现我们几乎每个人都用过计算器,大家对于计算器应该都是比较熟悉的,计算器整体也是比较简单的,主要包括:显示器、键盘、运算的逻辑处理等,
- 目录一、任务二、实现(1)导库并创建画布(2)画图形(3)创建按钮和文本框(4)功能实现三、完整代码四、升级—绑定键盘事件总结一、任务用多个
- 匹配括号接下来,我们使用栈解决实际的计算机科学问题。比如我们都写过这样所示的算术表达式, ( 5 + 6 ) ∗ (
- 你是否曾经想在数据库中存储一个日期而没有时间部分,或者想存储一个时间值希望有更高的精度?在SQL Server 2008的介绍中,微软介绍了
- 五种Python下划线模式速查表:单前导下划线:_var当涉及到变量和方法名称时,单个下划线前缀有一个约定俗成的含义。 它是对程序员的一个提
- 这里假设你已经申请完微信支付1. 微信后台配置 如图我们先进行测试,所以先把测试授权目录和 测试白名单添加上。测试授权目录是你要
- 我想将一个二维数组横纵列转过来,我就不信只有我有这个需求,可是百度了好久,四海八荒都找遍了……后来证明还是大神说的google好用 ~ 第一