Facebook开源一站式服务python时序利器Kats详解
作者:Python学习与数据挖掘 发布时间:2023-11-13 18:29:13
转自微信公众号:机器学习社区,经作者授权转载
时间序列分析是数据科学中一个非常重要的领域,它主要包含统计分析、检测变化点、异常检测和预测未来趋势。然而,这些时间序列技术通常由不同的库实现。有没有一种方法可以让你在一个库中获得所有这些技术?
答案是肯定的,本文中我将分享一个非常棒的工具包 Kats,它可以完美解决上述问题。
什么是 Kats?
目前时间序列分析以及建模的技术非常多,但相对散乱,本次 FaceBook 开源了 Kats,它是一款轻量级的、易于使用的、通用的时间序列分析框架,包括:预测、异常检测、多元分析和特征提取嵌入。你可以将 Kats 视为 Python 中时间序列分析的一站式工具包。
安装 Kats
pip install --upgrade pip
pip install kats
为了了解 Kats 的功能,我们将使用这个框架来分析 Kaggle 上的 StackOverflow问题计数问题。数据链接为:https://www.kaggle.com/aishu200023/stackindex
首先我们从读取数据开始。
import pandas as pd
df = pd.read_csv("MLTollsStackOverflow.csv")
# Turn the month column into datetime
df["month"] = pd.to_datetime(df["month"], format="%y-%b")
df = df.set_index("month")
现在让我们分析一下与 Python 相关的 StackOverflow 问题计数。数据被分成一列和一个测试集来评估预测。
python = df["python"].to_frame()
# Split data into train and test set
train_len = 102
train = python.iloc[:train_len]
test = python.iloc[train_len:]
将数据转换为时间序列
首先构造一个时间序列对象。我们使用time_col_name='month'
指定时间列。
from kats.consts import TimeSeriesData
# Construct TimeSeriesData object
ts = TimeSeriesData(train.reset_index(), time_col_name="month")
要绘制数据,调用plot方法:
ts.plot(cols=["python"])
酷!看起来关于 Python 的问题的数量随着时间的推移而增加。我们能预测未来30天的趋势吗?是的,我们可以和 Kats 一起做。
预测
Kats目前支持以下10种预测模型:
Linear
Quadratic
ARIMA
SARIMA
Holt-Winters
Prophet
AR-Net
LSTM
Theta
VAR
上述模型较多,让我们试一下其中两种类型吧!
从使用 Prophet 进行预测开始:
from kats.models.prophet import ProphetModel, ProphetParams
# Specify parameters
params = ProphetParams(seasonality_mode="multiplicative")
# Create a model instance
m = ProphetModel(ts, params)
# Fit mode
m.fit()
# Forecast
fcst = m.predict(steps=30, freq="MS")
fcst
可视化
m.plot()
酷!让我们通过与测试数据的比较来评估预测。
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(12, 7))
train.plot(ax=ax, label="train", color="black")
test.plot(ax=ax, color="black")
fcst.plot(x="time", y="fcst", ax=ax, color="blue")
ax.fill_between(test.index, fcst["fcst_lower"], fcst["fcst_upper"], alpha=0.5)
ax.get_legend().remove()
预报似乎很好地符合观察结果!
Holt-Winters
我们将尝试的下一个模式是Holt-Winters。它是一种捕捉季节性的方法。下面是如何在 Kats 中使用 Holt-Winters 方法。
from kats.models.holtwinters import HoltWintersParams, HoltWintersModel
import warnings
warnings.simplefilter(action='ignore')
params = HoltWintersParams(
trend="add",
seasonal="mul",
seasonal_periods=12,
)
m = HoltWintersModel(
data=ts,
params=params)
m.fit()
fcst = m.predict(steps=30, alpha = 0.1)
m.plot()
检测变化点
你有没有想过在你的时间序列中发生统计上显著的均值变化的时间?
Kats 允许使用 CUSUM 算法检测变化点。Cusum 是一种检测时间序列中均值上下移动的方法。
让我们看看如何检测 Kats 中的变化点。
from kats.consts import TimeSeriesData, TimeSeriesIterator
from kats.detectors.cusum_detection import CUSUMDetector
import matplotlib.pyplot as plt
detector = CUSUMDetector(ts)
change_points = detector.detector(change_directions=["increase", "decrease"])
print("The change point is on", change_points[0][0].start_time)
# plot the results
plt.xticks(rotation=45)
detector.plot(change_points)
plt.show()
酷!让我们尝试检测 StackOverflow 问题计数的其他类别的变化点。
首先创建一个函数来检测主题提供的更改点。
def get_ts(topic: str):
return TimeSeriesData(df[topic].to_frame().reset_index(), time_col_name="month")
def detect_change_point(topic: str):
ts = get_ts(topic)
detector = CUSUMDetector(ts)
change_points = detector.detector()
for change_point in change_points:
print("The change point is on", change_point[0].start_time)
# plot the results
plt.xticks(rotation=45)
detector.plot(change_points)
plt.show()
机器学习
detect_change_point("machine-learning")
深度学习
detect_change_point("deep-learning")
孤立点检测
你在看NLP的时间序列时看到了什么?
df["nlp"].plot()
从2018年到2019年,NLP的问题数量有所下降。
问题数量的下降是一个异常值。检测异常值很重要,因为它们可能会在下游处理中造成问题。
然而,通过查看数据来发现异常值并不总是高效和容易的。幸运的是,Kats还允许您检测时间序列中的异常值!
用kat检测异常值只需要几行行代码。
from kats.detectors.outlier import OutlierDetector
# Get time series object
ts = get_ts("nlp")
# Detect outliers
ts_outlierDetection = OutlierDetector(ts, "additive")
ts_outlierDetection.detector()
# Print outliers
outlier_range1 = ts_outlierDetection.outliers[0]
print(f"The outliers range from {outlier_range1[0]} to {outlier_range1[1]}")
The outliers range from 2018-01-01 00:00:00 to 2019-03-01 00:00:00
酷!结果证实了我们从上图中看到的情况。
时间序列特征
除了统计数据外,时间序列中还有其他一些特性,如线性、趋势强度、季节性强度、季节性参数等,您可能会感兴趣。
Kats 允许通过 TsFeatures 查找有关时间序列特征的重要信息:
from kats.tsfeatures.tsfeatures import TsFeatures
model = TsFeatures()
output_features = model.transform(ts)
output_features
小结
我们刚刚学习了如何使用 Kats 来预测、检测变化点、检测异常值和提取时间序列特征。我希望这篇文章能帮助到大家解决工作中的时间序列问题,并从数据中提取有价值的信息。
来源:https://blog.csdn.net/weixin_38037405/article/details/120122477


猜你喜欢
- 很多时候,我们都在说设计需要引导用户,尤其是在对初级用户的引导上,很大程度决定着产品能否快速聚拢用户的可能;但同样很多时候,用户并不需要引导
- 1.命名空间先看看官方文档的一段话:命名空间(Namespace)是从名称到对象的映射,大部分的命名空间都是通过 Python 字典来实现的
- bootstrap中有alert组件,如果点击关闭按钮后该组件会被删除而不是被隐藏,想再显示怎么办呢?bootstrap-alert.js源
- 一、网络爬虫网络爬虫又被称为网络蜘蛛(🕷️),我们可以把互联网想象成一个蜘蛛网,每一个网站都是一个节点,我们可以使用一只蜘蛛去各个网页抓取我
- 导语昨天看到有留言竟然说我是月更博主,我明明更新地这么勤快(心虚.jpg)。看吧,昨天刚更新过,今天又来更新了。今天还是带大家写个小游戏吧,
- 1.apache 在如下页面下载apache的for Linux 的源码包 http://www
- 一个比较好用的字符串截取函数:function substring($str, $start, $length){ //比较好用字符串截取函
- git克隆历史版本(下载指定版本的代码)步骤一:首先git clone 当前项目至文件夹步骤二:cd 进入clone下来的项目文件夹内步骤三
- 1.获取function形参个数functionName.length2.较适用的运算符delete:删除以前定义的对象属性或方法的引用vo
- 我们去一个受欢迎的地方买东西,难免会需要排队等待。如果有多个窗口的话,就会有不同队列的产生,当然每个队伍的人数也会出现参差不齐的现象。我们今
- table单元格新增行并编辑,具体内容如下需要bootstrap.min.css —— [ Bootstrap ]jquery-1.8.2.
- 一 描述720. 词典中最长的单词 - 力扣(LeetCode) (leetcode-cn.com)给出一个字符串数组 words
- 原因添加一个文件 config.ini, 理论上说该文件会以ini文件格式打开,但是不知道咋的手贱用Text格式打开了。.ini正确打开方式
- 本文实例为大家分享了python画环形图的具体代码,供大家参考,具体内容如下import osimport pandas as pdimpo
- 或许你知道,Internet Explorer 6 已经不是最先进的浏览器了。事实上,它已经八岁了,但是很多人还在使用这个不安全的浏览器。正
- SVM支持向量机是建立于统计学习理论上的一种分类算法,适合与处理具备高维特征的数据集。SVM算法的数学原理相对比较复杂,好在由于SVM算法的
- 1、例子:拟合一种函数Func,此处为一个指数函数。出处:SciPy v1.1.0 Reference Guide#Headerimport
- 一、Pyecharts简介和安装1、简介Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的
- 顾名思义,本期内容肯定是涉及编程时间,那在操作python要怎么用time这个方法呢?一起来看下吧~时间模块的定义与使用:时间模块time是
- 目录安装基本操作打开图像转换格式展示图片剪裁合并缩略图旋转滤镜二次创作画线文字总结文 | 豆豆来源:Python 技术「ID: python