Python数据分析Numpy中常用相关性函数
作者:PursuitingPeak 发布时间:2022-03-26 08:25:34
摘要:
NumPy中包含大量的函数,这些函数的设计初衷是能更方便地使用,掌握解这些函数,可以提升自己的工作效率。这些函数包括数组元素的选取和多项式运算等。下面通过实例进行详细了解。
前述通过对某公司股票的收盘价的分析,了解了某些Numpy的一些函数。通常实际中,某公司的股价被另外一家公司的股价紧紧跟随,它们可能是同领域的竞争对手,也可能是同一公司下的不同的子公司。可能因两家公司经营的业务类型相同,面临同样的挑战,需要相同的原料和资源,并且争夺同类型的客户。
实际中,有很多这样的例子,如果要检验一下它们是否真的存在关联。一种方法就是看看两个公司股票收益率的相关性,强相关性意味着它们之间存在一定的关联性(特别是当所用的数据不够充足时,误差可能更大)
一、股票相关性分析
1、导出两个相关的股票数据():
2、分别从CSV文件中读入相关数据
close = np.loadtxt('data036.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)
new_close = np.loadtxt('data999.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)
3、协方差描述的是两个变量共同变化的趋势,其实就是归一化前的相关系数。使用 cov 函数计算股票收益率的协方差矩阵,完整代码如下:
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
def datestr2num(s): #定义一个函数
return datetime.strptime(s.decode('ascii'),"%Y-%m-%d").date().weekday()
close=np.loadtxt('data036.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True) #导入data036.csv数据
new_close=np.loadtxt('data999.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)#导入data999.csv数据
covariance = np.cov(close,new_close) #使用numpy.cov() 函数计算两个数列的协方差矩阵
print(close.mean()) #求close的平均值
print(new_close.mean())#求new_close的平均值
print('covariance:','\n',covariance)
运行结果:
48.40690476190476
18.85157142857143
covariance:
[[30.46934553 1.5201865 ]
[ 1.5201865 8.96031113]]
1)用 diagonal 函数查看矩阵对角线上的元素
print ("对角元素:", covariance.diagonal()) # diagonal查看对角上的元素
运行结果:
对角元素: [30.46934553 8.96031113]
2)使用 trace 函数计算矩阵的迹,即对角线上元素之和
print("Covariance trace", covariance.trace()) #对角线上元素之和
3)两个向量的相关系数被定义为协方差除以各自标准差的乘积。计算向量 a 和 b 的相关系数的公式:corr(a,b)=cov(a,b)/(std(a)*std(b))
covar = covariance/ (np.std(close) * np.std(new_close))
print("相关系数矩阵:", covar)
运行结果:
相关系数矩阵: [[1.84843969 0.09222295]
[0.09222295 0.54358223]]
注意:由于covariance是一个矩阵,因而得到的covar也是一个矩阵
相关系数是两只股票的相关程度。相关系数的取值范围在 -1 到 1 之间。根据定义,一组数值与自身的相关系数等于 1 ,numpy中使用 corrcoef 函数计算相关系数
closecorr = np.corrcoef(close,new_close)
print("相关系数:",'\n', closecorr )
运行结果:
相关系数:
[[1. 0.09200338]
[0.09200338 1. ]]
对角线上的元素即close和new_close与自身的相关系数,因此均为1。相关系数矩阵是关于对角线对称的,因此另外两个元素的值相等,表示close和new_close的相关系数等于new_close和close的相关系数。
判断两只股票的价格走势是否同步的要点是,它们的差值偏离了平均差值2倍于标准差的距离,则认为这两只股票走势不同步。代码如下:
difference = close - new_close
avg = np.mean(difference)
dev = np.std(difference)
print ("Out of sync:", np.abs(difference[-1]-avg)>2*dev)
运行结果:
Out of sync: False
二、多项式
微积分里有泰勒展开,也就是用一个无穷级数来表示一个可微的函数。实际上,任何可微的(从而也是连续的)函数都可以用一个N次多项式来估计,而比N次幂更高阶的部分为无穷小量可忽略不计。
NumPy中的 ployfit 函数可以用多项式去拟合一系列数据点,无论这些数据点是否来自连续函数都适用。
继续使用close和new_close的股票价格数据。用一个三次多项式去拟合两只股票收盘价的差价。
t = np.arange(len(close)) #得到close数列的长度
poly = np.polyfit(t, close - new_close, 3) #利用长度t和两只股票的价差,生成一个三项式,三项式有3个系数和一个常量
print("Polynomial fit", poly)
运行结果:
Polynomial fit: [ 1.61308827e-07 -4.34114354e-04 1.84480028e-01 1.33680483e+01]
用我们刚刚得到的多项式对象以及 polyval 函数,推断下一个差值:
print ("Next value:", np.polyval(poly, t[-1] + 1)) #用生成的多项式拟合求下一个差值
print(difference[-1]) #打印最后一个实际的差值
运行结果:
Next value: 26.222936287829654
26.21
在极限情况下,差值可以在某个点为0。使用 roots 函数找出拟合的多项式函数什么时候到达0值:
print( "Roots", np.roots(poly))#root返回多项式的根
运行结果:
Roots [2138.21411788 615.9134063 -62.92728874]
三、求极值的知识
极值是函数的最大值或最小值。在高等代数微积分中,这些极值点位于函数的导数为0的位置,然后再求导数函数的根,即找出原多项式函数的极值点。
1)使用 polyder 函数对多项式函数求导
der = np.polyder(poly)
print("Derivative", der)
2)求出导数函数的根,即找出原多项式函数的极值点
print( "Extremas", np.roots(der))
运行后即得到如下:
Derivative: [ 4.83926482e-07 -8.68228709e-04 1.84480028e-01]
Extremas [1547.84609151 246.28739879]
3)用 polyval 计算多项式函数的值,并用matplotlib显示
vals = np.polyval(poly, t)
print('vals:',vals)
print('max value:', np.argmax(vals))
print('min value:', np.argmin(vals))
plt.plot(t,difference)
plt.plot(t,vals)
plt.show()
运行结果如下:
来源:https://www.cnblogs.com/codingchen/p/16327800.html


猜你喜欢
- 一、添加SVN(1)添加svn插件(2)安装的svn最好是默认路径安装的,不要问我为什么,因为很多软件都是按照默认路径找到bin的表示安装正
- 本文讲述的内容基于 Django 1.11摘要Django 中的中间件(middleware),是一个镶嵌到Django的request/r
- 最近买了个腾讯云服务器,搭建环境。该笔记用于系统上未装过mysql的干净系统第一次安装mysql。自己指定安装目录,指定数据文件目录。lin
- 使用python3调用wxpy模块,监控linux日志并定时发送消息给群组或好友,具体代码如下所示:#!/usr/bin/env pytho
- 在广大网友心目中,他们就是中国互联网搜索领域的三驾马车。无论这三家搜索巨头承不承认,在网友眼中总会来将他们进行对比比较。当然,更多时候的比较
- 记得很早以前看到过这样的一段介绍:想象你在逛街边的一家书店,如果最终你没有购买任何图书就直接离开了,店长并不会知道你来过。但是如果你买了书,
- Golang交叉编译平台的二进制文件熟悉golang的人都知道,golang交叉编译很简单的,只要设置几个环境变量就可以了# mac上编译l
- 有这样一类文章标题,喜欢学习的人肯定见过:使用Google的7个技巧Web设计中9个常见的可用性错误Adobe Photoshop 75个技
- MySQL中有许多操作符和函数可以返回字符串。本节回答这个问题:返回的字符串使用什么字符集和 校对规则?对于简单的函数,即接收字符串输入然后
- 本文实例讲述了js实现类似iphone的网页滑屏解锁功能。分享给大家供大家参考,具体如下:iphone 的出现,打破了人们的用户体验,这一用
- 模块在python编程中的地位举足轻重,熟练运用模块可以大大减少代码量,以最少的代码实现复杂的功能。下面介绍一下在python编程中如何导入
- Tips 1:新增数据表与定义字段更加直观若要建立新数据表,可以在开启数据库后,直接单击“创建”标签,在“表”选项组中单击“表”按钮,即可新
- 写 python 文件时,每个文件开头都必须注明版本和编码。每次我 touch 文件之后粘贴这两句话让我不胜其烦。由于我没有安装 pytho
- 说到机器学习,大家首先想到的可能就是Python和算法了,其实光有Python和算法是不够的,数据才是进行机器学习的前提。大多数的数据都会存
- 包含Contains(s,substr string) bool判断s是否包含substr true:包含 false:不包含例子: &nb
- SQL Server正常连接时,若不需要远程操控其他电脑,可以用Windows身份验证模式,但是涉及到远程处理时,需要通过SQL Serve
- 刚整理了一些关于javascript cookies操作的文章,发现这篇文章也不错,推荐大家一起参考,选择需要的,不足的地方主要是对路径的设
- 此问题是由于最新的pycharm在安装时自动装了vimVim插件 你可以在tools Vim emulator将对勾去掉就可以了。来源:ht
- 下面来先看一个简单例子<!DOCTYPE html><html lang="zh-CN" ng-app
- 其实,这是一个非常容易解决掉的问题。在我看来,似曾相识,呵呵,最近学JavaScript可是学会了使用var声明变量。其实,在PHP中根本不