python验证多组数据之间有无显著差异
作者:fff2zrx? 发布时间:2021-03-12 15:37:22
标签:python,验证,多组数据,显著差异
一、方差分析
1.单因素方差分析
通过箱线图可以人肉看出10组的订单量看起来差不多,为了更科学比较10组的订单量有无显著差异,我们可以利用方差分析
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('orders~C(label)',data=need_data).fit()
anova_table = anova_lm(model, typ = 2)
print(anova_table)
结果显示,p值为0.62大于0.05,不能拒绝原假设,所以这10组的订单量分布没有显著差异。
二、卡方检验
如果是比较多组之间的非连续值指标是否存在差异呢?
如检查上面10组的男女比例是否存在显著差异
计算各组观察频数:
data2=data1.melt(id_vars=['性别'],value_name='观察频数')
data2.head()
计算总体的男女比例:
rate=(data2.groupby(['性别'])['观察频数'].sum()/data2.groupby(['性别'])['观察频数'].sum().sum()).reset_index()
rate.columns=['性别','rate']
rate
计算各组用户总数:
group_sum=data2.groupby(['组别'])['观察频数'].sum().reset_index()
group_sum.columns=['组别','组内用户数']
group_sum
计算卡方值:
import math
data3=pd.merge(data2,group_sum,on=['组别'],how='left')
data3=pd.merge(data3,rate,on=['性别'],how='left')
data3['期望频数']=data3['组内用户数']*data3['rate']
data3['卡方值']=data3.apply(lambda x: math.pow((x.期望频数-x.观察频数),2)/x.期望频数,axis=1)
data3.head()
本案例的自由度为(10-1)*(2-1)=9
,选取显著性水平为0.05,查卡方分布表得临界值为18.31
因为7.01<18.31,所以不能拒绝原假设,即各组的性别分布不存在显著性差异。
来源:https://fff2zrx.blog.csdn.net/article/details/119952745


猜你喜欢
- 井字棋,英文名叫Tic-Tac-Toe,是一种在3*3格子上进行的连珠游戏,和五子棋类似,由于棋盘一般不画边框,格线排成井字故得名。游戏需要
- Web性能优化最佳实践中最重要的一条是减少HTTP请求,它也是YSlow中比重最大的一条规则。减少HTTP请求的方案主要有合并JavaScr
- 本文接上一篇博客python实现的八大排序算法part1,将继续使用python实现八大排序算法中的剩余四个:快速排序、堆排序、归并排序、基
- Numpy通过观察Python的自有数据类型,我们可以发现Python原生并不提供多维数组的操作,那么为了处理矩阵,就需要使用第三方提供的相
- DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化。DataFra
- 故障现象 Oracle Database 11g 数据库普通用户登录时提示 ORA-28002: the password will exp
- 写代码时,我们希望把一些操作放到一个代码块中,这样在代码块中执行时就可以保持在某种运行状态,而当离开该代码块时就执行另一个操作,结束当前状态
- 目录什么是虚拟 dom?为什么需要虚拟dom?虚拟dom是如何转换为真实dom的?模板和虚拟dom的关系注入挂载完整流程总结什么是虚拟 do
- 导言在前两章的做的DataList的例子里我们都是使用单列的HTML<table>来显示数据.而自定义使DataList将数据显
- 出现这个问题的原因不是'/xxx.frm'这个文件不见了,而是这些文件的权限(应该要是mysql)不知道为什么变成了root
- 如何在ADSI中查询用户属性?看看下面这个返回用户可用属性的代码实例,基本上返回了大部分可用的用户属性:<%Dim x&nb
- 一行拆分成多行1.根据某一列拆分效果:代码:if __name__ == '__main__':
- Pytorch四维Tensor转图片并保存最近在复现一篇 * 码的过程中,想要输出中间图片的结果图,通过debug发现在pytorch网络中
- 前言问题:我们在放大图片的过程中,放大的目标图像和原图图像之间会存在不同。放大的基本思想:第一步:将目标图像进行缩小到原图像的尺寸,虚拟的将
- 过年回家,都会约上亲朋好友聚聚会,会上经常会打麻将,斗地主,斗牛。在这些游戏中,斗牛是最受欢迎的,因为可以很多人一起玩,而且没有技术含量,都
- 本文实例讲述了php使用Cookie实现和用户会话的方法。分享给大家供大家参考。具体分析如下:PHP 包含了很多的函数,可以用来管理和记录用
- 本文实例讲述了Python爬取需要登录的网站实现方法。分享给大家供大家参考,具体如下:import requestsfrom lxml im
- 1.首先引入import { Toast } from 'vant'写个小列子绑定一个click事件2.写事件在method
- Mysql的增删改查语句简单实现增加记录:insert into tablename(...) values(...)//如果增加的记录包括
- 坑:在python3.7环境下,通过官方文档安装sanic即扩展插件,但是 sanic-ext包不起作用,具体的表现为:无法打开路由/doc