python中Apriori算法实现讲解
作者:三年一梦 发布时间:2023-10-27 17:41:20
本文主要给大家讲解了Apriori算法的基础知识以及Apriori算法python中的实现过程,以下是所有内容:
1. Apriori算法简介
Apriori算法是挖掘布尔关联规则频繁项集的算法。Apriori算法利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,即将K-项集用于探察(k+1)项集,来穷尽数据集中的所有频繁项集。先找到频繁项集1-项集集合L1, 然后用L1找到频繁2-项集集合L2,接着用L2找L3,知道找不到频繁K-项集,找到每个Lk需要一次数据库扫描。注意:频繁项集的所有非空子集也必须是频繁的。Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率。Apriori算法由连接和剪枝两个步骤组成。
2. Apriori算法步骤
根据一个实例来解释:下图是一个交易单,I1至I5可看作5种商品。下面通过频繁项集合来找出关联规则。
假设我们的最小支持度阈值为2,即支持度计数小于2的都要删除。
上表第一行(第一项交易)表示:I1和I2和I5一起被购买。
C1至L1的过程: 只需查看支持度是否高于阈值,然后取舍。上图C1中所有阈值都大于2,故L1中都保留。
L1至C2的过程分三步:
遍历产生L1中所有可能性组合,即(I1,I2)...(I4,I5 ) 对便利产生的每个组合进行拆分,以保证频繁项集的所有非空子集也必须是频繁的。即对于(I1,I2)来说进行拆分为I1,I2.由于I1和I2在L1中都为频繁项,所以这一组合保留。对于剩下的C2根据原数据集中进行支持度计数
C2至L2的过程: 只需查看支持度是否高于阈值,然后取舍。
L2至C3的过程:
还是上面的步骤。首先生成(1,2,3)、(1,2,4)、(1,2,5)....为什么最后只剩(1,2,3)和(1,2,5)呢?因为剪枝过程:(1,2,4)拆分为(1,2)和(1,4)和(2,4).然而(1,4)在L2中不存在,即非频繁项。所有剪枝删除。然后对C3中剩下的组合进行计数。发现(1,2,3)和(1,2,5)的支持度2。迭代结束。
所以算法过程就是 Ck - Lk - Ck+1 的过程:
3.Apriori算法实现
# -*- coding: utf-8 -*-"""Created on Sat Dec 9 15:33:45 2017@author: LPS"""import numpy as npfrom itertools import combinations # 迭代工具data = [[1,2,5], [2,4], [2,3], [1,2,4], [1,3], [2,3], [1,3], [1,2,3,5], [1,2,3]]minsp = 2d = []for i in range(len(data)): d.extend(data[i])new_d = list(set(d))def satisfy(s, s_new, k): # 更新确实存在的L e =[] ss_new =[] for i in range(len(s_new)): for j in combinations(s_new[i], k): # 迭代产生所有元素可能性组合 e.append(list(j)) if ([l for l in e if l not in s]) ==[] : ss_new.append(s_new[i]) e = [] return ss_new # 筛选满足条件的结果 def count(s_new): # 返回narray格式的C num = 0 C = np.copy(s_new) C = np.column_stack((C, np.zeros(C.shape[0]))) for i in range(len(s_new)): for j in range(len(data)): if ([l for l in s_new[i] if l not in data[j]]) ==[] : num = num+1 C[i,-1] = num num = 0 return Cdef limit(L): # 删掉不满足阈值的C row = [] for i in range(L.shape[0]): if L[i,-1] < minsp : row.append(i) L = np.delete(L, row, 0) return Ldef generate(L, k): # 实现由L至C的转换 s = [] for i in range(L.shape[0]): s.append(list(L[i,:-1])) s_new = []# L = L.delete(L, -1, 1)# l = L.shape[1] for i in range(L.shape[0]-1): for j in range(i+1, L.shape[0]): if (L[j,-2]>L[i,-2]): t = list(np.copy(s[i])) t.append(L[j,-2]) s_new.append(t) # s_new为列表 s_new = satisfy(s, s_new, k) C = count(s_new) return C# 初始的C与LC = np.zeros([len(new_d), 2])for i in range(len(new_d)): C[i:] = np.array([new_d[i], d.count(new_d[i])])L = np.copy(C)L = limit(L)# 开始迭代k = 1while (np.max(L[:,-1]) > minsp): C = generate(L, k) # 由L产生C L = limit(C) # 由C产生L k = k+1# 对最终结果去重复print((list(set([tuple(t) for t in L])))# 结果为 [(1.0, 2.0, 3.0, 2.0), (1.0, 2.0, 5.0, 2.0)]
来源:https://www.cnblogs.com/king-lps/p/8013036.html


猜你喜欢
- U盘中毒了,U盘内的每个文件夹内都多了一个.lnk文件,处女座又犯了,实在不能忍,就写了个脚本把所有的.lnk文件删除了。多级目录递归删除i
- 一般我们安装Python的第三方包都会在终端执行下列命令进行安装:pip install 要安装的包名安装成功后发现在PyCharm中仍然存
- asp网站程序在国内运用很广,但是类似于im286.asp?id=20050307213811这样的url有点不利于搜索引擎的收录,也就是说
- 当需要远程办公时,使用pycharm远程连接服务器时必要的。PyCharm提供两种远程调试(Remote Debugging)的方式:配置远
- 事务处理在各种管理系统中都有着广泛的应用,比如人员管理系统,很多同步数据库操作大都需要用到事务处理。比如说,在人员管理系统中,你删除一个人员
- 本文实例为大家分享了wxPython色环电阻计算器的具体代码,供大家参考,具体内容如下import wx # 导入wxPythonclass
- 图像的全景拼接包括三大部分:特征点提取与匹配、图像配准、图像融合。1、基于SIFT的特征点的提取与匹配利用Sift提取图像的局部特征,在尺度
- 需求需要生成一个宣传的图片分享到朋友圈,这个宣传图片包含二维码,包含不同的背景图片和不同的文字。对于这种图片生成,我们考虑过使用服务端生成,
- MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包
- 还是决定冠上ajax的头衔,毕竟很多人会用这个关键词搜索。虽然我认为这只是个炒作的概念,不过不得不承认ajax叫起来要方便多了。ajax的意
- python保留两位小数:In [1]: a = 5.026In [2]: b = 5.000In [3]: round(a,2)Out[3
- Windows下的安装:下载地址:https://pypi.python.org/pypi/pyquery/#downloads下载后安装:
- 举例写文章详情页面的时候的一个场景:首先更改文章详情中的 PV,然后读取文章详情,然后根据文章详情中文章 Id 查阅该文章评论和该文章作者信
- 一、前言确保安装scikit-imagenumpy二、Dataset一个例子:# 导入需要的包import torchimport torc
- 开机运行:随系统启动的应用程序,当系统启动之后会自动加载的应用在注册表中添加启动项便可实现开机启动。代码如下:# -*- coding:ut
- 一、问题Python模块和C/C++的动态库间相互调用在实际的应用中会有所涉及,在此作一总结。二、Python调用C/C++1、Python
- 由传智播客教程整理,我们这里使用的是python2.7.x版本,就是2.7之后的版本,因为python3的改动略大,我们这里不用它。现在我们
- 今天在intellij调试spark的时候感觉每次有新的一段代码,都要重新跑一遍,如果用spark-shell,感觉也不是特别方便,如果能像
- 本文主要介绍的关于Python切片赋值的相关内容,分享出来供大家参考学习,下面来一起看看详细的介绍:昨天有同学问了我这么个问题:t = [1
- 事务隔离级别设置set global transaction isolation level read committed; //全局的se