python 层次聚类算法图文示例
作者:冷冻工厂 发布时间:2023-09-25 05:57:46
引言
层次聚类是一种构建聚类层次结构的聚类算法。该算法从分配给它们自己的集群的所有数据点开始。然后将两个最近的集群合并到同一个集群中。最后,当只剩下一个集群时,该算法终止。
可以通过观察树状图来选择最能描述不同组的簇数的决定。聚类数的最佳选择是树状图中垂直线的数量,该水平线可以垂直横穿最大距离而不与聚类相交。
1. 简介
层次聚类(Hierarchical clustering)是一种常见的聚类算法,它将数据点逐步地合并成越来越大的簇,直到达到某个停止条件。层次聚类可以分为两种方法:自下而上的聚合法(agglomerative)和自上而下的分 裂法(divisive)。在聚合法中,每个数据点最初被视为一个单独的簇,然后每次迭代将距离最近的两个簇合并为一个新的簇,直到所有点都合并成一个大簇。在分 裂法中,最初的簇被视为一个单独的簇,然后每次迭代将当前簇中距离最远的两个点分成两个新的簇,直到每个点都是一个簇为止。
2. 工作原理
使每个数据点成为单点簇→形成N个簇
取距离最近的两个数据点,使之成为一个簇→形成N-1个簇
取最近的两个簇并使它们成为一个簇→形成N-2个簇。
重复第 3 步,直到只剩下一个集群。
有几种方法可以测量聚类之间的距离以确定聚类规则,它们通常称为链接方法。一些常见的链接方法是:
完全链接:两个集群之间的距离定义为每个集群中两点之间的最长距离。
单链接:两个集群之间的距离定义为每个集群中两点之间的最短距离。此链接可用于检测数据集中的高值,这些值可能是异常值,因为它们将在最后合并。
平均链接:两个聚类之间的距离定义为一个聚类中的每个点与另一个聚类中的每个点之间的平均距离。
Centroid-linkage:找到聚类1的质心和聚类2的质心,然后在合并前计算两者之间的距离。
不同的链接方法导致不同的集群。
3. 树状图
树状图是一种显示不同数据集之间的层次关系。正如已经说过的,树状图包含了层次聚类算法的记忆,因此只需查看树状图就可以知道聚类是如何形成的。
4. Code
import numpy as np
from scipy.cluster.hierarchy import dendrogram, linkage
import matplotlib.pyplot as plt
# 生成随机数据
np.random.seed(0)
X = np.random.randn(15, 2)
# 计算距离矩阵
Z = linkage(X, 'ward')
# 绘制树形图
plt.figure(figsize=(10, 5))
plt.title('Hierarchical Clustering Dendrogram')
plt.xlabel('Sample index')
plt.ylabel('Distance')
dendrogram(
Z,
leaf_rotation=90.,
leaf_font_size=8.,
)
plt.show()
在这个示例中,我们首先使用NumPy生成了一个随机的二维数据集X,其中包含15个样本。然后,我们使用SciPy中的linkage函数计算距离矩阵Z,这里使用了“ward”方法来计算簇之间的距离。最后,我们使用Matplotlib来绘制树形图,其中leaf_rotation和leaf_font_size参数用于调整叶子节点的旋转角度和字体大小。
这个示例中生成的树形图显示了不同样本之间的距离,并且根据距离合并了不同的簇。可以通过树形图来确定最优的簇的数量,可以在图中找到最大距离的位置,然后画一条水平线,这个水平线和垂直线的交点就是最优的簇的数量。
来源:https://juejin.cn/post/7211467514412646455


猜你喜欢
- 一、python线程的模块1.1 thread和threading模块thread模块提供了基本的线程和锁的支持threading提供了更高
- 背景:调试服务最好的方式就是直接上机实践。对在公司的员工来说,在同一套服务上协同开发比在单独的环境上开发,应该会更有感觉。有问题可以一起发现
- 一、慢查询日志概念对于SQL和索引的优化问题,我们会使用explain去分析SQL语句。但是真正的企业级项目有成千上万条SQL,我们不可能从
- 简单的说,在vue中我们使用模板HTML语法组建页面的,使用render函数我们可以用js语言来构建DOM因为vue是虚拟DOM,所以在拿到
- PJBLOG3的相关日志,现在网上好像还没有谁有相关的修改说明吧,反正升级之后,正好有必要,也就写了个,在这里也给大家共享共享。当前相关日志
- 本文实例讲述了JS使用eval()动态创建变量的方法。分享给大家供大家参考,具体如下:一、什么是eval()函数?eval_r()函数可计算
- 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一
- 前言:测试过程中获取App相关log后,如何快速找出crash的部分,并导出到新的文件呢?感兴趣的话,继续往下看吧~思路:遍历多个日志文件,
- 本文介绍了python selenium UI自动化解决验证码的4种方法,分享给大家,具体如下:测试环境windows7+firefox50
- 效果演示基础源码1.基础设置(tools部分)这个部分设置马里奥以及游戏中蘑菇等怪的的移动设置。import osimport pygame
- 2. 从函数开始2.1. 定义一个函数如下定义了一个求和函数:def add(x, y): return
- 需求是在某一指定的时刻执行操作网上的建议多为通过调用Scheduler的add_date_job实现不过APScheduler 3.0.1与
- 1、pyqtgraph库数据可视化效果还不错,特别是窗体程序中图像交互性较好;安装也很方便,用 pip 安装。2、在Python中新建一个
- 主要讲 except 和 not in 的性能上的区别。 CREATE TABLE tb1(ID int) CREATE TABLE tb2
- 前言由于学校科技立项的项目需要实现Android App端与PHP Web端的简单数据交互的实现,当前场景是Web端使用的是MySql数据库
- 再之前同时安装 python 后 只需把环境变量PATH 里面改为PATH=C:\Python36-32\Scripts\;C:\Pytho
- 今天要做一个量子隧穿的的演示动画,在CSDN上看了很多大佬的文章,然而忙了接近半天才做好这件事。把踩过的坑记一下,同时这段代码也是值得记录的
- 在开发django应用的过程中,使用开发者模式启动服务是特别方便的一件事,只需要 python manage.py runserver 就可
- 本文实例为大家分享了JS实现京东快递单号查询的具体代码,供大家参考,具体内容如下<!DOCTYPE html><html
- 一、验证码示例 二、php验证码类,secoder.class.php<?php/** * 安全验证码 * * 安全的验证码要:验证