python中kmeans聚类实现代码
作者:旭旭_哥 发布时间:2023-09-27 19:49:44
标签:python,kmeans,聚类
k-means算法思想较简单,说的通俗易懂点就是物以类聚,花了一点时间在python中实现k-means算法,k-means算法有本身的缺点,比如说k初始位置的选择,针对这个有不少人提出k-means++算法进行改进;另外一种是要对k大小的选择也没有很完善的理论,针对这个比较经典的理论是轮廓系数,二分聚类的算法确定k的大小,在最后还写了二分聚类算法的实现,代码主要参考机器学习实战那本书:
#encoding:utf-8
'''''
Created on 2015年9月21日
@author: ZHOUMEIXU204
'''
path=u"D:\\Users\\zhoumeixu204\\Desktop\\python语言机器学习\\机器学习实战代码 python\\机器学习实战代码\\machinelearninginaction\\Ch10\\"
import numpy as np
def loadDataSet(fileName): #读取数据
dataMat=[]
fr=open(fileName)
for line in fr.readlines():
curLine=line.strip().split('\t')
fltLine=map(float,curLine)
dataMat.append(fltLine)
return dataMat
def distEclud(vecA,vecB): #计算距离
return np.sqrt(np.sum(np.power(vecA-vecB,2)))
def randCent(dataSet,k): #构建镞质心
n=np.shape(dataSet)[1]
centroids=np.mat(np.zeros((k,n)))
for j in range(n):
minJ=np.min(dataSet[:,j])
rangeJ=float(np.max(dataSet[:,j])-minJ)
centroids[:,j]=minJ+rangeJ*np.random.rand(k,1)
return centroids
dataMat=np.mat(loadDataSet(path+'testSet.txt'))
print(dataMat[:,0])
# 所有数都比-inf大
# 所有数都比+inf小
def kMeans(dataSet,k,distMeas=distEclud,createCent=randCent):
m=np.shape(dataSet)[0]
clusterAssment=np.mat(np.zeros((m,2)))
centroids=createCent(dataSet,k)
clusterChanged=True
while clusterChanged:
clusterChanged=False
for i in range(m):
minDist=np.inf;minIndex=-1 #np.inf表示无穷大
for j in range(k):
distJI=distMeas(centroids[j,:],dataSet[i,:])
if distJI
minDist=distJI;minIndex=j
if clusterAssment[i,0]!=minIndex:clusterChanged=True
clusterAssment[i,:]=minIndex,minDist**2
print centroids
for cent in range(k):
ptsInClust=dataSet[np.nonzero(clusterAssment[:,0].A==cent)[0]] #[0]这里取0是指去除坐标索引值,结果会有两个
#np.nonzero函数,寻找非0元素的下标 nz=np.nonzero([1,2,3,0,0,4,0])结果为0,1,2
centroids[cent,:]=np.mean(ptsInClust,axis=0)
return centroids,clusterAssment
myCentroids,clustAssing=kMeans(dataMat,4)
print(myCentroids,clustAssing)
#二分均值聚类(bisecting k-means)
def biKmeans(dataSet,k,distMeas=distEclud):
m=np.shape(dataSet)[0]
clusterAssment=np.mat(np.zeros((m,2)))
centroid0=np.mean(dataSet,axis=0).tolist()[0]
centList=[centroid0]
for j in range(m):
clusterAssment[j,1]=distMeas(np.mat(centroid0),dataSet[j,:])**2
while (len(centList)
lowestSSE=np.Inf
for i in range(len(centList)):
ptsInCurrCluster=dataSet[np.nonzero(clusterAssment[:,0].A==i)[0],:]
centroidMat,splitClusAss=kMeans(ptsInCurrCluster,2,distMeas)
sseSplit=np.sum(splitClusAss[:,1])
sseNotSplit=np.sum(clusterAssment[np.nonzero(clusterAssment[:,0].A!=i)[0],1])
print "sseSplit, and notSplit:",sseSplit,sseNotSplit
if (sseSplit+sseNotSplit)
bestCenToSplit=i
bestNewCents=centroidMat
bestClustAss=splitClusAss.copy()
lowestSSE=sseSplit+sseNotSplit
bestClustAss[np.nonzero(bestClustAss[:,0].A==1)[0],0]=len(centList)
bestClustAss[np.nonzero(bestClustAss[:,0].A==0)[0],0]=bestCenToSplit
print "the bestCentToSplit is:",bestCenToSplit
print 'the len of bestClustAss is:',len(bestClustAss)
centList[bestCenToSplit]=bestNewCents[0,:]
centList.append(bestNewCents[1,:])
clusterAssment[np.nonzero(clusterAssment[:,0].A==bestCenToSplit)[0],:]=bestClustAss
return centList,clusterAssment
print(u"二分聚类分析结果开始")
dataMat3=np.mat(loadDataSet(path+'testSet2.txt'))
centList,myNewAssments=biKmeans(dataMat3, 3)
print(centList)
来源:http://blog.csdn.net/luoyexuge/article/details/49105177


猜你喜欢
- 目录1、算数运算符:2、赋值运算符:3、比较运算符4、逻辑运算符5、 成员运算符总结大至分为以下5类运算符号算数运算符赋值运算符比
- 直接参考以下实例,采用协程访问三个网站由于IO操作非常耗时,程序经常会处于等待状态比如请求多个网页有时候需要等待,gevent可以自动切换协
- 识别发票录入发票是一件繁琐的工作,如果可以自动识别并且录入系统,那可真是太好了。今天我们就来学习一下,如何自动识别增值税发票并且录入系统~识
- 需求:主线程开启了多个线程去干活,每个线程需要完成的时间不同,但是在干完活以后都要通知给主线程下面上代码:#!/usr/bin/python
- 【原文地址】 Tip/Trick: Supporting Full Screen Mode with Silverlight 【原文发表日期
- 本文实例为大家分享了python实现图片批量压缩程序的具体代码,供大家参考,具体内容如下说明运行环境:Win10 Pycharm
- 交待:使用的软硬件环境为Win XP SP2、SQL Server 2000 SP2个人版、普通双核台式机、1000M局域网,A机为已使用的
- 对于一般的图像提取轮廓,介绍了一个很好的方法,但是对于有噪声的图像,并不能很好地捕获到目标物体。比如对于我的鼠标,提取的轮廓效果并不好,因为
- 本文列出了HTML4标签的默认样式列表,对网页设计者来说这个应该很有用。原文来自:W3C (http://www.w3.org/TR/CSS
- 前言在上一章中,我们通过基础的搭建,成功的渲染了列表页面.但是,其中的问题是很多的.这一章,我们来解决这些问题.使用 v-bind 绑定数据
- 之前安装mysql时未做总结,换新电脑,补上安装记录,安装的时候,找了些网友的安装记录,发现好多坑1、mysql-5.7.12-winx64
- Python安装流程:一.下载在网上(输入网址https://www.python.org/downloads/)下载Windows最新的p
- 什么是生成器?生成器是一个包含了特殊关键字yield的函数。当被调用的时候,生成器函数返回一个生成器。可以使用send,throw,clos
- bytes 和 bytearraybytes 和 bytearray 都是二进制世界的成员,用二进制的方式去理解才能看清他的本质。理解byt
- 本文实例讲述了python简单实现旋转图片的方法。分享给大家供大家参考。具体实现方法如下:# rotate an image counter
- 本文实例为大家分享了python批量文件重命名的具体代码,供大家参考,具体内容如下问题描述最近遇到朋友求助,如何将大量文件名前面的某些字符删
- 代码: <input type="text" value="fisker" onclick=&
- 1.解读tensorflow权重文件,透过 tf.train.NewCheckpointReader函数。2.reader.get_vari
- 两个代码,一个是把python当微信操作,可以查看自己的好友信息,群信息等。还可以定时发送文本,文件等。效果就和你本人操作一样,没差别。还有
- 经常会遇到这样一个情况:浏览器弹出对话框,提示脚本运行时间过长,询问“停止”还是“继续”。那究竟各个浏览器是如何判断在什么时候才弹出此对话框