使用python实现knn算法
作者:chenge_j 发布时间:2022-01-26 09:33:45
标签:python,knn
本文实例为大家分享了python实现knn算法的具体代码,供大家参考,具体内容如下
knn算法描述
对需要分类的点依次执行以下操作:
1.计算已知类别数据集中每个点与该点之间的距离
2.按照距离递增顺序排序
3.选取与该点距离最近的k个点
4.确定前k个点所在类别出现的频率
5.返回前k个点出现频率最高的类别作为该点的预测分类
knn算法实现
数据处理
#从文件中读取数据,返回的数据和分类均为二维数组
def loadDataSet(filename):
dataSet = []
labels = []
fr = open(filename)
for line in fr.readlines():
lineArr = line.strip().split(",")
dataSet.append([float(lineArr[0]),float(lineArr[1])])
labels.append([float(lineArr[2])])
return dataSet , labels
knn算法
#计算两个向量之间的欧氏距离
def calDist(X1 , X2):
sum = 0
for x1 , x2 in zip(X1 , X2):
sum += (x1 - x2) ** 2
return sum ** 0.5
def knn(data , dataSet , labels , k):
n = shape(dataSet)[0]
for i in range(n):
dist = calDist(data , dataSet[i])
#只记录两点之间的距离和已知点的类别
labels[i].append(dist)
#按照距离递增排序
labels.sort(key=lambda x:x[1])
count = {}
#统计每个类别出现的频率
for i in range(k):
key = labels[i][0]
if count.has_key(key):
count[key] += 1
else : count[key] = 1
#按频率递减排序
sortCount = sorted(count.items(),key=lambda item:item[1],reverse=True)
return sortCount[0][0]#返回频率最高的key,即label
结果测试
已知类别数据(来源于西瓜书+虚构)
0.697,0.460,1
0.774,0.376,1
0.720,0.330,1
0.634,0.264,1
0.608,0.318,1
0.556,0.215,1
0.403,0.237,1
0.481,0.149,1
0.437,0.211,1
0.525,0.186,1
0.666,0.091,0
0.639,0.161,0
0.657,0.198,0
0.593,0.042,0
0.719,0.103,0
0.671,0.196,0
0.703,0.121,0
0.614,0.116,0
绘图方法
def drawPoints(data , dataSet, labels):
xcord1 = [];
ycord1 = [];
xcord2 = [];
ycord2 = [];
for i in range(shape(dataSet)[0]):
if labels[i][0] == 0:
xcord1.append(dataSet[i][0])
ycord1.append(dataSet[i][1])
if labels[i][0] == 1:
xcord2.append(dataSet[i][0])
ycord2.append(dataSet[i][1])
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(xcord1, ycord1, s=30, c='blue', marker='s',label=0)
ax.scatter(xcord2, ycord2, s=30, c='green',label=1)
ax.scatter(data[0], data[1], s=30, c='red',label="testdata")
plt.legend(loc='upper right')
plt.show()
测试代码
dataSet , labels = loadDataSet('dataSet.txt')
data = [0.6767,0.2122]
drawPoints(data , dataSet, labels)
newlabels = knn(data, dataSet , labels , 5)
print newlabels
运行结果
来源:http://blog.csdn.net/chenge_j/article/details/72110652


猜你喜欢
- 笔者之前用R开发评分卡时,需要进行分箱计算woe及iv值,采用的R包是smbinning,它可以自动进行分箱。近期换用python开发, 也
- 1. 解决思路首先要获得这张验证码的图片,但是该图片一般都是用的js写的,不能够通过url进行下载。解决方案:截图然后根据该图片的定位和长高
- 一、基础内容import tkinter as tkfrom PIL import Image,ImageTkdef my():  
- 我就废话不多说了,大家还是直接看代码吧!file1 = 'C:\\Users\\Administrator\\Desktop\\te
- os.stat(path) :用于在给定的路径上执行一个系统 stat 的调用。path:指定路径返回值:st_mode: inode 保护
- 本文实例为大家分享了celery实现订单超时取消的具体代码,供大家参考,具体内容如下Celery官方文档中关于定时任务使用的说明项目目录结构
- 1. 反射简介1.1 反射是什么?Go语言提供了一种机制在运行时更新和检查变量的值、调用变量的方法和变量支持的内在操作,但是在编译时并不知道
- 什么是Tkinter?Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用
- 本来非常喜欢偷懒最好就是不干活那种所以最近在研究把Jenkins模块集成起来做成傻瓜界面这样就给他们用本人Python搓望大神不要喷,多多指
- 本文实例讲述了Python实现的合并两个有序数组算法。分享给大家供大家参考,具体如下:思路按位循环比较两个数组,较小元素的放入新数组,下标加
- 在大多数情况下,攻击者可以通过定位域管理员所登录的服务器,利用漏洞获取服务器system权限,找到域管理的账号、进程或是身份验证令牌,从而获
- 一、python下载安装下载安装python最新版本https://www.python.org/downloads/windows/这里勾
- 排名函数是SQL Server2005新加的功能。在SQL Server2005中有如下四个排名函数:1.row_number2.rank3
- csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据,比如如下的表格就可以存储为csv文件,文件内容是
- 1.原生js操作domconst dom = getElementById(‘box')2.vue官方方法:refvue中的ref是
- 新下载了一个Pycharm,建了个小demo,期间产生了一个sqlite3文件,由于是第一次打开,就弹出选择打开方式的对话框,手一块直接点了
- 前言在诸多的管理类,办公类等系统中,树形结构展示随处可见,以“部门”或"机构"来说,接触过的同学应该都知道,最终展示到页
- 你家中的CD、VCD一定很多吧?是不是常遇到为找一张CD把一抽屉的碟子翻得乱七八糟的情况,你一定没少受埋怨——你不想整理它们一下?如:影片是
- PyCharm 应该是大多数 python 开发者的首选 IDE,每天我们都在上面敲着熟悉的代码,写出一个又一个奇妙的功能。它是帮助用户在使
- Rel-License 是微格式的开发标准之一,简单的说就是通过给引用标签(通常是链接)加上REL属性,来标明所引用链接/数据与文章的关系。