python实现K最近邻算法
作者:zoujm-hust12 发布时间:2021-06-18 04:05:46
KNN核心算法函数,具体内容如下
#! /usr/bin/env python3
# -*- coding: utf-8 -*-
# fileName : KNNdistance.py
# author : zoujiameng@aliyun.com.cn
import math
def getMaxLocate(target): # 查找target中最大值的locate
maxValue = float("-inFinIty")
for i in range(len(target)):
if maxValue < target[i]:
maxValue = target[i]
flag = i
return flag
def KDistance(K, dest, source):
destlen = len(dest)
source1len = len(source[1])
sourcelen = len(source)
KNN = []
locate = source # 准备从source中剔除N-K个最大值
if destlen == source1len:
for i in range(sourcelen):
delta = 0
for j in range(source1len):# 毕达哥拉斯公式
delta += (dest[j] - source[i][j])*(dest[j] - source[i][j])
KNN.append(math.sqrt(delta))
for k in range(sourcelen, K, -1):
flag = getMaxLocate(KNN)
#print("%s 最大元素位置为%d" % (KNN, flag))
KNN.remove(KNN[flag]);
locate.remove(locate[flag])# 移除对应位置的元素
#print(locate)
return locate # 返回最终K个最接近的元素
else:
return None
假设你在伯克利开个小小的面包店,每天都做新鲜面包,需要根据如下一组特征预测当天该烤多少条面包:
a. 天气指数1~5(1表示天气很糟,5表示天气非常好);
b. 是不是周末或节假日(周末或节假日为1,否则为0);
c. 有没有活动(1表示有,0表示没有)。
已知
historyA(5, 1, 0) = 300
historyB(3, 1, 1) = 225
historyC(1, 1, 0) = 75
historyD(4, 0, 1) = 200
historyE(4, 0, 0) = 150
historyF(2, 0, 0) = 50
回归:周末,天气不错
Now(4, 1, 0) = ?
#! /usr/bin/env python3
# -*- coding: utf-8 -*-
# fileName : KNNdistance.py
# author : zoujiameng@aliyun.com.cn
if __name__ == "__main__":
history = {}
history[5, 1, 0] = 300
history[3, 1, 1] = 225
history[1, 1, 0] = 75
history[4, 0, 1] = 200
history[4, 0, 0] = 150
history[2, 0, 0] = 50
dest = [4, 1, 0]
source = []
for i in history:
source.append(i)
print(source)
from KNNdistance import KDistance
K = 4
locate = KDistance(K, dest, source)
avg = 0
for i in range(len(locate)):
avg+=history[locate[i]]
avg/=K
print("回归结果:今天应该烤%d个面包" % round(avg))
KNN算法:
创建分类系统
分类(分组),特征抽取(得到相似程度)
回归,即预测数值
KNN算法真的是很有用,堪称你进入神奇的机器学习领域的领路人!机器学习旨在让计算机更聪明。你见过一个机器学习的例子:创建推荐系统。
OCR指的是光学字符识别 (optical character recognition),这意味着你可拍摄印刷页面的照片,计算机将自动识别出其中的文字。Google使用OCR来实现图书数字化。
一般而言,OCR算法提取线段、点和曲线等特征。
OCR中的特征提取要复杂得多,但再复杂的技术也是基于KNN等简单理念的。这些理念也可用于语音识别和人脸识别。你将照片上传到Facebook时,它有时候能够自动标出照片中的人物,这是机器学习在发挥作用!
OCR的第一步是查看大量的数字图像并提取特征,这被称为训练(training)。大多数机器学习算法都包含训练的步骤:要让计算机完成任务,必须先训练它。
samples:
a. 垃圾邮件过滤器, 使用一种简单算法——朴素贝叶斯分类器(Naive Bayes classifier)
b. 预测股票市场, 使用机器学习来预测股票市场的涨跌真的很难。对于股票市场,如何挑选合适的特征呢?股票昨天涨了,今天也会涨,这样的特征合适吗?又或者每年五月份股票市场都以绿盘报收,这样的预测可行吗?在根据以往的数据来预测未来方面,没有万无一失的方法。未来很难预测,由于涉及的变量太多,这几乎是不可能完成的任务。
conclude:
机器学习是个很有趣的领域,只要下定决心,你就能很深入地了解它。
来源:http://blog.csdn.net/shentong1/article/details/78749566


猜你喜欢
- 做软件开发时基本都会涉及到数据的使用,比如最简单用户登录注册,这用户信息则需要使用数据库做存储管理。而在项目开发测试过程最常使用的数据库则是
- Anaconda 是一个旗舰版的python安装包, 因为普通的python没有库, 如果需要安装一些重要的库, 要经常一个一个下载,会非常
- 最近准备使用Python+Hadoop+Pandas进行一些深度的分析与机器学习相关工作。(当然随着学习过程的进展,现在准备使用Python
- 单例模式单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整
- 情况一:列表中的数字是连续数字(从小到大)from itertools import groupbylst = [1, 2, 3, 5, 6
- 下面说说主要实现思路: 1、存取图片 (1)、将图片文件转换为二进制并直接存进sql server //UploadHelper.cs //
- python写的简单的学生管理系统,练习python语法。可以运行在windows和linux下,python 2.7。#!/usr/loc
- 1. 用Python每天给女神发送舔狗问候用Python自动发送最基本的邮件(主题+收件人)知识点邮件结构以263企业邮为例邮件形式内容最基
- 什么是索引 拿汉语字典的目录页(索引)打比方:正如汉语字典中的汉字按页存放一样,SQL Server中的数据记录也是按页存放的,每页容量一般
- 前言亲人工作考试,公司给的题库好像是直接从数据库导出的表格Excel形式,在移动端上非常难看,需要不断左右上下滑动,看不了多少题眼就瞎了,遂
- elasticsearch 的client ,通过 NewClient 建立连接,通过 NewClient 中的 Set.URL设置访问的地
- 不进行计算时,生成器和list空间占用import timefrom memory_profiler import profile@prof
- 昨天又翻了下前段时间WD内部培训的幻灯片,发现了kejun推荐的一篇好文:Javascript Closures,看了之后受益匪浅。这篇文章
- 连接mysql常用工具mysql作为数据库服务器来运行,任何满足mysql通信规范的软件都可以作为客户端来连接服务器。常用的客户端:navi
- 最近需要做集团的SRC系统。暂无安全研发,所以只能找我这个小菜兼职开发。系统使用Django框架,在整个过程中,有许多奇特的需求。在某项需求
- names=["zhao00","qian01","sun02","l
- string是c#中的类 String是.net Framework的类 用string需要通过再次编译,所以直接用String速度会更快·
- 文本框 textarea 限制输入文字个数的的javascript代码,我们经常在评论留言页面我们需要在客户端限制访客的留言长度,当然最好我
- 可能是我“火星”了,不过在 空虚 的 Blog 中学到的一招。这个技巧的原理是利用 iframe 载入本机各盘符的根目录,然后判断 ifra
- JDBC(Java Database Connectivity),即Java数据库连接。通过JDBC编程,可以使Java应用程序和数据库进行