python机器学习Logistic回归原理推导
作者:是日秋和 发布时间:2022-12-17 00:45:15
前言
Logistic回归涉及到高等数学,线性代数,概率论,优化问题。本文尽量以最简单易懂的叙述方式,以少讲公式原理,多讲形象化案例为原则,给读者讲懂Logistic回归。如对数学公式过敏,引发不适,后果自负。
Logistic回归原理与推导
Logistic回归中虽然有回归的字样,但该算法是一个分类算法,如图所示,有两类数据(红点和绿点)分布如下,如果需要对两类数据进行分类,我们可以通过一条直线进行划分(w0 * x0 + w1 * x1+w2 * x2)。当新的样本(x1,x2)需要预测时,带入直线函数中,函数值大于0,则为绿色样本(正样本),否则为红样本(负样本)。
推广到高维空间中,我们需要得到一个超平面(在二维是直线,在三维是平面,在n维是n-1的超平面)切分我们的样本数据,实际上也就是求该超平面的W参数,这很类似于回归,所以取名为Logistic回归。
sigmoid函数
当然,我们不直接使用z函数,我们需要把z值转换到区间[0-1]之间,转换的z值就是判断新样本属于正样本的概率大小。 我们使用sigmoid函数完成这个转换过程,公式如下。通过观察sigmoid函数图,如图所示,当z值大于0时,σ值大于0.5,当z值小于0时,σ值小于于0.5。利用sigmoid函数,使得Logistic回归本质上是一个基于条件概率的判别模型。
目标函数
其实,我们现在就是求W,如何求W呢,我们先看下图,我们都能看出第二个图的直线切分的最好,换句话说,能让这些样本点离直线越远越好,这样对于新样本的到来,也具有很好的划分,那如何用公式表示并计算这个目标函数呢?
这时就需要这个目标函数的值最大,以此求出θ。
梯度上升法
在介绍梯度上升法之前,我们看一个中学知识:求下面函数在x等于多少时,取最大值。
解:求f(x)的导数:2x,令其为0,求得x=0时,取最大值为0。但在函数复杂时,求出导数也很难计算函数的极值,这时就需要使用梯度上升法,通过迭代,一步步逼近极值,公式如下,我们顺着导数的方向(梯度)一步步逼近。
利用梯度算法计算该函数的x值:
def f(x_old):
return -2*x_old
def cal():
x_old = 0
x_new = -6
eps = 0.01
presision = 0.00001
while abs(x_new-x_old)>presision:
x_old=x_new
x_new=x_old+eps*f(x_old)
return x_new
-0.0004892181072978443
Logistic回归实践
数据情况
读入数据,并绘图显示:
def loadDataSet():
dataMat = [];labelMat = []
fr = open('数据/Logistic/TestSet.txt')
for line in fr.readlines():
lineArr = line.strip().split()
dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
labelMat.append(int(lineArr[2]))
return dataMat, labelMat
训练算法
利用梯度迭代公式,计算W:
def sigmoid(inX):
return 1.0/(1 + np.exp(-inX))
def gradAscent(dataMatIn, labelMatIn):
dataMatrix = np.mat(dataMatIn)
labelMat = np.mat(labelMatIn).transpose()
m,n = np.shape(dataMatrix)
alpha = 0.001
maxCycles = 500
weights = np.ones((n,1))
for k in range(maxCycles):
h = sigmoid(dataMatrix * weights)
error = labelMat - h
weights = weights + alpha * dataMatrix.transpose() * error
return weights
通过计算的weights绘图,查看分类结果
算法优缺点
优点:易于理解和计算
缺点:精度不高
来源:https://juejin.cn/post/7081155423838928903


猜你喜欢
- 1、pyinstaller的使用网上资料多,此处省略2、打包时报错1、可能有些包没有安装(跑跑程序不缺库就行)2、有些包pyinstalle
- 语言更新时每一个新增的特性都是从千百万开发者需求里提取过来的,规范采用后能减少程序员的痛苦,带来便捷。我们经常会这么写function ca
- 注:本篇文章主要介绍如何在 Go 语言中定义和使用自定义类型,涉及到一定的编程基础知识和语法。如有不熟悉的地方,建议先去学习相关的基础知识。
- 在第1章项目结构分析中,我们提到Startup.cs作为整个程序的入口点,等同于传统的Global.asax文件,即:用于初始化系统级的信息
- 1. mmap内存映射文件建立一个文件的内存映射将使用操作系统虚拟内存来直接访问文件系统上的数据,而不是使用常规的I/O函数访问数据。内存映
- B-Tree 索引不同的存储引擎也可能使用不同的存储结构,i如,NDB集群存储引擎内部实现使用了T-Tree结构存储这种索引,即使其名字是B
- 一、JSON.stringify介绍JSON.stringify() 方法将一个 JavaScript 对象或值转换为
- 本文实例为大家分享了Pygame框架实现飞机大战的具体代码,供大家参考,具体内容如下飞机大战主游戏类"""项目
- 这篇文章主要介绍了Python魔法方法 容器部方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋
- 先来说说实现方式: 1、我们来假定Table中有一个已经建立了索引的主键字段ID(整数型),我们将按照这个字段来取数据进行分页。 2、页的大
- np.where共两种用法:第一种np.where(condition, x, y),即condition为条件,当满足条件输出为x,不满足
- 我就废话不多说了,大家还是直接看代码吧~type Animal struct { ID int64 Name string `gorm:&q
- 程序运行前加载1.导包前面加下划线,运行前加载2.把要加载的写在init函数里面路由设置路由的作用:根据不同的请求指定不同的控制器路由函数:
- 循环用于重复执行一些程序块。从上一讲的选择结构,我们已经看到了如何用缩进来表示程序块的隶属关系。循环也会用到类似的写法。for循环for循环
- 序 号前 缀使用的变量/范围或数据类型1a or arrArray2b or blnBoolean3bytByte4
- 参考项目描述Python 标准库DougHellmann 著 / 刘炽 等 译搜索引擎BingPyt
- 在嵌入式、尤其是机器人的python编程中,经常需要实时检测用户的键盘输入来随时控制机器人,这段代码可以帮助我们提取用户输入的字符,并在按下
- 有空余的时候自己写了一下,代码没有进行很好的规整。如果发现bug请及时通告我,谢谢 主要功能:1、点击插入表情,可选
- 在做前端界面开发的时候,遇到需要改变颜色的需求,就需要使用颜色选择器。针对这个问题,第一想法,自然是H5提供了input color,可以实
- 1,查看py文件内的所有成员及快速定位到代码块如果你的py文件代码超过200行,一定要采用这个方法,能大大提高你的代码查找效率。方法1:(1