Python sklearn中的.fit与.predict的用法说明
作者:冽夫 发布时间:2023-01-03 23:54:25
我就废话不多说了,大家还是直接看代码吧~
clf=KMeans(n_clusters=5) #创建分类器对象
fit_clf=clf.fit(X) #用训练器数据拟合分类器模型
clf.predict(X) #也可以给新数据数据对其预测
print(clf.cluster_centers_) #输出5个类的聚类中心
y_pred = clf.fit_predict(X) #用训练器数据X拟合分类器模型并对训练器数据X进行预测
print(y_pred) #输出预测结果
补充知识:sklearn中调用某个机器学习模型model.predict(x)和model.predict_proba(x)的区别
model.predict_proba(x)不同于model.predict(),它返回的预测值为获得所有结果的概率。(有多少个分类结果,每行就有多少个概率,对每个结果都有一个概率值,如0、1两分类就有两个概率)
我们直接上代码,通过具体例子来进一步讲解:
python3 代码实现:
# -*- coding: utf-8 -*-
"""
Created on Sat Jul 27 21:25:39 2019
@author: ZQQ
"""
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
import numpy as np
import warnings
warnings.filterwarnings("ignore")
# 这个方法只是解决了表面,没有根治
# 数据(特征,属性)
x_train = np.array([[1,2,3],
[1,5,4],
[2,2,2],
[4,5,6],
[3,5,4],
[1,7,2]])
# 数据的标签
y_train = np.array([1, 0, 1, 1, 0, 0])
# 测试数据
x_test = np.array([[2,1,2],
[3,2,6],
[2,6,4]])
# 导入模型
model = LogisticRegression()
#model = RandomForestClassifier()
#model=XGBClassifier()
model.fit(x_train, y_train)
# 返回预测标签
print(model.predict(x_test))
print('---------------------------------------')
# 返回预测属于某标签的概率
print(model.predict_proba(x_test))
运行结果:
分析结果:
使用model.predict() :
预测[2,1,2]为1类
预测[3,2,6]为1类
预测[2,6,4]为0类
使用model.predict_proba() :
预测[2,1,2]的标签是0的概率为0.19442289,1的概率为0.80557711
预测[3,2,6]的标签是0的概率为0.04163615,1的概率为0.95836385
预测[2,6,4]的标签是0的概率为0.83059324,1的概率为0.16940676
预测为0类的概率值和预测为1的概率值和为1
同理,如果标签继续增加,3类:0,1, 2
预测为0类的概率值:a
预测为1类的概率值:b
预测为2类的概率值:c
预测出来的概率值的和a+b+c=1
注:model.predict_proba()返回所有标签值可能性概率值,这些值是如何排序的呢?
返回模型中每个类的样本概率,其中类按类self.classes_进行排序。
通过numpy.unique(label)方法,对label中的所有标签值进行从小到大的去重排序。
得到一个从小到大唯一值的排序。这也就对应于model.predict_proba()的行返回结果。
来源:https://blog.csdn.net/helloworld0906/article/details/103214002


猜你喜欢
- 这方面我还是一个freshman,不过看了一些文章,经过一些实践后也算是有了一些想法。希望如果有这方面的前辈路过的话,能不吝指教。首先,作为
- 视图(View)“视图”主要指我们送到Web浏览器的最终结果??比如我们的脚本生成的HTML。当说到视图时,很多人想到的是模版,但是把模板方
- 在日常工作中,Python在办公自动化领域应用非常广泛,如批量将多个Excel中的数据进行计算并生成图表,批量将多个Excel按固定格式转换
- 1、DjangoDjango可能是最具代表性的Python框架,是遵循MMVC结构模式的开源框架。其名字来自DjangoReinhardt,
- 本文实例讲述了Selenium元素的常用操作方法。分享给大家供大家参考,具体如下:Selenium是一个用于Web应用程序测试的工具。Sel
- 0x00 前言eval是Python用于执行python表达式的一个内置函数,使用eval,可以很方便的将字符串动态执行。比如下列代码:&g
- phpMyAdmin可以管理整个MySQL服务器(需要超级用户),也可以管理单个数据库。为了实现后一种,你将需要合理设置MySQL用户,他只
- 下载编译器protoc两种方式:1、使用google官方protoc下载地址:https://github.com/google/proto
- pydbclib是一个通用的python关系型数据库操作工具包,使用统一的接口操作各种关系型数据库(如 oracle、mysql、postg
- 骨架提取与分水岭算法也属于形态学处理范畴,都放在morphology子模块内。1、骨架提取骨架提取,也叫二值图像细化。这种算法能将一个连通区
- 很多人不明白,学习这些冷门的函数基本上都用不到,或者说是什么多大用处,事实上,有是有很多用处的,比如今天给大家介绍的uuid模块,就能够生成
- 如图,以该猫咪图片为例(忽略水印)。将该文件命名为cat.jpg,并对其展开以下操作。使用PIL库进行灰度处理PIL库适合图像归档和图像批量
- 前言前面我们已经介绍了 python面向对象入门教程之从代码复用开始(一) ,这篇文章主要介绍的是关于Python面向对象之设置对
- 最近服务器升级到了win2008 r2,数据库也从sql2000升级到了sql2005,不过安装后发现sql server找不到服务器名这样
- 本文实例讲述了php查找指定目录下指定大小文件的方法。分享给大家供大家参考。具体实现方法如下:php查找文件大小的原理是遍历目录然后再利用f
- 本文用纯js代码手写一个瀑布流网页效果,初步实现一个基本的瀑布流布局,以及滚动到底部后模拟ajax数据加载新图片功能。缺点:1. 程序不是响
- 本文实例讲述了Python实现的根据文件名查找数据文件功能。分享给大家供大家参考,具体如下:#-*- coding: UTF-8 -*-im
- 自己从工艺品设计到平面设计到网络设计,虽然设计原则不离其宗,但经验下来的心得告诉自己,设计媒介的变化带来很多媒介自身的特殊性,下面总结下网站
- Python中默认安装的ftplib模块定义了FTP类,可用来实现简单的ftp客户端,用于上传或下载文件。ftp登陆连接from ftpli
- // 获取字符串的字节长度function len(s) {s = String(s);return s.length + (s.match