python库sklearn常用操作
作者:编程菜鸡小徐震 发布时间:2022-06-24 13:44:33
前言
sklearn是python的重要机器学习库,其中封装了大量的机器学习算法,如:分类、回归、降维以及聚类;还包含了监督学习、非监督学习、数据变换三大模块。sklearn拥有完善的文档,使得它具有了上手容易的优势;并它内置了大量的数据集,节省了获取和整理数据集的时间。因而,使其成为了广泛应用的重要的机器学习库。
sklearn是一个无论对于机器学习还是深度学习都必不可少的重要的库,里面包含了关于机器学习的几乎所有需要的功能,因为sklearn库的内容是如此之多以至于一开始就从宏观层面展开的话很可能会使初学者感到困惑和恐惧。相反的,本文不会先整体介绍sklearn库,而是先从sklearn库中的一些具体实例入手,在读者学习完一些比较常用的函数并且对他们的功能有了一定了解之后,本文再从宏观展开,全面细致的讲解sklearn库。本博客中的实例几乎都来自我自己学习keras的过程中,建议与我的另外一篇写keras的博客一同食用,理解起来更佳。
一、MinMaxScaler
MinMaxScaler函数主要的用途就在于数据归一化。数据归一化是在我们开始深度学习之前做的数据预处理过程中的重要一环,简单来说就是将我们的测试样本的元素都集中在[0,1]的区间上,数据归一化可以让我们的神经网络模型学习起来更快达到最佳点,如果不进行归一化的话神经网络可能会花费很长时间来收敛(也就是到达最佳点)甚至可能最终也不会收敛。同时,数据归一化也可以大大增加神经网络中可学习参数的精度,从而达到更好的学习效果。下面就是MinMaxScaler函数的实例应用。
from sklearn import preprocessing
import numpy as np
x = np.array([[3., -1., 2., 613.],
[2., 0., 0., 232],
[0., 1., -1., 113],
[1., 2., -3., 489]])
min_max_scaler = preprocessing.MinMaxScaler()
x_minmax = min_max_scaler.fit_transform(x)
print(x_minmax)
运行结果:
[[1. 0. 1. 1. ]
[0.66666667 0.33333333 0.6 0.238 ]
[0. 0.66666667 0.4 0. ]
[0.33333333 1. 0. 0.752 ]]
总结起来就是两步:1.scaler=preprocessing.MinMaxScaler()
2.x1=scaler.fit_transform(x)
x1就是归一化之后的结果
注意,想要引入MinMaxScaler可以有两种import的方式,除了上文中的方式还可以这样做:
from sklearn.preprocessing import MinMaxScaler
来源:https://www.cnblogs.com/BCCJXXZ/p/15168899.html


猜你喜欢
- 您想更改网站博客页面上 WordPress 文章的顺序吗?那么您就在正确的地方学习此功能并更改文章的顺序。因此,在本文中,我将向您展示如何通
- 进行访问MySQL数据库的方法有很多种,下面将向大家介绍一些很简单实用的用的方法和示例与大家一起分享。方法一:使用MYSQL推出的MySQL
- python实现情感分析(Word2Vec)** 前几天跟着老师做了几个项目,老师写的时候劈里啪啦一顿敲,写了个啥咱也布吉岛,线下自己就瞎琢
- 目录一、简介思路高德地图API二、获取经纬度三、路线规划(四种方式)获取出行路线数据处理四、演示效果五、结尾一、简介路径规划中包括步行、公交
- 突如其来想知道一下 python 如何修改文件的属性(创建、修改、访问时间),于是就去网上搜集了可行方案,也就有了这篇博客方案一from w
- 很早就在这里看到过解决方案,与嗷嗷讨论后发现这个方案还是很可靠的。当然,唯一的缺点就是每一个属性都要去Hack,但我在很多实践中,只用‘修正
- 本文实例讲述了python实现超简单端口转发的方法。分享给大家供大家参考。具体如下:代码非常简单,实现了简单的端口数据转发功能,用于真实环境
- 前言:在数据库开发过程中我们经常会使用分页,核心技术是使用用limit start, count分页语句进行数据的读取。 一、My
- 一、背景分析对想要在视觉化环境下制作复杂网页的专业网页制作者来说,Dreamweaver已经渐渐在网页编辑工具中展露头角,成为专业人士编写网
- 时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。生产环境
- 为什么要手动添加核?因为使用公司的服务器,最好不要直接使用anaconda自带的python,更不要使用系统下自带的python,如果每个人
- Python字典是另一种可变容器模型,且可存储任意类型对象,如字符串、数字、元组等其他容器模型。字典由键和对应值成对组成。字典也被称作关联数
- 目录前言场景模拟总结前言近期多次聊到sql_mode的话题,也是多次遇到相关问题,今天就趁热打铁,再给大家带来一个sql_mode的案例分享
- 数字函数 ABS():求绝对值。 CEILING():舍入到最大整数。 FLOOR():舍入到最小整数。 ROUND():四舍五入 ROUN
- 1. sys_getloadavg()sys_getloadavt()可以获得系 统负载情况。该函数返回一个包含三个元素的数组,每个元素分别
- 录入身份证信息是一件繁琐的工作,如果可以自动识别并且录入系统,那可真是太好了。今天我们就来学习一下,如何自动识别身份证信息并且录入系统~识别
- 1. 查看本机系统及python版本# cat /etc/redhat-release CentOS release 6.7 (Final)
- 自己搭建后台网站,需求:实现类似django Admin站点对每一张表的增删改查权限控制。实现步骤:1.权限控制Django框架已自带,共6
- 本文实例讲述了Python实现队列的方法。分享给大家供大家参考,具体如下:Python实现队列队列(FIFO),添加元素在队列尾,删除元素在
- 我最新最全的文章都在 南瓜慢说 www.pkslow.com ,欢迎大家来喝茶!1 数据库审计数据库审计是指当数据库有记录变更时,可以记录数