Python 机器学习工具包SKlearn的安装与使用
作者:youcans 发布时间:2023-11-10 13:13:05
目录
1、SKlearn 是什么
2、SKlearn 的安装
3、SKlearn 内置数据集
测试问题数据集
实际问题数据集
4、Sklearn 数模笔记的计划
1、SKlearn 是什么
Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包。
Sklearn 主要用Python编写,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也用 Cython编写了一些核心算法来提高性能。
Sklearn 包括六大功能模块:
分类(Classification):识别样本属于哪个类别,常用算法有 SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
回归(Regression):预测与对象相关联的连续值属性,常用算法有 SVR(支持向量机)、 ridge regression(岭回归)、Lasso
聚类(Clustering):对样本进行无监督的自动分类,常用算法有 k-Means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
数据降维(Dimensionality reduction):减少相关变量维数,常用算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)
模型选择(Model Selection):比较,验证,选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)
数据处理 (Preprocessing):特征提取和归一化,常用模块有 preprocessing(预处理),feature extraction(特征提取)
这六个功能模块涉及 4类算法,分类、回归 属于监督学习,聚类属于非监督学习。
官网地址:https://scikit-learn.org/
官方文档中文版: https://www.scikitlearn.com.cn/
内置数据集:https://scikit-learn.org/stable/datasets.html
2、SKlearn 的安装
Sklearn 的安装要求:Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas 工具包的支持,部分内容需要使用 Matplotlib、joblib 工具包。
pip 安装命令:
pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple
注意 Sklearn 建议安装 Numpy+mkl,可以在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下载后 pip3安装:
pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl
3、SKlearn 内置数据集
Sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:https://scikit-learn.org/stable/datasets.html
Sklearn 标准数据集主要包括:
测试问题数据集
波士顿房价:Boston house prices dataset
鸢尾花问题:Iris plants dataset
糖尿病数据:Diabetes dataset
手写数字的识别:Optical recognition of handwritten digits dataset
体能训练:Linnerrud dataset
葡萄酒鉴别:Wine recognition dataset
威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset
实际问题数据集
人脸数据:The Olivetti faces dataset
20个新闻文本数据:The 20 newsgroups text dataset
标记的人脸数据:The Labeled Faces in the Wild face recognition dataset
森林覆盖类型:Forest covertypes
路透社新闻数据:RCV1 dataset
网络入侵检测数据:Kddcup 99 dataset
加州住房数据:California Housing dataset
4、Sklearn 数模笔记的计划
粗略看看 Sklearn 的文档,是一个功能强大和丰富的机器学习库,远远超出了数学建模学习的范围。
基于数模教学的目的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全面讲解 Sklearn 的各种算法,而是以典型问题为例来介绍原理简单、使用广泛的基本方法,以便新手入门。
来源:https://www.cnblogs.com/youcans/p/14748020.html
猜你喜欢
- 介绍pandas数据聚合和重组的相关知识,仅供参考。1GroupBy技术1.1简介简介:根据一个或多个键进行分组,每一组应用函数,再进行合并
- 索引是提高数据查询最有效的方法,也是最难全面掌握的技术,因为正确的索引可能使效率提高10000倍,而无效的索引可能是浪费了数据库空间,甚至大
- 本文实例讲述了PHP中curl_setopt函数用法。分享给大家供大家参考。具体分析如下:curl_setopt函数是php中一个重要的函数
- 示例代码: BulkStockBll bll = new BulkStockBll(); DataSet ds = bll.GetBulkS
- 一、汉诺塔问题1. 问题来源问题源于印度的一个古老传说,大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着64片黄
- 春节来到,红包们大概率在微信各大群中肆虐,大家是否都一样不抢到红包们心里就感觉错过了一个亿,可总会被这事那事耽误而遗憾错过,下面用 Pyth
- python代码如下:import webbrowser as wbimport foliumif __name__ == '__m
- 如图所示,我们要计算任意两个向量之间的夹角。(图中的坐标数字是估计值,随手给定)python代码如下import math AB = [1,
- 在 EeePC 上装了个 Mac OS X,相应的开发工具也选择了 Coda。在
- 其实很简单from keras.models import load_modelbase_model = load_model('m
- 插值对于一些时间序列的问题可能比较有用。Show the code directly:import numpy as npfrom matp
- 1、需求当工作在UNIX Shell下时,我们想使用常见的通配符模式(即:.py,Dat[0-9].csv等)来对文本做匹配。2、解决方案f
- 与Channel区别Channel能够很好的帮助我们控制并发,但是在开发习惯上与显示的表达不太相同,所以在Go语言中可以利用sync包中的W
- 本文实例讲述了Django框架模型简单介绍与使用。分享给大家供大家参考,具体如下:ORM介绍ORM Object relational ma
- hp中怎么让json_encode不自动转义斜杠“/”?下面本篇文章给大家介绍一下PHP中让json_encode不自动转义斜杠“/”的方法
- 批量生成word文件场景:需要新建多个类似文件名比如:今天的事例是新建12个文件名为:保安员考试试卷1及答案.docx保安员考试试卷2及答案
- 一、json_encode() 对变量进行JSON编码语法:json_encode($value[,$options=0])注意: 
- 本文实例讲述了PHP与Web页面交互操作。分享给大家供大家参考,具体如下:Web交互1.Web表单交互当表单的method属性提交方式为PO
- 废话不多说了,直接给大家贴代码了,代码写的不好还去各位大侠见谅。#-*-coding:utf-8-*- #1、字典dict = {'
- 展示:一般情况下序列化得到的外键的内容只是id:...{ fields: { uat_date: "2015-07-