python数据挖掘需要学的内容
作者:laozhang 发布时间:2021-02-26 00:54:13
1、Pandas库的操作
Panda是数据分析特别重要的一个库,我们要掌握以下三点:
· pandas 分组计算;
· pandas 索引与多重索引;
索引比较难,但是却是非常重要的
· pandas 多表操作与数据透视表
2、numpy数值计算
numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:
· Numpy array理解;
· 数组索引操作;
· 数组计算;
· Broadcasting(线性代数里面的知识)
3、数据可视化-matplotlib与seaborn
· Matplotib语法
python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。
· seaborn的使用
seaborn是一个非常漂亮的可视化工具。
· pandas绘图功能
前面说过pandas是做数据分析的,但它也提供了一些绘图的API。
4、数据挖掘入门
这部分是最难也是最有意思的一部分,要掌握以下几个部分:
· 机器学习的定义
在这里跟数据挖掘先不做区别
· 代价函数的定义
· Train/Test/Validate
· Overfitting的定义与避免方法
5、数据挖掘算法
数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:
· 最小二乘算法;
· 梯度下降;
· 向量化;
· 极大似然估计;
· Logistic Regression;
· Decision Tree;
· RandomForesr;
· XGBoost;
6、数据挖掘实战
通过机器学习里面最着名的库scikit-learn来进行模型的理解。


猜你喜欢
- Python requests 模块requests 模块是我们使用的 python爬虫 模块 可以完成市场进80%的爬虫需求。安装pip
- 思路1.将姓名和单号填入excel表格里面2.读取excel表格,将所有姓名存到ExeclName这个list中,单号存到ExeclId3.
- MediaPipe概述谷歌开源MediaPipe于2019年6月首次推出。它的目标是通过提供一些集成的计算机视觉和机器学习功能,使我们的生活
- 1、安装mysql有InnoDB的插件扩展 ./configure --prefix=/usr/local/mysql --with-plu
- 下载了一个小型的记帐软件,发现这个软件数据库用的是access,很想看看它的数据库结构怎样,结果人家加密了。access的解密小case了,
- 功能要求这是我们老师的作业 代码中都有注释 要求 词频统计软件:1)从文本中读入数据:(文件的输入输出)2)不区分大小写,去除特殊字符。3)
- 1、在mysql 中建立一个数据库 test1 语句:create database test1 2、创建表examinfo create
- 一、从 4.0 到 4.1 的主要变化 如果在4.1.0到4.1.3版本的MySQL中创建了包含 TIMESTAMP 字段的 InnoDB表
- 今天在写PHP程序的时候总是出现这样的错误:Parse error: syntax error, unexpected end of fil
- 在 jupyter notebook参数化运行python 时,怕输出太多文件太大,想及时清除 notebook 的输出。在别人代码里看到用
- 本文实例为大家分享了H5+css3+js搭建带验证码的登录页面,供大家参考,具体内容如下login.html<!DOCTYPE HTM
- 前言在Python中可迭代(Iterable)、迭代器(Iterator)和生成器(Generator)这几个概念是经常用到的,初学时对这几
- 如何使用数组来显示下拉菜单?可以这样,如下:Sub DoDropDown(Arr(), strSelName, 
- 通过锁机制,可以实现多线程同时对某个表进行操作。如下图所示,在某个时刻,用户甲、用户乙、用户丙可能会同时或者先后(前面一个作业还没有完成)对
- 我就废话不多说了,大家还是直接看代码吧~'''Created on 2018-4-16'''
- 以下分享一点我的经验 一般刚开始学SQL的时候,会这样写 SELECT * FROM table ORDER BY id LIMIT 100
- 前言Stream 是一个基于 Go 1.18+ 泛型的流式处理库, 它支持并行处理流中的数据. 并行流会将元素平均划分多个的分区, 并创建相
- 本篇博客介绍如何使用Python调用百度地图WEB服务API获取地点对应坐标值,现有一系列结构化地址数据(如:北京市海淀区上地十街十号),目
- 代码中用到了nextpow2,其中n = nextpow2(x) 表示最接近x的2的n次幂。#!/usr/bin/env pythonimp
- 出现原因:缺失相应的whl文件。解决办法:下载并安装对应的whl文件。提供一个whl文件的下载网址:http://www.lfd.uci.e