在 Python 中进行 One-Hot 编码
作者:来西瓜 发布时间:2023-04-06 06:02:55
1.介绍
在计算机科学中,数据可以用很多不同的方式表示,自然而然地,每一种方式在某些领域都有其优点和缺点。
由于计算机无法处理分类数据,因为这些类别对它们没有意义,如果我们希望计算机能够处理这些信息,就必须准备好这些信息。
此操作称为预处理。 预处理的很大一部分是编码 - 以计算机可以理解的方式表示每条数据(该名称的字面意思是“转换为计算机代码”)。
在计算机科学的许多分支中,尤其是机器学习和数字电路设计中,One-Hot Encoding
被广泛使用。
在本文中,我们将解释什么是 one-hot 编码,并使用一些流行的选择(Pandas 和 Scikit-Learn)在 Python 中实现它。 我们还将比较它与计算机中其他类型表示的有效性、优点和缺点,以及它的应用。
2.什么是One-Hot编码?
One-hot Encoding
是一种向量表示,其中向量中的所有元素都是 0,除了一个,它的值是 1,其中 1 表示指定元素类别的布尔值。
还有一个类似的实现,称为One-Cold Encoding
,其中向量中的所有元素都是 1,除了 1 的值是 0。
例如,[0, 0, 0, 1, 0] 和 [1 ,0, 0, 0, 0] 可以是One-hot 向量的一些示例。 与此类似的技术,也用于表示数据,例如统计中的虚拟变量。
这与其他编码方案非常不同,其他编码方案都允许多个位的值为 1。 下表比较了从 0 到 7 的数字在二进制、格雷码和 one-hot 中的表示:
实际上,对于每个 one-hot 向量,我们会问 n 个问题,其中 n 是我们拥有的类别数:
这是数字1吗? 这是数字2吗? ......这是数字7吗?
每个“0”都是“假”,一旦我们在向量中找到“1”,问题的答案就是“真”。
One-hot 编码将分类特征转换为一种更适合分类和回归算法的格式。 它在需要多种类型数据表示的方法中非常有用。
例如,一些向量可能最适合回归(基于以前的返回值逼近函数),而一些可能最适合分类(分类为固定集/类,通常是二元的):
这里我们有六个分类数据的样本输入。 此处使用的编码类型称为“label encoding”——它非常简单:我们只需为分类值分配一个 ID。
我们的计算机现在知道如何表示这些类别,因为它知道如何处理数字。 然而,这种编码方法并不是很有效,因为它自然会赋予更高的数字更高的权重。
说我们的“Strawberries”类别大于或小于“Apples”是没有意义的,或者将类别“Lemon”添加到“Peach”会给我们一个类别“Orange”,因为这些值不是序数。
如果我们用 one-hot 编码表示这些类别,我们实际上会用列替换行。 我们通过为每个给定类别创建一个布尔列来实现这一点,其中只有这些列之一可以为每个样本取值 1:
我们可以从上表中看出,与二进制或格雷码相比,one-hot 表示需要更多的数字。 对于n个数字,one-hot编码只能表示n个值,而Binary或Gray编码可以用n个数字表示2n个值。
3.实现-Pandas
让我们看一个简单的示例,说明如何通过 one-hot 编码方案将数据集中的分类列中的值转换为对应的数值。
我们将创建一个非常简单的数据集 - 国家及其 ID 的列表:
在上面的脚本中,我们使用两个列表(即 ids 和国家/地区)创建了一个Pandas dataframe
,称为 df。 如果您在数据帧上调用 head() 方法,会看到以下结果:
Countries列包含分类值。 我们可以使用 get_dummies() 函数将Countries列中的值转换为one-hot编码向量:
我们将 Country
作为 get_dummies()
方法的前缀属性的值传递,因此您可以在输出中的每个单热编码列的标题之前看到字符串 Country 前缀。
4.实现-Scikit-Learn
另一种方法是使用另一个流行的库 - Scikit-Learn
。 为此,它提供了 OneHotEncoder
类和 LabelBinarizer
类。
首先,导入库LabelBinarizer:
打印y值:
同样,我们可以使用支持多列数据的 OneHotEncoder 类,与之前的类不同:
5.One-hot编码在机器学习领域的应用
如上所述,计算机不太擅长处理分类数据。 虽然我们很好地理解分类数据,但这是由于计算机不具备的一种先决知识。
大多数机器学习技术和模型使用非常有限的数据集(通常是二进制)。 神经网络消耗数据并产生 0..1 范围内的结果,我们很少会超出该范围。
简而言之,绝大多数机器学习算法都会接收样本数据(“训练数据”),从中提取特征。 基于这些特征,创建了一个数学模型,然后用于进行预测或决策,而无需明确编程来执行这些任务。
一个很好的例子是分类,其中输入在技术上可以是 * 的,但输出通常仅限于几个类别。 在二元分类的情况下(假设我们正在教一个神经网络对猫和狗进行分类),我们的映射为 0 代表猫,1 代表狗。
大多数情况下,我们希望对其进行预测的训练数据是分类的,就像上面提到的带有水果的例子一样。 同样,虽然这对我们很有意义,但这些词本身对算法没有意义,因为它不理解它们。
在这些算法中使用one-hot
编码来表示数据在技术上不是必需的,但如果我们想要一个有效的实现,它非常有用。
来源:https://blog.51cto.com/u_14857544/5024208
![](https://www.aspxhome.com/images/zang.png)
![](https://www.aspxhome.com/images/jiucuo.png)
猜你喜欢
- #!/usr/bin/env python2#-*- coding:utf-8 -*-__author__ = 'jalright&
- 1.javascript获取网址"?"后面的参数:var query = window.location.search.
- 方法1: 代码如下:truncate table TableName 删除表中的所有的数据的同时,将自动增长清零。 如果有外键参考这个表,这
- 如果想让字典的VALUE成为字典,只有最开始让其成为列表,如下面程序中的b>>> b={}>>> b={
- 想要一个这玩意,可是找了网上许多着色器,要么是兼容性成问题,要么是匹配不精确,比如说:1、注释里包含字符串、关键词,类似于:/* xxxx&
- 一、requests模块说明介绍Requests是Python语言的第三方的库,专门用于发送HTTP请求。特点1.Requests支持HTT
- 本文实例讲述了php字符串截取函数mb_substr用法。分享给大家供大家参考,具体如下:string mb_substr ( string
- 以前看过有人转换过的,当时仅仅惊叹了一下,就过去了,没有记下来,直至于用到的时候呢,开始到处找,找来找去都没有找不到痕迹了,心里也就郁郁寡欢
- 内容摘要:当讨论Request对象内容时,要研究的集合之一就是ServerVariables集合。这个集合包含了两种值的结合体,一种是随同页
- 在使用Django2.0 并配置了mysql作为数据库时,启动报错:报错1:找不到mysqlclientdjango.core.except
- Iterable – 可迭代对象能够逐一返回其成员项的对象。 可迭代对象的例子包括所有序列类型 (例如 list, str 和 tuple)
- 本文分享的实例主要实现的是Python+matplotlib绘制一个有阴影和没有阴影的3D条形图,具体如下。首先看看演示效果:完整代码如下:
- Django根据已有数据库表反向生成models类一. 创建一个Django项目django-admin startproject ‘xxx
- 1、看机器配置,指三大件:cpu、内存、硬盘2、看mysql配置参数3、查系mysql行状态,可以用mysqlreport工具来查看4、查看
- 基于node+koa实现的mock数据接口,Koa需要v7.6.0以上node版本,低于此版本请先升级node目录结构// server.j
- 一.基本的查询语句,特殊符号||。制定列的别名AS,唯一标示distinct1.字符连接符“||”与“+”符oracle:select &n
- 笔者在今天的工作中,遇到了一个需求,那就是如何将Python字符串生成PDF。比如,需要把Python字符串‘这是测试文件'生成为P
- 今天下载了一个msde2000A,本想按照平时的安装习惯,找到了setup.exe安装程序,错误提示弹出一个对话框:“为了安全起见,要求使用
- 本文实例讲述了CodeIgniter分页类pagination使用方法。分享给大家供大家参考,具体如下:controller控制器(appl
- 先来看看效果: Html源码:<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Tr