位置：首页>> 网络编程>> Python编程>> 在 Python 中进行 One-Hot 编码

在 Python 中进行 One-Hot 编码

作者：来西瓜　　发布时间：2023-04-06 06:02:55　

标签：Python,One-Hot,编码

1.介绍

在计算机科学中，数据可以用很多不同的方式表示，自然而然地，每一种方式在某些领域都有其优点和缺点。
由于计算机无法处理分类数据，因为这些类别对它们没有意义，如果我们希望计算机能够处理这些信息，就必须准备好这些信息。
此操作称为预处理。预处理的很大一部分是编码 - 以计算机可以理解的方式表示每条数据（该名称的字面意思是“转换为计算机代码”）。
在计算机科学的许多分支中，尤其是机器学习和数字电路设计中，One-Hot Encoding 被广泛使用。
在本文中，我们将解释什么是 one-hot 编码，并使用一些流行的选择（Pandas 和 Scikit-Learn）在 Python 中实现它。我们还将比较它与计算机中其他类型表示的有效性、优点和缺点，以及它的应用。

2.什么是One-Hot编码？

One-hot Encoding 是一种向量表示，其中向量中的所有元素都是 0，除了一个，它的值是 1，其中 1 表示指定元素类别的布尔值。

还有一个类似的实现，称为One-Cold Encoding，其中向量中的所有元素都是 1，除了 1 的值是 0。

例如，[0, 0, 0, 1, 0] 和 [1 ,0, 0, 0, 0] 可以是One-hot 向量的一些示例。与此类似的技术，也用于表示数据，例如统计中的虚拟变量。

这与其他编码方案非常不同，其他编码方案都允许多个位的值为 1。 下表比较了从 0 到 7 的数字在二进制、格雷码和 one-hot 中的表示：

实际上，对于每个 one-hot 向量，我们会问 n 个问题，其中 n 是我们拥有的类别数：

这是数字1吗？这是数字2吗？ ......这是数字7吗？

每个“0”都是“假”，一旦我们在向量中找到“1”，问题的答案就是“真”。

One-hot 编码将分类特征转换为一种更适合分类和回归算法的格式。它在需要多种类型数据表示的方法中非常有用。

例如，一些向量可能最适合回归（基于以前的返回值逼近函数），而一些可能最适合分类（分类为固定集/类，通常是二元的）：

这里我们有六个分类数据的样本输入。此处使用的编码类型称为“label encoding”——它非常简单：我们只需为分类值分配一个 ID。

我们的计算机现在知道如何表示这些类别，因为它知道如何处理数字。然而，这种编码方法并不是很有效，因为它自然会赋予更高的数字更高的权重。

说我们的“Strawberries”类别大于或小于“Apples”是没有意义的，或者将类别“Lemon”添加到“Peach”会给我们一个类别“Orange”，因为这些值不是序数。

如果我们用 one-hot 编码表示这些类别，我们实际上会用列替换行。我们通过为每个给定类别创建一个布尔列来实现这一点，其中只有这些列之一可以为每个样本取值 1：

我们可以从上表中看出，与二进制或格雷码相比，one-hot 表示需要更多的数字。对于n个数字，one-hot编码只能表示n个值，而Binary或Gray编码可以用n个数字表示2n个值。

3.实现-Pandas

让我们看一个简单的示例，说明如何通过 one-hot 编码方案将数据集中的分类列中的值转换为对应的数值。

我们将创建一个非常简单的数据集 - 国家及其 ID 的列表：

在上面的脚本中，我们使用两个列表（即 ids 和国家/地区）创建了一个Pandas dataframe，称为 df。如果您在数据帧上调用 head() 方法，会看到以下结果：

Countries列包含分类值。我们可以使用 get_dummies() 函数将Countries列中的值转换为one-hot编码向量：

我们将 Country 作为 get_dummies() 方法的前缀属性的值传递，因此您可以在输出中的每个单热编码列的标题之前看到字符串 Country 前缀。

4.实现-Scikit-Learn

另一种方法是使用另一个流行的库 - Scikit-Learn。为此，它提供了 OneHotEncoder 类和 LabelBinarizer 类。

首先，导入库LabelBinarizer：

打印y值：

同样，我们可以使用支持多列数据的 OneHotEncoder 类，与之前的类不同：

5.One-hot编码在机器学习领域的应用

如上所述，计算机不太擅长处理分类数据。虽然我们很好地理解分类数据，但这是由于计算机不具备的一种先决知识。

大多数机器学习技术和模型使用非常有限的数据集（通常是二进制）。神经网络消耗数据并产生 0..1 范围内的结果，我们很少会超出该范围。

简而言之，绝大多数机器学习算法都会接收样本数据（“训练数据”），从中提取特征。基于这些特征，创建了一个数学模型，然后用于进行预测或决策，而无需明确编程来执行这些任务。

一个很好的例子是分类，其中输入在技术上可以是 * 的，但输出通常仅限于几个类别。在二元分类的情况下（假设我们正在教一个神经网络对猫和狗进行分类），我们的映射为 0 代表猫，1 代表狗。

大多数情况下，我们希望对其进行预测的训练数据是分类的，就像上面提到的带有水果的例子一样。同样，虽然这对我们很有意义，但这些词本身对算法没有意义，因为它不理解它们。

在这些算法中使用one-hot编码来表示数据在技术上不是必需的，但如果我们想要一个有效的实现，它非常有用。

来源：https://blog.51cto.com/u_14857544/5024208

投稿