Python中的文本相似度的计算方法总结
作者:小小张说故事 发布时间:2021-02-08 08:40:37
在自然语言处理(NLP)领域,文本相似度计算是一个常见的任务。本文将介绍如何使用Python计算文本之间的相似度,涵盖了余弦相似度、Jaccard相似度和编辑距离等方法。
1. 余弦相似度
余弦相似度是一种衡量两个向量夹角的方法,用于衡量文本的相似度。首先,将文本转换为词频向量,然后计算两个向量之间的余弦值。
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
def calculate_cosine_similarity(text1, text2):
vectorizer = CountVectorizer()
corpus = [text1, text2]
vectors = vectorizer.fit_transform(corpus)
similarity = cosine_similarity(vectors)
return similarity[0][1]
text1 = "I love Python programming"
text2 = "Python programming is great"
cosine_similarity = calculate_cosine_similarity(text1, text2)
print(cosine_similarity)
2. Jaccard相似度
Jaccard相似度通过计算两个集合之间的交集和并集之间的比率来衡量相似性。
def calculate_jaccard_similarity(text1, text2):
set1 = set(text1.split())
set2 = set(text2.split())
intersection = len(set1.intersection(set2))
union = len(set1.union(set2))
return intersection / union
text1 = "I love Python programming"
text2 = "Python programming is great"
jaccard_similarity = calculate_jaccard_similarity(text1, text2)
print(jaccard_similarity)
3. 编辑距离(Levenshtein距离)
编辑距离是衡量两个字符串之间差异的一种方法,即将一个字符串转换为另一个字符串所需的最小单字符编辑操作(插入、删除或替换)次数。
import numpy as np
def calculate_levenshtein_distance(text1, text2):
m, n = len(text1), len(text2)
dp = np.zeros((m + 1, n + 1))
for i in range(m + 1):
dp[i][0] = i
for j in range(n + 1):
dp[0][j] = j
for i in range(1, m + 1):
for j in range(1, n + 1):
if text1[i - 1] == text2[j - 1]:
dp[i][j] = dp[i - 1][j - 1]
else:
dp[i][j] = min(dp[i - 1][j], dp[i][j - 1], dp[i - 1][j - 1]) + 1
return dp[m][n]
text1 = "I love Python programming"
text2 = "Python programming is great"
levenshtein_distance = calculate_levenshtein_distance(text1, text2)
print(levenshtein_distance)
本文介绍了Python中常见的文本相似度计算方法,包括余弦相似度、Jaccard相似度和编辑距离。在实际应用中,可以根据问题的具体需求选择合适的相似度计算方法。以下是一些其他可用于计算文本相似度的方法:
4. TF-IDF
TF-IDF是一种统计方法,用于评估单词在文档集中的重要性。它可以将文本表示为向量,进而计算余弦相似度。
from sklearn.feature_extraction.text import TfidfVectorizer
def calculate_tfidf_cosine_similarity(text1, text2):
vectorizer = TfidfVectorizer()
corpus = [text1, text2]
vectors = vectorizer.fit_transform(corpus)
similarity = cosine_similarity(vectors)
return similarity[0][1]
text1 = "I love Python programming"
text2 = "Python programming is great"
tfidf_cosine_similarity = calculate_tfidf_cosine_similarity(text1, text2)
print(tfidf_cosine_similarity)
5. Word2Vec
Word2Vec是一种将单词表示为向量的模型,可以捕捉单词之间的语义关系。使用预训练的词向量模型,可以计算文本之间的相似度。
import gensim.downloader as api
from gensim import matutils
import numpy as np
def calculate_word2vec_similarity(text1, text2):
model = api.load("word2vec-google-news-300")
tokens1 = text1.split()
tokens2 = text2.split()
vec1 = np.mean([model[token] for token in tokens1 if token in model], axis=0)
vec2 = np.mean([model[token] for token in tokens2 if token in model], axis=0)
return matutils.cosine(vec1, vec2)
text1 = "I love Python programming"
text2 = "Python programming is great"
word2vec_similarity = calculate_word2vec_similarity(text1, text2)
print(word2vec_similarity)
6. Doc2Vec
Doc2Vec是一种将文档表示为向量的模型,可以捕捉文档之间的语义关系。与Word2Vec类似,可以使用预训练的Doc2Vec模型计算文本之间的相似度。
from gensim.models import Doc2Vec
from gensim.models.doc2vec import TaggedDocument
def calculate_doc2vec_similarity(text1, text2):
corpus = [TaggedDocument(text1.split(), ["text1"]), TaggedDocument(text2.split(), ["text2"])]
model = Doc2Vec(corpus, vector_size=100, window=5, min_count=1, workers=4)
vec1 = model.docvecs["text1"]
vec2 = model.docvecs["text2"]
return matutils.cosine(vec1, vec2)
text1 = "I love Python programming"
text2 = "Python programming is great"
doc2vec_similarity = calculate_doc2vec_similarity(text1, text2)
print(doc2vec_similarity)
这些方法可以根据具体需求进行选择和组合,为自然语言处理任务提供强大的文本相似度计算能力。在实际应用中,可能会遇到多种场景,例如推荐系统、自动问答和文本聚类等。在这些场景中,选择合适的文本相似度计算方法至关重要。
7. BERT
BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer的预训练模型,用于捕捉上下文相关的单词表示。可以通过BERT模型将文本表示为向量,然后计算余弦相似度。
from sentence_transformers import SentenceTransformer
def calculate_bert_similarity(text1, text2):
model = SentenceTransformer("bert-base-nli-mean-tokens")
embeddings = model.encode([text1, text2])
similarity = cosine_similarity(embeddings)
return similarity[0][1]
text1 = "I love Python programming"
text2 = "Python programming is great"
bert_similarity = calculate_bert_similarity(text1, text2)
print(bert_similarity)
8. 结论
文本相似度计算在自然语言处理领域具有广泛的应用。本文介绍了Python中常见的文本相似度计算方法,包括余弦相似度、Jaccard相似度、编辑距离、TF-IDF、Word2Vec、Doc2Vec和BERT。在实际应用中,可以根据任务需求和数据特点选择合适的相似度计算方法,为解决实际问题提供支持。
来源:https://juejin.cn/post/7233782463078744101


猜你喜欢
- 日志日志是跟踪软件运行时所发生的事件的一种方法。软件开发者在代码中调用日志函数,表明发生了特定的事件。事件由描述性消息描述,该描述性消息可以
- 大家在使用MySQL查询时正常是直接一个表的查询,要不然也就是多表的关联查询,使用到了左联结(left join)、右联结(right jo
- Oracle DECODE函数功能很强,下面就为您详细介绍Oracle DECODE函数的用法,希望可以让您对Oracle DECODE函数
- 简介pyenv 是一个开源的 Python 版本管理工具,可以轻松地给系统安装任意 Python 版本,想玩哪个版本,瞬间就可以切换。有了
- 本文实例讲述了php封装的单文件(图片)上传类。分享给大家供大家参考,具体如下:<?php//封装php中的单文件(图片)上传类/*/
- 写在前面Omi框架可以通过在组件上声明 data-* 把属性传递给子节点。Omi从设计之初,就是往标准的DOM标签的标准传递方式靠齐。比如:
- 初级的图像拼接为将两幅图像简单的粘贴在一起,仅仅是图像几何空间的转移与合成,与图像内容无关。高级图像拼接也叫作基于特征匹配的图像拼接,拼接时
- 1.由于设置了slave的配置信息,mysql在数据库data目录下生成master.info,所以如有要修改相关slave的配置要先删除该
- array和asarray都可以将结构数据转化为ndarray,但是主要区别就是当数据源是ndarray时,array仍然会copy出一个副
- 一、使用ddt和data装饰器的大致框架如下,每个test_开头的方法,代表一条测试用例from ddt import ddt,dataim
- PL/SQL是ORACLE对标准数据库语言的扩展,ORACLE公司已经将PL/SQL整合到ORACLE 服务器和其他工具中了,近几年中更多的
- 从信息组织角度来看,段落内行之间的关系要比段落之间的关系低一个级别,所以在呈现上段落之间的“段距”应该大于段落之内的“行距”,如此才能一目了
- 首先,让我们介绍一下什么是pytorch,它是一个基于Python的开源深度学习框架,它提供了两个核心功能:张量计算和自动求导。张量计算张量
- 今天做一个超简单的无损放大图片的程序,原理很简单JPG原理:读取原图片的像素点的RGB颜色值并保存到文件内,然后将原图进行翻倍放大,在放大的
- 安 * oostpython调用C/C++的方法有很多,本文使用boost.python。考虑到后期有好多在boost上的开发工作,所以boo
- 使用全局路由守卫实现前端定义好路由,并且在路由上标记相应的权限信息const routerMap = [ { path: '/per
- 前言在对数据进行处理时我们常常会用到format与round函数。二者都能保留若干位小数,但在处理过程上稍有不同。不同之处返回类型不同:fo
- 有时在处理不规则数据时需要提取文本包含的时间日期。dateutil.parser模块可以统一日期字符串格式。datefinder模块可以在字
- 为了优化OceanBase的query timeout设置方式,特调研MySQL关于timeout的处理,记录如下。 mysql> s
- 系统环境:win10 开发环境:JetBrains PyCharm 2017.1.5 x64 Python版本:2.7假如我们有一个clas