位置：首页>> 网络编程>> Python编程>> 论文查重python文本相似性计算simhash源码

论文查重python文本相似性计算simhash源码

作者：别None了　　发布时间：2023-02-05 18:11:35　

标签：python,simhash,论文查重,文本相似性

场景：

1.计算SimHash值，及Hamming距离。
2.SimHash适用于较长文本（大于三五百字）的相似性比较，文本越短误判率越高。

Python实现：

代码如下

# -*- encoding:utf-8 -*-
import math
import jieba
import jieba.analyse
class SimHash(object):
def getBinStr(self, source):
if source == "":
return 0
else:
x = ord(source[0]) << 7
m = 1000003
mask = 2 ** 128 - 1
for c in source:
x = ((x * m) ^ ord(c)) & mask
x ^= len(source)
if x == -1:
x = -2
x = bin(x).replace('0b', '').zfill(64)[-64:]
return str(x)
def getWeight(self, source):
return ord(source)
def unwrap_weight(self, arr):
ret = ""
for item in arr:
tmp = 0
if int(item) > 0:
tmp = 1
ret += str(tmp)
return ret
def sim_hash(self, rawstr):
seg = jieba.cut(rawstr)
keywords = jieba.analyse.extract_tags("|".join(seg), topK=100, withWeight=True)
ret = []
for keyword, weight in keywords:
binstr = self.getBinStr(keyword)
keylist = []
for c in binstr:
weight = math.ceil(weight)
if c == "1":
keylist.append(int(weight))
else:
keylist.append(-int(weight))
ret.append(keylist)
# 降维
rows = len(ret)
cols = len(ret[0])
result = []
for i in range(cols):
tmp = 0
for j in range(rows):
tmp += int(ret[j][i])
if tmp > 0:
tmp = "1"
elif tmp <= 0:
tmp = "0"
result.append(tmp)
return "".join(result)
def distince(self, hashstr1, hashstr2):
length = 0
for index, char in enumerate(hashstr1):
if char == hashstr2[index]:
continue
else:
length += 1
return length
if __name__ == "__main__":
simhash = SimHash()
str1 = '咱哥俩谁跟谁啊'
str2 = '咱们俩谁跟谁啊'
hash1 = simhash.sim_hash(str1)
print(hash1)
hash2 = simhash.sim_hash(str2)
distince = simhash.distince(hash1, hash2)
value = 5
print("simhash", distince, "距离：", value, "是否相似：", distince<=value)

来源：https://coderl.blog.csdn.net/article/details/122740744

0

投稿

猜你喜欢

以Python的Pyspider为例剖析搜索引擎的网络爬虫实现方法
在这篇文章中，我们将分析一个网络爬虫。网络爬虫是一个扫描网络内容并记录其有用信息的工具。它能打开一大堆网页，分析每个页面的内容以便寻找所有感
多按钮共存——don’t make me think
之前在一个web系统的设计中，和另一个设计师讨论，“保存”和“取消”按钮该怎么设计。我的观点是，保存是比取消更常用的按钮，也是用户的主要目的
asp如何实现网络打印？
可以，具体说明和代码见下： <％@ Language=VBScript ％><％Option
python3实现基于用户的协同过滤
本文实例为大家分享了python3实现基于用户协同过滤的具体代码，供大家参考，具体内容如下废话不多说，直接看代码。#!/usr/bin/py
python lambda表达式在sort函数中的使用详解
1.lambda表达式一般用法语法:lamda argument:expressionexample:add = lambda x, y:
asp中文URL编码server.urlencode
在url网址中，我们经常使用server.urlencode来对网址进行编码，特别是遇到网址中有中文字符的时候，如<a href=&q
SQLServer中数据库文件的存放方式，文件和文件组
简介在SQL SERVER中，数据库在硬盘上的存储方式和普通文件在Windows中的存储方式没有什么不同，仅仅是几个文件而已.SQL SER
简单介绍Python中的struct模块
准确地讲，Python没有专门处理字节的数据类型。但由于str既是字符串，又可以表示字节，所以，字节数组＝str。而在C语言中，我们可以很方
Python实现ATM系统
今天偶尔在知乎上看到某大佬用Python写的ATM系统案例，然后观摩了下他的实现思路和源码，感觉受益颇多，于是就根据自己的思路和目前掌握的P
PHP安全的URL字符串base64编码和解码
如果直接使用base64_encode和base64_decode方法的话，生成的字符串可能不适用URL地址。下面的方法可以解决该问题：UR
python numpy实现rolling滚动案例
相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让NumPy在C代码内部执行这种循环。这是通过
Python实现括号匹配方法详解
这篇文章主要介绍了python实现括号匹配方法详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可
Python人脸识别第三方库face_recognition接口说明文档
1. 查找图像中出现的人脸代码示例：#导入face_recognition模块import face_recognition#将j
在ASP.NET 2.0中操作数据之四十：自定义DataList编辑界面
导言DataList的编辑界面由EditItemTemplate里的标记语言和web控件定义。在目前为止所做的DataList编辑功能的例子
javascript阻止事件冒泡和浏览器的默认行为
在使用javascript编程时浏览器中经常会遇到的两个麻烦，下面提供两个函数解决方式做参考，并提供一个demo让你更直观地了解我所说的这两
python识别图像并提取文字的实现方法
前言python图像识别一般基础到的就是tesseract了，在爬虫中处理验证码广泛使用。安装安装教程网上大都差不多，Windows下确实比
Python 输出时去掉列表元组外面的方括号与圆括号的方法
在这可以用join()函数'x'.join(y)，x可以是任意分割字符，y是列表或元组。以列表为例，可以将列表中的每一个元素
网站细节论（1）--阅读的细节
阅读是在网站中的一个很重要的部分，可以说是网站的核心。网站最终要呈现给用户的就是内容。尤其是文本内容。豆瓣豆瓣前段时间小改了一下，页面拉宽，
Python super()方法原理详解
在学习 Python 类的时候，会碰见类中有 __init__() 这样一个函数，其实它就是 Python 的构造方法。构造方法类似于类似
用Python删除本地目录下某一时间点之前创建的所有文件的实例
因为工作原因，需要定期清理某个文件夹下面创建时间超过1年的所有文件，所以今天集中学习了一下Python对于本地文件及文件夹的操作。网上这篇

Python报错SyntaxError:unexpected EOF while parsing的解决办法

Python OpenCV 使用滑动条来调整函数参数的方法

python实现csv格式文件转为asc格式文件的方法

Python实现扣除个人税后的工资计算器示例

python绘制带有色块的折线图

Python线程池thread pool创建使用及实例代码分享

python对象销毁实例(垃圾回收)

pandas 添加空列并赋空值案例

Django + Uwsgi + Nginx 实现生产环境部署的方法

python中dump与dumps实现序列化

惠普笔记本重装原版win10系统的详细步骤

word 如何设置窗口元素及调整文档的显示比例

WPS表格办公—回车键的多种用法

Java构造器与传值学习总结

手机高德地图怎么解散工作地图

异步/多线程/任务/并行编程之一:如何选择合适的多线程模型？

excel数据有效性限制用户输入

J2EE Servlet上传文件到服务器并相应显示功能的实现代码

小白讲座：在win下mysql备份恢复命令概括

win10任务栏不显示语言栏怎么办?win10任务栏不显示语言栏的解决方法

手机版 网络编程 asp之家 www.aspxhome.com