Python实现检测文件的MD5值来查找重复文件案例
作者:mighty13 发布时间:2021-08-14 01:28:02
标签:Python,MD5,重复,文件
平时学生交上机作业的时候经常有人相互复制,直接改文件名了事,为了能够简单的检测这种作弊行为,想到了检测文件的MD5值,虽然对于抄袭来说作用不大,但是聊胜于无,以后可以做一个复杂点的。
# coding: utf8
import hashlib
import os
from collections import Counter
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def get_md5_01(file_path):
md5 = None
if os.path.isfile(file_path):
f = open(file_path,'rb')
md5_obj = hashlib.md5()
md5_obj.update(f.read())
hash_code = md5_obj.hexdigest()
f.close()
md5 = str(hash_code).lower()
return md5
def get_md5_02(file_path):
f = open(file_path,'rb')
md5_obj = hashlib.md5()
while True:
d = f.read(8096)
if not d:
break
md5_obj.update(d)
hash_code = md5_obj.hexdigest()
f.close()
md5 = str(hash_code).lower()
return md5
if __name__ == "__main__":
output_list=[]
#input_path=r"e:\xx\新建文件夹"
#output_path = unicode(input_path , "utf8")
output_path=os.getcwd()
g = os.walk(output_path)
for path,dir_list,file_list in g:
for file_name in file_list:
output_list.append(os.path.join(path, file_name) )
md5_list= [get_md5_01(i) for i in output_list]
Counter_list=Counter(md5_list)
for i in Counter_list.items():
if i[1] >1:
duplicate_list=[ a for a in range(len(md5_list)) if md5_list[a] == i[0]]
print '-'*50
print i[0]
for j in duplicate_list:
with open('duplicate.log', mode='a+') as f:
f.write(i[0]+'\t'+output_list[j]+'\n')
print output_list[j]
补充知识:python一句话校验文件哈希值
MD5
python -c "import hashlib,sys;print hashlib.md5(open(sys.argv[1],'rb').read()).hexdigest()" 文件名
SHA-1
python -c "import hashlib,sys;print hashlib.sha1(open(sys.argv[1],'rb').read()).hexdigest()" 文件名
SHA-256
python -c "import hashlib,sys;print hashlib.sha256(open(sys.argv[1],'rb').read()).hexdigest()" 文件名
SHA-512
python -c "import hashlib,sys;print hashlib.sha512(open(sys.argv[1],'rb').read()).hexdigest()" 文件名
来源:https://blog.csdn.net/mighty13/article/details/77995850
0
投稿
猜你喜欢
- 使用webpack搭建单页面程序十分常见,但在实际开发中我们可能还会有开发多页面程序的需求,因此我研究了一下如何使用webpack搭建多页面
- 安装laravel框架命令行cd进入指定目录下,执行composer create-project --prefer-dist larave
- 数据采集XPath,XML路径语言的简称。XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某
- 写在前面:本文是vue-手摸手教你使用vue-cli脚手架-详细步骤图文解析之后,又一篇关于vue-cli脚手架配置相关的文章,因为有些文章
- IE的特殊性 IE的DOM元素属性与Firefox, Opera, Safari有些不同。在IE中,我们可以给DOM添加任意自定
- 电脑面前的你,是否也希望能让电脑听命于你? 当你累的时候,只需说一声“我累了”,电脑就会放着优雅的轻音乐来让你放松。
- Python的3.0版本,常被称为Python 3000,或简称Py3k。相对于Python的早期版本,这是一个较大的升级。为了不带入过多的
- 一、Requests库的安装利用 pip 安装,如果你安装了pip包(一款Python包管理工具,不知道可以百度哟),或者集成环境,比如Py
- 我们在编写 JS 代码时,经常会遇到逻辑判断复杂的情况。一般情况下,可以用 if/else 或 switch 来实现多个条件判断,但会出现一
- javascript代码编写在页面中实现页内搜索功能,类似Word等文本编辑软件里的搜索功能,只要是页面中的字符(别管是显在的还是隐蔽在文本
- 怎么从mysql从官网下载到安装到客户端的登陆呢?这篇文章给你讲的清清楚楚。第一步:到Mysql官网下载。从[https://dev.mys
- <script language=javascript> </script>
- 1、最优化与线性规划最优化问题的三要素是决策变量、目标函数和约束条件。线性规划(Linear programming),是研究线性约束条件下
- 记录微信小程序中使用wxss加载图片并实现动画的方式,最终实现loading效果。代码.weui-loading {margin: 0 5p
- 首先看这下面的例子(鼠标移上去):<TABLE><TBODY><TR&g
- 调试的定义:通过一定方法,在程序中找到并减少缺陷的数量,从而使其能正常工作。这里说一些如何调试PHP程序的经验。一、PHP自带的调试功能1、
- 众所周知,Mac自带python2,但无奈我们想使用新版本,因此我们需要安装python3安装python3我使用了homebrew,网上也
- 在 Python 中对一个可迭代对象进行排序是很常见的一个操作,一般会用到 sorted() 函数num_list = [4, 2, 8,
- 作为一名前端,我们通常要做的就是让页面在各系统A-Grade浏览器,甚至网站浏览份额0.1%以上的浏览器上良好显示。当然,还有性能问题。不过
- 本文实例为大家分享了javascript实现花样轮播效果的两种实现方法,供大家参考,具体内容如下第一种:简单的带按钮的轮播介绍:左右按钮控制