用python标准库difflib比较两份文件的异同详解
作者:Tony_仔 发布时间:2023-01-29 07:34:29
标签:python,difflib,异同
【需求背景】
有时候我们要对比两份配置文件是不是一样,或者比较两个文本是否异样,可以使用linux命令行工具diff a_file b_file,但是输出的结果读起来不是很友好。这时候使用python的标准库difflib就能满足我们的需求。
下面这个脚本使用了difflib和argparse,argparse用于解析我们给此脚本传入的两个参数(即两份待比较的文件),由difflib执行比较,比较的结果放到了一个html里面,只要找个浏览器打开此html文件,就能直观地看到比较结果,两份文件有差异的地方会高亮显示出来。
【程序正文】
以python2.7为例,compare_two_files.py程序正文:
#!/bin/env python
# -*- coding: utf-8 -*-
# 20180430
import difflib
import sys
import argparse
# 读取建表语句或配置文件
def read_file(file_name):
try:
file_desc = open(file_name, 'r')
# 读取后按行分割
text = file_desc.read().splitlines()
file_desc.close()
return text
except IOError as error:
print 'Read input file Error: {0}'.format(error)
sys.exit()
# 比较两个文件并把结果生成一份html文本
def compare_file(file1, file2):
if file1 == "" or file2 == "":
print '文件路径不能为空:第一个文件的路径:{0}, 第二个文件的路径:{1} .'.format(file1, file2)
sys.exit()
else:
print "正在比较文件{0} 和 {1}".format(file1, file2)
text1_lines = read_file(file1)
text2_lines = read_file(file2)
diff = difflib.HtmlDiff() # 创建HtmlDiff 对象
result = diff.make_file(text1_lines, text2_lines) # 通过make_file 方法输出 html 格式的对比结果
# 将结果写入到result_comparation.html文件中
try:
with open('result_comparation.html', 'w') as result_file:
result_file.write(result)
print "0==}==========> Successfully Finished\n"
except IOError as error:
print '写入html文件错误:{0}'.format(error)
if __name__ == "__main__":
# To define two arguments should be passed in, and usage: -f1 fname1 -f2 fname2
my_parser = argparse.ArgumentParser(description="传入两个文件参数")
my_parser.add_argument('-f1', action='store', dest='fname1', required=True)
my_parser.add_argument('-f2', action='store', dest='fname2', required=True)
# retrieve all input arguments
given_args = my_parser.parse_args()
file1 = given_args.fname1
file2 = given_args.fname2
compare_file(file1, file2)
【待比较的文件】
两份文件分别是old_ddl_file和new_ddl_file,内容分别是——
old_ddl_file文件内容
CREATE EXTERNAL TABLE raw_tags(
p0 string COMMENT ‘uid',
p3 string COMMENT ‘tag name, e.g. news, games, fairs, shoopingURL',
p4 string COMMENT ‘e.g. 0, Games',
p11 int COMMENT ‘gender',
dt string COMMENT ‘date, like 26/6/2017',
action string COMMENT ‘clickmodule, click_taghead_link, clicklink')
CLUSTERED BY (
dt)
INTO 4 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘,'
STORED AS INPUTFORMAT
‘org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
‘hdfs://hdfs-ha/apps/hive/warehouse/ksai.db/raw_tags'
TBLPROPERTIES (
‘numFiles'='1',
‘numRows'='0',
‘rawDataSize'='0',
‘totalSize'='70575510',
‘transient_lastDdlTime'='1500469448')
new_ddl_file文件内容
CREATE EXTERNAL TABLE raw_tags(
p0 string COMMENT ‘uid',
p3 string COMMENT ‘tag name, e.g. news, games, fairs, shoopingURL',
p4 string COMMENT ‘e.g. 0, Games',
p11 int COMMENT ‘gender',
dt string COMMENT ‘date, like 26/6/2017',
action string COMMENT ‘clickmodule, click_taghead_link, clicklink')
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘,'
STORED AS INPUTFORMAT
‘org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
‘hdfs://hdfs-ha/apps/hive/warehouse/ksai.db/raw_tags'
TBLPROPERTIES (
‘COLUMN_STATS_ACCURATE'='{\”BASIC_STATS\”:\”true\”}',
‘numFiles'='0',
‘numRows'='0',
‘rawDataSize'='0',
‘totalSize'='0',
‘transient_lastDdlTime'='1521546069')
肉眼很难看出来区别吧?
【执行结果】
那么就使用上面的脚本来比较,在linux命令行的使用方法 python -f1 file1 -f2 file2 也就是:
python compare_two_files.py -f1 old_ddl_file -f2 new_ddl_file
再把运行结果产生的html文件下载到本地,用任一种浏览器打开即可,如截图:
运行结果:
使用浏览器查看html文件,可以看到,里面给出了各种颜色标注的图例说明,一目了然。
来源:https://blog.csdn.net/qq_31598113/article/details/80153000


猜你喜欢
- 本文实例讲述了Python动态生成多维数组的方法。分享给大家供大家参考,具体如下:多维数组其实就是多个一维数组的嵌套,Python中有原生的
- 本文实例为大家分享了Python时间戳使用和相互转换的具体代码,供大家参考,具体内容如下1.将字符串的时间转换为时间戳方法: &n
- 昨天群里介绍了一个专门帮你PS图片的网站。吐司网。网站在图片的预览处理上有点意思。当鼠标经过图片,显示为处理过的图片。这样大家能很清晰的对比
- vue使用this.$confirm首先在element-ui中的el-table下的el-table-column中引入插槽(相当于占位符
- 学习目标:学会使用windows系统安装MySQL数据库,供大家参考,具体内容如下1.打开浏览器输入SQL官网的下载地址:下载链接2.下载好
- 代码:import tensorflow as tfsess = tf.Session()check_point_path = 'v
- 一、文件操作1.打开r+ 打开存在文件 文件不存在 报错file = open("user.txt","r+&
- SQL语句更改表所有者SQL语句更改表所有者单个修改所有者sql语句如下:查询分析器输入:EXEC sp_changeobject
- 具体代码如下所示:import sysimport osclass Logger(object): def __init__(s
- 本文的目的是探讨JS相关技术,并不是以杀毒为主要目的,杀毒只是为讲解一些JS做铺垫的,呵呵,文章有点长,倒杯咖啡或者清茶慢慢看,学习切勿急躁
- 前言栈(Stack)是一种运算受限的线性表。按照先进后出(FILO,First In Last Out)的原则存储数据,先进入的数据被压入栈
- 1.intersect为取多个查询结果的交集;2.查询两个基本时间段内表记录的SQL语句;select * from shengjibiao
- 本文实例为大家分享了Vue编写时钟插件的具体代码,供大家参考,具体内容如下效果图代码奉上:<template> &n
- 图片外框特征参数: ①dashed:虚线②dotted:点虚线③solid:实线④double:双线⑤groove:沟
- 目录:分析和设计组件编码实现和算法用 Ant 构建组件测试 JavaScript 组件本期,我们要讨论的话题是 JavaScript 的测试
- 目录前言场景模拟总结前言近期多次聊到sql_mode的话题,也是多次遇到相关问题,今天就趁热打铁,再给大家带来一个sql_mode的案例分享
- 最近在用vue做项目,学习了不少东西,但是有时候光顾着做项目却忘记要找个时间来整理一下最近的一些学习新得,因为是新手,所以可能会有错误的地方
- 使用 Django 或 Flask 这种框架开发 web app 的时候一般都会用内建服务器开发和调试程序,等程序完成后再移交到生产环境部署
- 废话真的一句也不想多说,直接看代码吧!# -*- coding: utf-8 -*- import numpy from sklearn i
- 运行go中本地包的时候如果出现这个报错,网上很多说是需要修改GO111MODULE=on, 但是对于我来说都没用, 最后发现是因为命名导致的