python实现搜索文本文件内容脚本
作者:warrenjiang 发布时间:2022-01-30 18:51:22
标签:python,搜索,文件
本文介绍用python实现的搜索本地文本文件内容的小程序。从而学习Python I/O方面的知识。代码如下:
import os
#根据文件扩展名判断文件类型
def endWith(s,*endstring):
array = map(s.endswith,endstring)
if True in array:
return True
else:
return False
#将全部已搜索到的关键字列表中的内容保存到result.log文件中
def writeResultLog(allExistsKeywords):
#行分隔符
ls = os.linesep
#结果日志文件名
logfilename = "result.log" #相对路径,文件在.py文件所在的目录中
try:
fobj = open(logfilename,'w')
except IOError,e:
print "*** file open error:",e
else:
fobj.writelines(['%s%s' % (keyword,ls) for keyword in allExistsKeywords])
fobj.close()
#搜索指定关键字是否在指定的文件中存在
def searchFilesContent(dirname):
#从searchkeywords.txt文件中初始化待搜索关键字列表
filename = "searchkeywords.txt" #相对路径,文件在.py文件所在的目录中
#待搜索关键字列表
allSearchKeywords=[]
#遍历文件当前行已搜索到的关键字列表
existsKeywordsThisLine=[]
#全部已搜索到的关键字列表
allExistsKeywords=[]
try:
fobj = open(filename,'r');
except IOError,e:
print "*** file open error:",e
else:
for eachLine in fobj:
allSearchKeywords.append(eachLine.strip('\n')); #使用strip函数去除每行的换行符
fobj.close();
#从excludekeywords.txt文件中初始化要排除的搜索关键字列表
filename = "excludekeywords.txt" #相对路径,文件在.py文件所在的目录中
#要排除的搜索关键字列表
allExcludedKeywords=[]
try:
fobj = open(filename,'r');
except IOError,e:
print "*** file open error:",e
else:
for eachLine in fobj:
allExcludedKeywords.append(eachLine.strip('\n')); #使用strip函数去除每行的换行符
fobj.close();
#从全部已搜索到的关键字列表排除掉不用搜索的关键字
for excluedkw in allExcludedKeywords:
if(excluedkw in allSearchKeywords):
allSearchKeywords.remove(excluedkw);
#遍历打开所有要在其中搜索内容的文件,若待搜索关键字列表为空,则不再继续遍历
for root,dirs,files in os.walk(dirname):
for file in files:
if endWith(file,'.java','.xml','.properties'): #只在扩展名为.java/.xml/.properties文件中搜索
#打开文件
filename = root + os.sep + file #绝对路径
filename = filename.replace("\\","\\\\") #将路径中的单反斜杠替换为双反斜杠,因为单反斜杠可能会导致将路径中的内容进行转义了,replace函数中"\\"表示单反斜杠,"\\\\"表示双反斜杠
try:
fobj = open(filename,'r');
except IOError,e:
print "*** file open error:",e
else:
#遍历文件的每一行
for fileLine in fobj:
#判断当前行是否包含所有搜索关键字
for keyword in allSearchKeywords:
#若包含,并添加到该行已搜索到的关键字列表中
if keyword.upper() in fileLine.upper(): #将搜索关键字和该行文本内容都转换为大写后再进行匹配
existsKeywordsThisLine.append(keyword)
#将这些搜索到的关键字添加到全部已搜索到的关键字列表中,并包含文件名信息
for keyword in existsKeywordsThisLine:
allExistsKeywords.append(keyword+"\t"+filename.replace("\\\\","\\"))
#将这些搜索到的关键字从待搜索关键字列表中移除(后续将不再搜索该关键字)
for keyword in existsKeywordsThisLine:
allSearchKeywords.remove(keyword)
#清空该行已搜索到的关键字列表内容
existsKeywordsThisLine = []
#若所有的关键字都搜索到了,则记录日志文件,并结束搜索工作
if len(allSearchKeywords)==0:
fobj.close();
writeResultLog(allExistsKeywords)
print "DONE!",
return
fobj.close();
#全部文件遍历结束
writeResultLog(allExistsKeywords)
print "DONE!",
#仅当本python模块直接执行时,才执行如下语句,若被别的python模块引入,则不执行
if __name__ == '__main__':
searchFilesContent(r"G:\ccsSmartPipe\SmartPipe\src\java")
1.笔者使用该程序对java项目中的源文件内容进行关键字的搜索。程序入参为该项目本地文件系统路径G:\ccsSmartPipe\SmartPipe\src\java。
2.在配置文件中searchkeywords.txt中输入要搜索的任意多个关键字
3.在配置文件中excludekeywords.txt中输入在searchkeywords.
4.程序执行完成后,即可在result.log日志文件中,查看搜索结果。即每个关键在哪些文件中存在。并给出每个文件的具体路径。
附件:源代码及配置文件
来源:https://blog.csdn.net/warrenjiang/article/details/50277279


猜你喜欢
- Python版本 实现了比之前的xxftp更多更完善的功能1、继续支持多用户2、继续支持虚拟目录3、增加支持用户根目录以及映射虚拟目录的权限
- 这篇文章主要介绍了在SQL Server中处理空值时所涉及的3个问题:计数、使用空表值以及外键处理。用COUNT(*)处理空值大多数集合函数
- 数据库的操作越来越成为整个应用的性能瓶颈,这对于Web应用尤其明显。关于数据库的性能,这并不只是DBA需要关心的,而更是后端开发需要去关注的
- CSS代码更清晰高效的一些经验是许多网页制作者与开发者都关心的问题。但是大概没有什么魔法,可以保证一下就把你的样式表缩小到百分之多少,合理的
- django外键使用 一对一因为django中处于安全和方便将数据库中的表封装成模型,所以很多sql原生的功能无法使用, 比如 left j
- 有这么一个题目,说bt其实也不bt,为了重点突出其中的意图,特意加上了括号:var a = (++Math.P
- 1、 isalnum() :判断字符串所有的字符都是字母或者数字。返回true和falseIn [1]: str1='jiangwe
- 此篇文章整理新手编写代码常见的一些错误,有些错误是粗心的错误,但对于新手而已,会折腾很长时间才搞定,所以在此总结下我遇到的一些问题。希望帮助
- 先以一个大牛的一段关于Python Metapgramming的著名的话来做开头:Metaclasses are deeper magic
- 一、map 1.基本介绍map 是 key-value 数据结构,又称为字段或者关联数组。类似其它编程语言的集合, 在编程中是经常
- 一、变量相关1.变量声明C# : int a;Go : var a int; 需要在前面加一个var关键字,后面定义类型可以使用 var(
- 本文实例讲述了Python实现网络端口转发和重定向的方法。分享给大家供大家参考,具体如下:【任务】需要将某个网络端口转发到另一个主机(for
- 傅立叶变换时数字信号处理的重要方法之一,是法国数学家傅立叶在1807年在法国科学学会上发表的一篇文章中所提出的,在文章中使用了正弦函数描述温
- 在查询中执行下列语句 EXEC sp_attach_single_file_db @dbname = 'tggov_Data'
- theme: channing-cyan网页伪静态将 * 页伪装成静态网页,可以提升网页被搜索引擎检索道德概率表现形式为:网址看着像是一个具
- gRPCgRPC远程过程调用框架是基于动作的模式,类似远程调用微服务。这使得gRPC成为一种围绕Protobufs构建的进程间通信(IPC)
- 基本介绍break语句用于终止某个语句块的执行,用于中断当前for循环或跳出switch语句基本语法{..........break....
- 鼠标回调函数:def setMouseCallback(windowName, #窗口名称onMouse, &n
- 业务难点设计一个抽奖系统,这个系统并不是具体化,是抽象化,具有以下的几个难点:1、抽奖业务需要 复杂多变2、奖品类型和概率设置3、公平的抽奖
- 如果我有个list,想判断其中的元素是否满一个条件,后面的元素大于或等于前面元素。Python中的写法就比较多了。下面就主要介绍下一般的写法