Python基于文件内容实现查找文件功能
作者:渴望力量的哈士奇 发布时间:2022-04-13 11:17:47
标签:Python,文件,内容,查找
该章节将学习关于文件查找的操作,大家都知道,无论是 Linux 系统还是 Windows 系统都有基于文件名实现过滤、查找的功能。但是如果想要查找一些关于某些文件指定内容的文件,好像无论是 Linux 还是 Windows 明面上没有这样的功能了。这个时候就可以通过 Python 来实现这样的功能,通过该章节的学习,就可以学习到该功能的如何利用 Python 实现这样的操作。
文件查找操作
glob 的介绍
glob 包是一个快速查找文件夹中内容的包,可以通过模糊查找的形式找到我们想要的内容。
glob 的基本使用
导入包与模块
from glob import glob
使用方法
glob(任意目录)
返回内容:
指定路径下的内容列表,不存在的路径返回空列表。
代码示例如下:
# coding:utf-8
import os
from glob import glob
target = os.getcwd()
result = glob(target)
print(result) # 打印输出当前路径的文件夹
result = glob(target + '/*')
print(result) # 打印输出当前路径的文件夹下的所有文件
result = glob(target + '/*.py')
print(result) # 打印输出当前路径的文件夹下的所有以 "py" 结尾的文件
result = glob(target + '/*.zip')
print(result) # 打印输出当前路径的文件夹下的所有以 "zip" 结尾的文件
result = glob(target + '/filetest*')
print(result) # # 打印输出当前路径的文件夹下的所有以 "filetest" 开头的文件
运行结果如下:
查找指定的文件
已知条件:
想查找的文件名已经知道,但是目录在哪里并不知道。
实现方法:
利用 "glob" 从最上级目录开始查找,利用递归模式,不断的查找,直到找到为止。
代码示例如下:
# coding:utf-8
import glob
"""
获取当前路径下所有内容
判断每个内容的类型(文件夹还是文件)
若是文件夹则继续递归查找
"""
path = glob.os.path.join(glob.os.getcwd(), '*') # 获取当前文件夹下的所有内容
# glob 模块其实已经包含了 "os" 模块
final_result = [] # 定义一个空列表,用以存储 search() 函数查到的内容
def search(path, target): # 定义 search() 函数,传入 "path" 文件路径, "target" 要查找的目标文件
result = glob.glob(path)
for data in result: # for 循环判断递归查到的内容是文件夹还是文件
if glob.os.path.isdir(data): # 若是文件夹,继续将该文件夹的路径传给 search() 函数继续递归查找
_path = glob.os.path.join(data, '*')
search(_path, target)
else: # 若是文件,则将该查询到的文件所在路径插入 final_result 空列表
if target in data:
final_result.append(data)
return final_result
if __name__ == '__main__':
result = search(path, target='filetest.py')
print(result)
运行结果如下:
基于文件内容查找文件
接下来我们看一下查找指定内容的文件:
已知条件:
文件中包含有某些关键字,但是不知道文件名和文件所在路径
实现方法:
利用 "glob" 从最上级目录开始查找,利用递归模式,不断的查找。如果是文件夹则进入继续查找,是文件则读取,判断是否包含该内容,返回该内容的文件名以及所在路径。
其实,基于文件内容查找文件实现的方式大体与上文的查找指定文件大体相似,只不过加入了读取文件的判断罢了。
代码示例如下:
# coding:utf-8
import glob
"""
获取当前路径下所有内容
判断每个内容的类型(文件夹还是文件)
若是文件夹则继续递归查找
"""
path = glob.os.path.join(glob.os.getcwd(), '*test04') # 因为下文捕获不可读文件格式太多,所以这里直接指定了 "test04" 路径
final_result = [] # 定义一个空列表,用以存储 search() 函数查到的内容
def search(path, target): # 定义 search() 函数,传入 "path" 文件路径, "target" 要查找的目标文件
result = glob.glob(path)
for data in result: # for 循环判断递归查到的内容是文件夹还是文件
if glob.os.path.isdir(data): # 若是文件夹,继续将该文件夹的路径传给 search() 函数继续递归查找
_path = glob.os.path.join(data, '*')
search(_path, target)
else: # 若是文件,则将该查询到的文件所在路径插入 final_result 空列表
f = open(data, 'r') # 利用 open() 函数读取文件,并通过 try...except... 捕获不可读的文件格式(.zip 格式)
try:
content = f.read()
if target in content:
final_result.append(data)
except:
print('这是不可读文件格式的文件的所在路径:{} '.format(data))
continue
finally:
f.close()
return final_result
if __name__ == '__main__':
result = search(path, target='测试文件')
print(result)
运行结果如下:
来源:https://blog.csdn.net/weixin_42250835/article/details/124621368


猜你喜欢
- 不止python,你可以利用任何语言那实现通过http请求来操作你自己的小程序云数据库了背景也是在最近吧,小程序更新了云开发 HTTP AP
- 项目功能地图编辑器:可以实现玩家自己定义每一关卡的样式和难易程度运行界面:实现了玩家的移动,跳跃,发射 * ,投掷 * ,以及敌人的AL(移动,
- 前言:上一篇文章详细介绍windows下MySQL安装教程,这篇就从最基本的安装MySQL-Linux环境开始,感兴趣的小伙伴可以关注我,系
- 一、安装在 cmd 命令中输入: pip install pygame即可安装成功了二、第一个代码实例代码快里面有注释,想必大家都可以看懂的
- jupyter中显示的DataFrame过长时会自动换行(print()显示方式)或自动省略(单元格最后一行直接显示),在一些情况下看上去不
- count(*)实现1、MyISAM:将表的总行数存放在磁盘上,针对无过滤条件的查询可以直接返回如果有过滤条件的count(*),MyISA
- 实际项目中会涉及到需要对有些函数的响应时间做一些限制,如果超时就退出函数的执行,停止等待。可以利用python中的装饰器实现对函数执行时间的
- 缓存是指可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速度很快。缓存就是把一些数据暂时存放于某些地方,可能是内存,也有可能硬
- Vue.js是一个JavaScript框架,可用于构建Web应用程序的前端框架。特别是在创建复杂功能时,对于每个项目,有必要在我们的应用程序
- 在许多编程语言中都包含有格式化字符串的功能,比如C和Fortran语言中的格式化输入输出。Python中内置有对字符串进行格式化的操作%。模
- networkx是Python的一个包,用于构建和操作复杂的图结构,提供分析图的算法。图是由顶点、边和可选的属性构成的数据结构,顶点表示数据
- 鼠标经过超链时的提示图层源码运行代码框<script>var oPopup = window.createPopup();fun
- 一、requests库requests是使用Apache2 licensed 许可证的HTTP库。比urllib模块更简洁。Request支
- Timer继承子Thread类,是Thread的子类,也是线程类,具有线程的能力和特征。这个类用来定义多久执行一个函数。它的实例是能够延迟执
- 前言无论是单机锁还是分布式锁,原理都是基于共享的数据,判断当前操作的行为。对于单机则是共享RAM内存,对于集群则可以借助Redis,ZK,D
- 前言使用python实现设计模式中的单例模式。单例模式是一种比较常用的设计模式,其实现和使用场景判定都是相对容易的。本文将简要介绍一下pyt
- 一、生成日期数据import pandas as pdpd.date_range( )同生成随机数的思想类似,使用pandas库中的函数pd
- 简介 函数式编程语言在学术领域已经存在相当长一段时间了,但是从历史上看,它们没有丰富的工具和库可供使用。随着 .NET 平台上的
- 1. 函数求一阶导import tensorflow as tftf.enable_eager_execution()tfe=tf.cont
- 一、Flowable数据库表命名规则ACT_RE_*:’RE’表示repository(存储)。Re