python实现递归查找某个路径下所有文件中的中文字符
作者:weiguang1111 发布时间:2021-12-11 09:13:18
标签:python,递归查找,中文字符
本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下
# -*- coding: utf-8 -*-
# @ description:
# @ author:
# @ created: 2018/7/21
import re
import sys
import os
reload(sys)
sys.setdefaultencoding("utf8")
def translate(str):
out = set()
line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
zh = " ".join(p2.split(line)).strip()
# zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
for s in zh.split():
out.add(s) # 经过相关处理后得到中文的文本
return out
def extract_file(path):
result = set()
try:
f = open(path) # 打开文件
lines = f.readlines()
for line in lines:
string = translate(line)
if string:
result.update(string)
except Exception as e:
pass
return result
def extract(path):
result = set()
files = os.listdir(path)
for file in files:
if not file.startswith("."):
if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
sub_file = extract_file(path + "/" + file)
if sub_file:
result.update(sub_file)
else:
print file
child = extract(path + "/" + file)
if child:
result.update(child)
return result
if __name__ == '__main__':
path = "/Users/common"
result = extract(path)
res_file = open("result.txt", "w")
for s in result:
res_file.write(s + "\n")
来源:https://blog.csdn.net/weiguang111/article/details/81319421


猜你喜欢
- 记录一下:# Three loss functionscategory_predict1 = Dense(100, activation=&
- 先使用 Ms Access 压缩修复,然后再去相关的表把备注类型的字段里的“索引”去掉 备注型字段为什么不能超过1950字节?是由于备注型字
- 目录一、建立画布二、用plt.subplot函数建立坐标系,并分别绘制折线图和柱状图三、完整代码如下所示四、对应效果图如下所示一、建立画布i
- 前言加密解密在实际开发中应用比较广泛,常用加解密分为:“对称式”、“非对称式&a
- 在图书馆的检索系统中,关于图书的信息里面有一个是图书相关借阅关系图。跟这个社交网络图是一样的,反映了不同对象间的关联性。利用python画社
- window.location.pathname 比如: /windows/location/page.html 我想得到“windows”
- 1.在pycharm下安装scrapy函数库2.将安装好scrapy函数库下的路径配置到系统path的环境变量中3.打开cmd终端输入:sc
- 经过一段时间的开发与测试,终于发布了Lms框架的第一个正式版本(1.0.0版本),并给出了lms框架的样例项目lms.samples。本文通
- 说明1、Task是Future的子类,Task是对协程的封装,我们把多个Task放在循环调度列表中,等待调度执行。2、Task对象可以跟踪任
- 一 Django的视图函数view一个视图函数(类),简称视图,是一个简单的Python 函数(类),它接受Web请求并且返回Web响应。响
- 一、什么是Perl Hash哈希是一种数据结构,和数组类似,可以将值存放到其中,或者从中取回值。但是,和数组不同的是,其索引不是数字,而是名
- 本文实例讲述了python实现向ppt文件里插入新幻灯片页面的方法。分享给大家供大家参考。具体实现方法如下:# -*- coding: UT
- 安装jieba库教程jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,
- 简介Type Hint(或者叫做PEP-484)提供了一种针对Python程序的类型标注标准。为什么使用Type Hint?对于动态语言而言
- create proc sp_PublicTurnPageWebSite( @TBName nvarchar(
- 最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,
- 很久以前做的东西,发出来大家玩玩!<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
- asp编程手工定义参数的方法: Dim con As ADODB.Connection
- 今天的第二个作品,哈哈哈哈,搞起来感觉还挺有意思的,不过代码里纸牌J,Q,K,A几个数字被我替换成了11,12,13,14......主要是
- 周一 至 周日 时间格式化转化(Y --- 年 M --- 月 D--- 天)