使用Python自动化破解自定义字体混淆信息的方法实例
作者:李毅 发布时间:2022-05-24 20:15:34
标签:python,破解,爬虫,字体混淆
注意:本示例仅供学习参考~
混淆原理
出于某种原因,明文信息通过自定义字体进行渲染,达到混淆目的。
举个例子:
网页源码 <p>123</p>
在正常字体的渲染下,浏览者看到的是 123 这 3 个数字。
如果创建一种自定义字体,把 1 渲染成 5,那么浏览者看到的便是 523 这 3 个数字。
这样便达到混淆信息的效果,常见于对付爬虫之类的自动化工具。
破解方法
下载自定义字体文件(通常在 css @font-face 中找到),保存成 a.ttf 文件。
安装以下依赖项目
tesseract 4.0 及以上版本,以及简体中文(chi_sim)和英文(eng)数据文件。
python tesserocr 最新源码(github)版本。
python fonttools 库。
python pillow 库。
运行以下代码
# -*- coding: utf-8 -*-
本例采用 tesseract OCR 引擎,根据字体文件自动生成密文与明文的字符映射表,实现解密功能。
@author: 李毅
from tesserocr import PyTessBaseAPI, PSM
from PIL import Image, ImageDraw, ImageFont
from fontTools.ttLib import TTFont
import string
class OCR(object):
default_config = {
# ocr engine
'data_path': None,
'lang': 'chi_sim',
'white_list': None,
'black_list': None,
# image
'font': None,
'image_size': (60, 60),
'font_size': 30,
'text_offset': (15, 15),
}
def __init__(self, config={}):
c = dict(self.default_config)
c.update(config)
self.api = PyTessBaseAPI(path=c['data_path'], lang=c['lang'], psm=PSM.SINGLE_CHAR)
self.img = Image.new('RGB', c['image_size'], color='white')
self.draw = ImageDraw.Draw(self.img)
self.font = ImageFont.truetype(c['font'], size=c['font_size'])
self.text_offset = c['text_offset']
if c['white_list']:
self.api.SetVariable('tessedit_char_whitelist', c['white_list'])
if c['black_list']:
self.api.SetVariable('tessedit_char_blacklist', c['black_list'])
self.font_tool = TTFont(c['font'])
self.empty_char = self._predict_empty_char()
def _predict_empty_char(self):
self.api.SetImage(self.img)
return self.api.GetUTF8Text().strip()
def is_char_in_font(self, char):
for t in self.font_tool['cmap'].tables:
if t.isUnicode():
if ord(char) in t.cmap:
return True
return False
def predict(self, char):
''' 返回转换后的字符,或空串'' '''
if not self.is_char_in_font(char):
return char # 若字体无法渲染该字符,则原样返回。此处可酌情移除。
self.img.paste('white', (0, 0, self.img.size[0], self.img.size[1]))
self.draw.text(self.text_offset, char, fill='black', font=self.font)
self.api.SetImage(self.img)
c2 = self.api.GetUTF8Text().strip()
if c2 == self.empty_char:
return '' # 某些字符可能渲染成空白,此时返回空串。
return c2
class Decoder(object):
def __init__(self, data_path, font):
self.cache = {} # 缓存已知的映射关系。
OCR.default_config.update(dict(data_path=data_path, font=font))
self.ocr_digit = OCR(dict(
lang='eng',
white_list=string.digits,
black_list=string.ascii_letters,
))
self.ocr_letter = OCR(dict(
lang='eng',
black_list=string.digits,
white_list=string.ascii_letters,
))
self.ocr_other = OCR()
def decode(self, char):
if char not in self.cache:
c2 = self._decode_when_cache_miss(char)
self.cache[char] = c2 or char
return self.cache[char]
def _decode_when_cache_miss(self, char):
ocr = self.ocr_other
if char in string.digits:
ocr = self.ocr_digit
elif char in string.ascii_letters:
ocr = self.ocr_letter
return ocr.predict(char)
if __name__ == '__main__':
s = '''你好,青划长务, 8175-13-79'''
d = Decoder('tessdata/', 'a.ttf')
print(''.join(map(d.decode, s)))
来源:https://segmentfault.com/a/1190000015337086
0
投稿
猜你喜欢
- 现在介绍加速网页图形显示速度的六种方法,为你解决这个难题。其最基本的宗旨就是,让你用买鱼的价钱,品尝到熊掌的美味和营养。 1.首先要确定图像
- 1.新建四个层,放入相应图片,模特层的z-index值设为0。2.把第一个层移到模特身上,找出衣服刚好穿上时层的top和left值,记下来,
- python的多重继承的理解Python和C++一样,支持多继承。概念虽然容易,但是困难的工作是如果子类调用一个自身没有定义的属性,它是按照
- 1998年,W3C发布HTML 4.0 Specification,里面清清楚楚的写了每个标签的用法和语义。搜索引擎的算法参考了W3C的语义
- Python自动的os库是和操作系统交互的库,常用的操作包括文件/目录操作,路径操作,环境变量操作和执行系统命令等。文件/目录操作获取当前目
- 这个自定义损失函数的背景:(一般回归用的损失函数是MSE, 但要看实际遇到的情况而有所改变)我们现在想要做一个回归,来预估某个商品的销量,现
- 在使用Python做socket编程时,由于需要使用阻塞(默认)的方式来读取数据流,此时对于数据的结束每次都需要自己处理,太麻烦。并且网上也
- 用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章。我大体看了一下,主要方法有几类:一类是通过对图片进
- 写入文件使用open()函数和write()函数但是有两种写法,分别是'a'和'w'。'a'
- 测试代码1:def test(self): data = {"add": {"doc":
- 简介卷积神经网络(Convolutional Neural Network, CNN)是深度学习技术中极具代表的网络结构之一,在图像处理领域
- 近日因为升级系统的需要,将旧mysql数据库从3.23升级到5.0.41先从mysql3.23中mysqldump出数据文件data.sql
- 将纸的材质融为设计元素现已成为当今网页设计最热门最流行的设计趋势之一。网页设计师可以使用纸屑、硬纸板纹理材质、笔记本和记事薄构成有趣而复杂的
- Symfony2是一个基于PHP语言的Web开发框架,有着开发速度快、性能高等特点。本文以一个程序示例的实现过程详细叙述了Symfony2框
- 1. 区分读锁定 和 写 锁定。 如果每次都使用 写锁定,那么连多个进程读取一个文件也要排队,这样的效率肯定不行。 2. 区分 阻塞 与 非
- 许多网页开发者想从ASP.NET 页面传递一个值到另一个页面(比如从一个框架frame页面到一个弹窗页面)。看了代码就明白了。呵呵。(一)向
- Python有大量强大又贴心的特性,如果要列个最受欢迎排行榜,那么装饰器绝对会在其中。初识装饰器,会感觉到优雅且神奇,想亲手实现时却总有距离
- 今天有一位同学给了我一个excel文件,要求读取某些行,某些列,然后我试着做了一个demo,这里分享出来,希望能帮到大家:首先安装xlrd:
- Python ORM 概览作为一个美妙的语言,Python 除了 SQLAlchemy 外还有很多ORM库。在这篇文章里,我们将来看看几个流
- 本文实例讲述了python 队列基本定义与使用方法。分享给大家供大家参考,具体如下:队列的特征是:先进先出应用场景:消息通信、多进程间的协同