python超详细实现字体反爬流程
作者:梦想橡皮擦 发布时间:2022-08-30 22:39:03
查策实战场景
本次要采集的目标站点是查策,该测试站点如下所示。
目标站点网址如下
www.chacewang.com/chanye/news?newstype=sbtz
该站点的新闻资讯类信息很容易采集,通过开发者工具查看了一下,并不存在加密反爬。
但字体反爬还是存在的,案例寻找过程非常简单,只需要开发者工具切换到网络,字体视图,然后预览一下字体文件即可。
可以看到仅数字进行了顺序变换。
接下来就是实战解码的过程,可以通过 FontCreator 查看一下该字体内容。
字体实战解码
随机下载一个字体文件打开之后发现出事情了,字体文件内容如下所示。
其中除了简易的数字外,还存在大量的中文字符,也就是存在一种可能性,网页中的部分中文字符也被替换掉了。
我们拿一个【类】字做一下测试。
结果在页面中检索了一下,发现并没有发生变化,而且通过计算样式查看,得到的字体是平方和微软雅黑?
可能网站升级之后,字体反爬只保留了数字部分。
既然这样,那整体的难度就降低了~
我们随机访问一个页面,获取其网页源码内容。
访问公告类信息,需要提前登录,注册一个账号即可
import requests
headers = {
"content-type": "application/json",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) 你的 UA 信息",
"Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
"cookie": "cityinfo={%22citycode%22:%22RegisterArea_HBDQ_Hebei_ShiJiaZhuangShi%22%2C%22cityname%22:%22%E7%9F%B3%E5%AE%B6%E5%BA%84%22}; 你的 COOKIES 信息"
}
res = requests.get('https://www.chacewang.com/news/detail?guid=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
print(res.text)
结果运行代码之后,返回了一堆乱码。
橡皮擦原以为还有什么加密逻辑存在,结果发现多虑了,只是一个异步加载,真正的数据接口在下面。
web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo
接口一换,数据就可以获取到了。
import requests
headers = {
"content-type": "application/json",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36",
"Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
"authorization": "Bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1Ni 这个值每次登录都会切换"
}
res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
print(res.text)
此时也发现了数据差异,接口返回和页面展现,差异如下所示。
此时字体反爬逻辑已经发现,但是字体文件还存在如下逻辑:
每次请求有 2 个字体文件,确定哪一个影响;
字体文件每次刷新都会产生变化;
字体文件名每次刷新都会产生变化。
解决第一个问题,确定目标字体文件,该操作很简单,只需要通过文件替换规则比对即可,例如下图中响应中的 0 被替换为 2。
解决第三个问题,如何获取字体文件名。
在网络视图页面,唤醒搜索框,搜索字体文件名,发现其在 2 个请求中出现。第一个是字体文件,第二个是我们上文请求的数据接口。
检索之后发现字体文件名在接口返回的 news_set
参数中,并且是部分字符串,稍后我们截取字符串即可。
字体反爬编码时间
下面我们编写获取字体文件的代码,如下所示,下述代码注意自行获取一下 UA 值和 authorization 值。
import requests
headers = {
"content-type": "application/json",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) ",
"Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
"authorization": "Bearer "
}
res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
# 获取字体文件名
font_name = res.json()['data']['news_set'][:16]
res = requests.get(f'https://web.chace-ai.com/media/fonts/{font_name}.woff', headers=headers)
# 保存字体文件
file_woff =f'./fonts/{font_name}.woff'
with open(file_woff, 'wb') as f:
f.write(res.content)
后续逻辑就变得简单了,本文仅展示字体呈现部分逻辑,其安装 fontTools
模块,并使用下述命令行导入相关功能。
from fontTools.ttLib import TTFont
字体文件读取代码如下所示。
# 读取文件
with open(file_woff, 'rb') as font_file:
font = TTFont(io.BytesIO(font_file.read())) # 转换成字体对象
print(font)
# 获取 cmap
font_obj = font['cmap']
# 获取 cmap table
font_tables = font['cmap'].tables
uni_list = font['cmap'].tables[0].ttFont.getGlyphOrder()
print(uni_list[2:12])
查策,查策,就这么简单的解决了站点
来源:https://blog.csdn.net/hihell/article/details/124705025
猜你喜欢
- asp之家注:也许你还没有接触过使用js来调用asp文件,也许你也不知道如何用JS调用asp文件,甚至你也不知道JS调用asp文件有什么好处
- pip install *** :Cannot connect to proxy在使用pip install 安装任何新的包都会出现下面错误
- 本文系统的对HTTP Headers进行了简明易懂的阐述,我仅稍作笔记。什么是HTTP HeadersHTTP是“Hypertext Tra
- 本文实例为大家分享了FormData上传多个文件的具体代码,供大家参考,具体内容如下由于项目中使用到,特此写个Demohtml代码:<
- 一、python代码实现及turtle库简单介绍桌面时钟项目描述1、使用turtle库绘制时钟外形及表针;2、使用datetime获取系统时
- 在网站开发过程中,经常会遇到这样的需求:用户登陆系统才可以访问某些页面,如果用户没有登陆而直接访问就会跳转到登陆界面。要实现这样的需求其实很
- JavaScript toLowerCase 方法toLowerCase 方法用于把(英文)字符串转换为小写,并返回转换后的字符串。其语法如
- 基本思路:首先用开发者工具找到需要提取数据的标签列利用xpath定位需要提取数据的列表然后再逐个提取相应的数据:保存数据到csv:利用开发者
- 需要实现的效果是: 固定放大两倍,鼠标进入到左侧图片区域的时候,遮罩层显示,离开时,遮罩层隐藏。 css中的cursorhttps
- 目的实现字符串的左对齐,右对齐,居中对齐。方法 字符串内置了以下方法:其中width是指包含字符串S在内的宽度,fillchar默认是空格,
- 1. 时间差函数(TIMESTAMPDIFF、DATEDIFF)需要用MySQL计算时间差,使用TIMESTAMPDIFF、DATEDIFF
- 问题setInterval 是间隔调用,与之类似的还有 setTimeout。这两个 API 通常用来做 ajax 短连接轮询数据。比如有一
- 本文实例讲述了Python求解平方根的方法。分享给大家供大家参考。具体如下:主要通过SICP的内容改写而来。基于newton method求
- 一、前言之前做了一个算法作业,叫做棋盘覆盖,本来需要用c语言来编写的,但是因为我的c语言是半桶水(哈哈),所以索性就把网上的c语言写法改成J
- 首先关键一句话:$(".js-example-tags").select2({ tags:
- Python 定义了全局变量的特性,使用global 关键字修饰global key_word但是他的一大缺陷就是只能本module 中也就
- 近来有客户要求用table显示一大串数据,由于滚动后就看不到表头,很不方便,所以想到这个效果。上次做table排序对table有了一些了解,
- commit之后第一种:记住大概的时间,获取前大概时间的数据。select * from Test as of timestamp to_t
- 有时候,我们需要在字符串中加入相应的变量,以下提供了几种字符串加入变量的方法:1、+ 连字符name = 'zhangsan'
- 在学习vue的时候,遇到很多问题,这里做一些总结,持续更新。今天说一个问题,就是在学习vue的时候,从之前的1.0版本升级到2.x的时候,遇