用Python爬取某乎手机APP数据
作者:不加班的程序员丶 发布时间:2021-02-03 17:04:59
一、配置抓包工具
1.安装软件
本文选择的抓包工具:Fiddler
具体的下载安装这里不详细赘述!(网上搜Fiddler安装,一大堆教程),本文以实战为例,就不再这里浪费时间了!
2.配置Fiddler
安装好之后,接下来就开始配置Fiddler工具(这里是关键,仔细阅读!)
配置Connections
打开Fiddler后,点击Tools->Options
点击Connections
勾选上对应的选项
配置HTTPS
由于目前大部分APP都是https加密,包括本文实战『某乎』案例也是https加密,因此配置HTTPS,来抓取https数据包!
勾选上对应的选项
最后抓包工具Fiddler就配置好了
记得重启Fiddler!重启Fiddler!重启Fiddler!不然可能不生效
二、配置手机代理
1.设置代理
准备工作
首先看一下安装Fiddler主机ip(电脑和手机必须处于同一局域网)
查看ip命令
window:ipconfig
开始配置
目标代理主机信息
ip:192.168.31.195
端口:8888
在wifi无线网处进去,点击配置代理
填写好相关代理信息
2.安装证书
在浏览器输入:
http://192.168.31.195:8888
点击下载证书后,下面就开始安装(看图操作)
ok,这样手机端就配置完成,下面开始抓取数据!!!
三、抓取数据
1.打开某乎app
2.查看数据包列表
打开app之后,Fiddler就已经抓取到数据了
这里可以看到app发送和接收了哪些数据包
为了更加精准定位到某乎(只看目标的数据包),添加一个过滤条件
这样我们获取的数据包列表就都是过滤条件内的目标网址
3.查找数据包
比如点击热榜
对应的https加密数据包如下:
数据包中的数据如下:
提取出url链接
https://api.zhihu.com/topstory/hot-list?limit=10&reverse_order=0
拿到url之后,接着开始编程爬取保存数据。
4.编写爬虫程序
# -*- coding: utf-8 -*-
ok这样就可以将数据获取下来!
四、总结
1.配置抓包工具Fiddler(重点)。
2.ios苹果手机配置证书和设置代理(安卓手机也类似)。
3.简单使用Fiddler(过滤数据包、查看数据包等)。
4.本文以某乎为实战,实现了python爬取手机app数据
来源:https://blog.csdn.net/lh9987/article/details/117855406


猜你喜欢
- 设置部分:首先网页登录QQ邮箱设置一些待会儿会用到的参数:首先开启POP3/SMTP和IMAP/SMTP服务,然后生成授权码,然后复制到代码
- 如果你学过操作系统,那么对于锁应该不陌生。锁的含义是线程锁,可以用来指定某一个逻辑或者是资源同一时刻只能有一个线程访问。这个很好理解,就好像
- 一:概念 队列是一个”先进先出“
- 本文介绍基于Python中gdal模块,实现对大量栅格图像批量绘制直方图的方法。首先,明确一下本文需要实现的需求:现需对多幅栅格数据文件进行
- 为什么要做这个?mock 第三方服务时,需要使用,另外包括自身开发,有时也会用到python#!/usr/bin/env python2#
- 1 前言在工作中时常会有繁重的文案工作,接触了python 之后,就会觉得这个比较简单了,python 操作word 和 excel 是比较
- 1. 为什么不使用GridView的默认分页功能 首先要说说为什么不用GridView的默认的分页功能,GridView控件并非真正知道如何
- cv的xdm可以直接翻到 需求 和 代码 用,想看中间的分析就老实往下看吧little 背景最近在做毕设,需要将几百篇整体结构差不多的文章中
- 代码问题:控制台和日志的文件的等级设置要放在logger = logging.getLogger('myloger')实例化
- 1,下载Yii,站点:http://www.yiiframework.com/download/注意版本,这里是根据Yii1来的,如果是Yi
- 本文实例讲述了python执行shell获取硬件参数写入mysql的方法。分享给大家供大家参考。具体分析如下:最近要获取服务器各种参数,包括
- 本文实例讲述了Python学习笔记基本数据结构之序列类型list tuple range用法。分享给大家供大家参考,具体如下:list 和
- 一、 下载MySQLMysql官网下载地址:MySQL :: Download MySQL Installer (Archived Vers
- 今天为大家介绍使用 mitmproxy 这个抓包工具如何监控手机上网,并且通过抓包,把我们想要的数据下载下来。启动 mitmproxy首先我
- 在Python中使用json的时候,主要也就是使用json模块,json是以一种良好的格式来进行数据的交互,从而在很多时候,可以使用json
- 1.ROW_NUMBER()基本用法:SELECT SalesOrderID, CustomerID,
- 一、现状Python 有诸多优秀的 Web 开发框架供我们使用,比如Django、Flask、Sanic。正常的情况下,我们基于这些 Web
- 涉及到的函数为import matplotlib.pyplot as pltfrom skimage import measure, col
- 我首次用mysql是在ubuntu上,现在用的是linux 中的Red Hat 分支的centOS 7 ,安装时发现通常用的都是MariaD
- 1.介绍切片并发问题关于切片的,Go语言中的切片原生支持并发吗?2.实践检验真理实践是检验真理的唯一标准,所以当我们遇到一个不确定的问题,直