学习Python爬虫前必掌握知识点
作者:互联网老辛 发布时间:2022-10-09 04:32:57
常见的协议
http和https
http协议:
超文本传输协议,是一个发布和接受HTML页面的方法,端口是80
https 协议:http协议的加密版本,在HTTP下加上了ssl层,端口是443
下面访问的是美团的官网:
可以看到端口是443
URL和RUI
常见的请求方式
http协议规定了浏览器与服务器进行数据交互过程中必须要选择一种交互方式
在http协议中定义了8中请求方式,常见的是get和post请求
get请求: 一般只从服务器获取数据下来,并不会对服务器资源产生任何的影响。
请求的时候关注:
url请求方式请求头
post请求: 向服务器发送数据(登陆),上传文件等,会对服务器资源产生影响的时候,会使用post请求。
不过有些网站做了反爬虫机制,你去查看信息,也是使用post请求,所以我们写爬虫的时候,一定要分析网站。
常见的请求头参数:
http协议中,向服务器发送一个请求,数据分为三部分:
把数据放在url中
数据放在body中,(post请求)
数据放在head中
常见的请求头参数:
user-agent :浏览器名称
referer: 当前这个请求从哪个url过来的
cookie:http 协议是无状态的,也就是一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。
常见的相应状态码
200 请求正常,服务器正常返回数据
301 永久重定向
404 请求的url在服务器上找不到
418 发送请求遇到服务器端的反爬虫,服务器拒绝相应数据
500 服务器内部错误,可能是服务器出现了bug
HTTP的请求相应过程
使用浏览器进行网站分析
我们要分析的网站为: movie.douban.com
Elements: 用于分析网站的结构
在页面上的呈现的内容,在Elements都会有相应的元素。
Console: 这里会打印招聘信息,警告等等。
Sources
Network : 在显示页面的时候,产生的所有请求
headers 头部信息
session 与cookie
session代表的是服务器和浏览器的一次会话过程
session 是一种服务器端的机制,用来存储特定用户的会话所需要的信息,保存在内存,缓存,或者数据库中。
cookie
cooke是由服务器端生成后发送给客户端,cookie是保存在客户端的
cookie原理:
1) 创建cookie
2) 设置存储cookie
3) 发送cookie
4) 读取cookie
来源:https://zmedu.blog.csdn.net/article/details/115442584
![](https://www.aspxhome.com/images/zang.png)
![](https://www.aspxhome.com/images/jiucuo.png)
猜你喜欢
- 目录range函数zip() 函数其它内置函数数据类型转换相关内置函数变量相关函数数学相关函数进制相关函数高阶函数sorted(iterab
- 概述laravel服务容器就像一个高度自动化的工厂,你需要的东西,定制好模型,使用特定接口来制造。因为使用了服务容器,laravel中大部分
- 1.概述"""基础知识:1.多任务:操作系统可以同时运行多个任务;2.单核CPU执行多任务:操作系统轮流让各个
- 1、通过探测Flash Player的版本,来决定显示Flash内容还是替换内容,避免了过时的Flash插件影响Flash内容的正常显示。2
- 一、MySQL Workbench简介MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。
- print(X.shape):查看矩阵的行列号print(len(X)):查看矩阵的行数print(X.ndim):查看矩阵的维数1 查看矩
- Python实现文件的全备份和差异备份之前有写利用md5方式来做差异备份,但是这种md5方式来写存在以下问题:md5sum获取有些软连接的M
- 脚本调试第一步:设置中断(鼠标左键点击)第二步:输入中断条件(可选功能,鼠标右键点击红点)第三步:触发中断(当符合条件是,中断被触发)出现中
- 学习python都知道,python的第三方库是很多,如果都在本机 pip 的话,在新建项目的时候都会加载不需要用到的库,影响运行速度。而且
- 这篇文章主要介绍了Python内置加密模块用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可
- 1.认为FindControl方法寻找的范围是给定Control的后代控件。 <form id="form1" r
- Macromedia StandardMacromedia Dreamweaver MXMenu Commandsphotoshop快捷键大
- 我们在使用pycharm的时候总是很喜欢其强大的代码提示功能,只需ctrl+左键就可以查看源码,"."也能显示所含的函数
- 本文实例讲述了纯js封装的ajax功能函数与用法。分享给大家供大家参考,具体如下:AJAX = Asynchronous JavaScrip
- php5.2新增的json功能是非常受欢迎的,但是经过测试发现, json_encode对中文的处理是有问题的, 1.不能处理GB编码,所有
- 一、简介wxPython是Python语言的一套优秀的GUI图形库,允许Python程序员很方便的创建完整的、功能键全的GUI用户界面。 w
- 目录前言第一步:首先安装相关的依赖包第二步:在django项目配置文件settings.py中注册应用第三步:在django项目配置文件se
- 很多朋友在做特效网页的时候需要用到雪花飘落的效果,我们这里给大家整理了分别用JS还有JQuery两种代码实现这个效果的方式。我们先来看一下需
- 1.安装Python-LDAP(python_ldap-2.4.25-cp27-none-win_amd64.whl)pip install
- 前言MySQL查看表占用空间大小CentOS7 环境下MySQL常用命令MySQL: 范围查询优化环境介绍 :服务器: 阿里云轻量应用服务器