Python使用requests模块爬取百度翻译
作者:Keep__Studying 发布时间:2023-07-31 14:17:22
标签:Python,requests,模块,翻译
requests模块:
python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发请求。
提示:老版使用 urllib模块,但requests比urllib模块要简单好用,现在学习requests模块即可!
requests模块编码流程
指定url
1.1 UA伪装
1.2 请求参数的处理
2.发起请求
3.获取响应数据
4.持久化存储
环境安装:
pip install requests
案例一:破解百度翻译(post请求)
1.代码如下:
#爬取百度翻译
#导入模块
import requests
import json
#UA伪装:将对应的User-Agent封装到一个字典中
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/57.0.2987.98 Safari/537.36'}
#网页访问连接
url='https://fanyi.baidu.com/sug'
#处理url携带的参数:封装到字典中
word=input("input a word: ")
data={
'kw': word
}
#请求发送
res=requests.post(url=url,data=data,headers=headers)
#获取响应数据:json()方法返回的是obj(如果确认响应数据是json类型的,才可以使用json())
dic_obj=res.json()
#持久化存储
filename=word+'.json'
fp=open(filename,'w',encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False)
#打印完成提示
print('finish')
其中:
https://fanyi.baidu.com/sug 这个url的定位如下图:
2.运行结果
案例二:爬取搜狗页面数据(get请求)
1.代码如下
import requests
if __name__ == "__main__":
#step_1:指定url
url = 'https://www.sogou.com/'
#step_2:发起请求
#get方法会返回一个响应对象
response = requests.get(url=url)
#step_3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
#step_4:持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束!!!')
2.运行结果如下:
来源:https://blog.51cto.com/13760351/2512069


猜你喜欢
- 第一部分:判断两张图片是否相同要查找重复的图片,必然绕不开判断两张图片是否相同。判断两张图片简单呀!图片可以看成数组,比较两个数组是否相等不
- 为什么使用虚拟环境因为直接在真实环境进行安装python的包会造成环境之间的污染,因此需要创建虚拟环境,原则上每一个项目都需要有一个独属于自
- 正在看的ORACLE教程是:Oracle数据库的备份与恢复。---- 当我们使用一个数据库时,总希望数据库的内容是可靠的、正确的,但由于计算
- 1、注意:pool必须在 if __name__ == '__main__' 下面运行,不然会报错2、多进程内出现错误会直接
- “小程序”破解IDE + Demo:https://github.com/gavinkwoe/weapp-ide-crack.git资源汇总
- 一、下载xlsx插件npm i xlsx二、通过element-ui组件的upload组件上传文件<el-upload
- 看一个例子d={'test':1}d_test=dd_test['test']=2print d如果你在命令
- 一、修改表格数据类型 DataFrame 列的顺序实战场景:Pandas 如何修改表格数据类型 DataFrame 列的顺序1.1
- Burp Suite是什么Burp Suite 是用于攻击web 应用程序的集成平台。它包含了许多Burp工具,这些不同的burp工具通过协
- 提示框提示框的基本使用方式为:<span data-toggle="tooltip" data-original-
- 目录需求说明Do it需求说明如图,我想要实现当点击字母L,页面定位到L开头的城市名Do it1.找到字母表的页面在html标签绑定一个cl
- 下面看下Ubuntu 18.04.4安装mysql的过程,内容如下所示:1 sudo apt-get update2 sudo a
- 1、打开本地企业管理器,先创建一个SQL Server注册来远程连接服务器端口SQL Server。步骤如下图:图1:2、弹出窗口后输入内容
- python中向上取整可以用ceil函数,ceil函数是在math模块下的一个函数。向上取整需要用到 math 模块中的 ceil() 方法
- 本文实例为大家分享了php微信公众号获取位置信息的具体代码,供大家参考,具体内容如下<?php/** * wechat php tes
- (wuhen注:document.all是ie特有的属性,不是万维网标准) 当页面上的控件同名且多个的时候,你首先做的是什么?判断长度?的确
- 参考Go的CSP并发模型实现:M, P, GGo语言是为并发而生的语言,Go语言是为数不多的在语言层面实现并发的语言。并发(concurre
- 金额大小写转换的asp完全无错版本, 这个版本解决了小数位不能到分的问题,处理方式符合会计方式,值得推荐!<!--#inc
- SQLServer数据库从高版本降级到低版本实例详解由于目前还广泛使用着SQLServer2000,很多公司又想使用新的SQLServer,
- 前言Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫