使用requests库制作Python爬虫
作者:豆芽菜橙 发布时间:2023-08-17 21:43:23
标签:requests库,Python爬虫
使用python爬虫其实就是方便,它会有各种工具类供你来使用,很方便。Java不可以吗?也可以,使用httpclient工具、还有一个大神写的webmagic框架,这些都可以实现爬虫,只不过python集成工具库,使用几行爬取,而Java需要写更多的行来实现,但目的都是一样。
下面介绍requests库简单使用:
#!/usr/local/env python
# coding:utf-8
import requests
#下面开始介绍requests的使用,环境语言是python3,使用下面的网址作为参考
#http://www.sse.com.cn/market/bonddata/data/tb/
request_param = {'jsonCallBack': 'jsonpCallback6588',
'isPagination': 'true',
'sqlId': 'COMMON_BOND_XXPL_ZQXX_L',
'BONDTYPE': '地×××府债券',
'pageHelp.pageSize': '25',
'pageHelp.pageNo': '2',
'pageHelp.beginPage': '2',
'pageHelp.cacheSize': '1',
'pageHelp.endPage': '21'}
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
referer = 'http://www.sse.com.cn/market/bonddata/data/ltb/'
#设置headers
headers = {'User-Agent': user_agent, 'Referer': referer}
#设置代理
proxy = {
"http":"http://113.214.13.1:8000"
}
# 需要请求的URL地址
request_url = 'http://query.sse.com.cn/commonQuery.do?'
#设置请求地址
response = requests.get(request_url, headers=headers, proxies=proxy, params=request_param);
print(response.status_code)
#文本响应内容
print(response.text)
#json格式响应内容
print(response.json())
#二进制响应内容
print(response.content)
#原始格式
print(response.raw)
来源:http://blog.51cto.com/shangdc/2090765


猜你喜欢
- 导言在前面的教程里我们学习了DataList提供了一些风格样式的属性.而且我们还学习了如何定义HeadStyle, ItemStyle, A
- 缩略图在很多时候我们都需要将图片按照同比例缩小有利于存储 但是一张张手动去改的话太麻烦了 今天我们就用python实现一个简单的将一个文件夹
- 1、拆箱>>> a, b, c = 1, 2, 3>>> a, b, c(1, 2, 3)>>
- 比如,我要建立一个1,000,000行的数字表: CREATE TABLE dbo.Nums(n INT NOT NULL PRIMARY
- 搞了一上午,头都大了!最终解决问题。其实这问题老早就遇上了,但是比较懒,三下两下没整好便推开了搜索了一下,产生< msxml3.dll
- tf.gather和gather_nd从params中收集数值,tf.scatter_nd 和 tf.scatter_nd_update用u
- 一、前言这篇文章我们将讲解如何将ASP.NET Core 程序部署到Linux。这里我们使用的是虚拟机里面安装的Centos7。这里的ASP
- python的format函数通过{}来格式化字符串>>> a='{0}'.format(123)>
- 本文实例讲述了Python基于csv模块实现读取与写入csv数据的方法。分享给大家供大家参考,具体如下:通过csv模块可以轻松读取格式为cs
- 实例如下:function unescape($str) { $str = rawurldecode($str);
- 知识点: Array方法: sort:降序 reverse:反序 效果: 代码: <style> *{ margin
- 目录通过python的tkinter实现简单的注册登录代码截图登录页面注册页面个人主页修改个人信息失败修改个人信息成功重新登录twb总结通过
- 前言个人感觉骨架提取提取的就是开运算过程的不可逆。一.算法步骤1.算法步骤首先上一下比较官方的算法步骤:1.获得原图像的首地址及图像的宽和高
- 本文实例讲述了python通过apply使用元祖和列表调用函数的方法。分享给大家供大家参考。具体实现方法如下:def my_fuc(a, b
- 如下所示:In [1]: import pandas as pd ...: df=pd.DataFrame({"a":[
- 目录1、可迭代对象1.1什么是可迭代对象1.2怎么判断2、字符串的for循环3、列表的for循环4、元组的for循环5、字典的for循环5.
- PIL基本功能介绍from PIL import Imagefrom PIL import ImageEnhanceimg = Image.
- CPU活动展示导入模块,创建画板,创建画笔进行绘画出cpu的数据,一定要用线程,负责会卡住哦实现代码import tkinterfrom t
- 早就想用一个系列的文章来写AJAX,让自己头到尾理一遍,更好的掌握基础知识(昨天的面试受打击了,基础知识很重要).要是写的好,也许也可以帮助
- 一.简介发展由来:随着信息技术的发展和硬件设备成本的降低,当今的互联网存在海量的数据,要想快速从这些数据中获取更多有效的信息,数据可视化是重