Python实现的爬取百度贴吧图片功能完整示例
作者:xuezhangjun 发布时间:2021-06-30 19:22:13
标签:Python,爬取,百度贴吧,图片
本文实例讲述了Python实现的爬取百度贴吧图片功能。分享给大家供大家参考,具体如下:
#coding:utf-8
import requests
import urllib2
import urllib
```
from lxml import etree
class Tieba:
def __init__(self):
self.tiebaName = raw_input("请输入需要爬取的贴吧:")
self.beginPage = int(raw_input("请输入爬取的起始页:"))
self.endPage = int(raw_input("请输入爬取的结束页:"))
self.baseURL = "http://tieba.baidu.com"
#self.headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"}
self.headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"} def startWork(self):
"""
发送贴吧每一页的url请求
"""
for page in range(self.beginPage, self.endPage + 1):
pn = (page - 1) * 50
keyword = {"kw" : self.tiebaName, "pn" : pn}
kw = urllib.urlencode(keyword)
url = self.baseURL + "/f?" + kw
#print url
html = self.loadRequest(url)
self.loadPage(html)
def loadRequest(self, url):
"""
发送请求,返回响应
url: 发送请求的url地址
"""
request = urllib2.Request(url, headers = self.headers)
#request = urllib2.Request(url)
response = urllib2.urlopen(request)
return response.read()
def loadPage(self, html):
"""
提取每个帖子的url,并发送请求,获取响应
html: 贴吧每一页的html
"""
content = etree.HTML(html)
print '------'
print content
# xpath 返回的所有匹配成功后的结果的列表
#pagelink_list = content.xpath("//div[@class='threadlist_lz clearfix']/div/a[@class='j_th_tit']/@href")
pagelink_list = content.xpath("//div[@class='col2_right j_threadlist_li_right']//div/a/@href")
pagelink_list = content.xpath("//div[@class='t_con cleafix']//div/a/@href")
for link in pagelink_list:
print link
self.loadImage(self.loadRequest(self.baseURL + link))
def loadImage(self, html):
"""
提取帖子里用户发送的图片的url地址
html: 每个帖子的html
"""
content = etree.HTML(html)
imagelink_list = content.xpath("//div[@class='p_content ']//img[@class='BDE_Image']/@src")
for link in imagelink_list:
self.writeImage(self.loadRequest(link), link[-10:])
def writeImage(self, data, filename):
"""
将图片的响应数据,写入到本地磁盘里
data: 图片的响应数据
filename: 文件名(图片url的后10位)
"""
print "正在保存图片...%s" % filename
with open(filename, "wb") as f:
f.write(data)
if __name__ == "__main__":
tieba = Tieba()
tieba.startWork()
希望本文所述对大家Python程序设计有所帮助。
来源:https://blog.csdn.net/xuezhangjun0121/article/details/73719059


猜你喜欢
- 本文实例为大家分享了Virginia无密钥解密的具体代码,供大家参考,具体内容如下加密virginia加密是一种多表替换加密方法,通过这种方
- 创建用户定义函数,它是返回值的已保存的 Transact-SQL 例程。用户定义函数不能用于执行一组修改全局数据库状态的操作。与系统函数一样
- Python用Pillow(PIL)进行简单的图像操作方法颜色与RGBA值计算机通常将图像表示为RGB值,或者再加上alpha值(通透度,透
- 前言MySQL是关系性数据库中的一种,查询功能强,数据一致性高,数据安全性高,支持二级索引。但性能方面稍逊于非关系性数据库,特别是百万级别以
- 需求通过分析nginx访问日志,获取每个接口响应时间最大值、最小值、平均值及访问量。实现原理将nginx日志uriuriupstream_r
- 一、简介Locust 是一个易于使用,分布式,用户负载测试工具。它用于负载测试 web 站点(或其他系统),并计算出一个系统可以处理多少并发
- JS是一段一段执行的(以<script>标签来分割),执行每一段之前,都有一个“预编译”,预编译干的活是:声明所有var变量(初
- 1. 引言元组是Python中一种重要的内置数据类型。与列表一样,我们经常使用元组将多个对象保存为相应的数据容器。然而,与列表不同的是元组的
- Sample:http://www.happyshow.org/sample/20060613/nav/nav.html<!DOCTY
- 1)视频读取import cv2cap = cv2.VideoCapture('E:\\Video\\20000105_224116
- 我就废话不多说了,大家还是直接看代码吧~'''Created on 2018-4-16'''
- os:windows前提:Python,selenium,IEDriverServer.exe,ie浏览器首先安装Python2.7安装成功
- 昨天晚上睡觉前突然想到的,在此记一笔。传统方式以前我们做文章系统或新闻发布系统的时候,做文章内链(标签)的时候,通常是通过以下方式来实现的:
- <%@ Language=VBScript %><HTML><HEAD>
- js的成员和方法好象没有private和public之分,列一下public的成员和方法成员:name 控件的名字,既这个控件的变量名(必选
- 目录1. 理解 * 和 ** 2.Python函数的参数 3. 支持任意参数的函数
- 以一种有意义的方式组织数据可能是一项挑战。有时你需要的可能是一个简单的排序,但是通常你需要做更多,你需要分组来进行分析和统计。幸运的是,SQ
- 本文主要列出来python图形开发GUI库pyqt5的窗体,控件属性与方法如果你想看看python图形开发GUI库pyqt5的基础使用方法可
- 前言本文主要给大家介绍了关于django配置连接数据库及原生sql语句的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介
- Pytorch 使用GPU训练使用 GPU 训练只需要在原来的代码中修改几处就可以了。我们有两种方式实现代码在 GPU 上进行训练方法一 .