Python实现的爬取百度贴吧图片功能完整示例
作者:xuezhangjun 发布时间:2021-06-30 19:22:13
标签:Python,爬取,百度贴吧,图片
本文实例讲述了Python实现的爬取百度贴吧图片功能。分享给大家供大家参考,具体如下:
#coding:utf-8
import requests
import urllib2
import urllib
```
from lxml import etree
class Tieba:
def __init__(self):
self.tiebaName = raw_input("请输入需要爬取的贴吧:")
self.beginPage = int(raw_input("请输入爬取的起始页:"))
self.endPage = int(raw_input("请输入爬取的结束页:"))
self.baseURL = "http://tieba.baidu.com"
#self.headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"}
self.headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"} def startWork(self):
"""
发送贴吧每一页的url请求
"""
for page in range(self.beginPage, self.endPage + 1):
pn = (page - 1) * 50
keyword = {"kw" : self.tiebaName, "pn" : pn}
kw = urllib.urlencode(keyword)
url = self.baseURL + "/f?" + kw
#print url
html = self.loadRequest(url)
self.loadPage(html)
def loadRequest(self, url):
"""
发送请求,返回响应
url: 发送请求的url地址
"""
request = urllib2.Request(url, headers = self.headers)
#request = urllib2.Request(url)
response = urllib2.urlopen(request)
return response.read()
def loadPage(self, html):
"""
提取每个帖子的url,并发送请求,获取响应
html: 贴吧每一页的html
"""
content = etree.HTML(html)
print '------'
print content
# xpath 返回的所有匹配成功后的结果的列表
#pagelink_list = content.xpath("//div[@class='threadlist_lz clearfix']/div/a[@class='j_th_tit']/@href")
pagelink_list = content.xpath("//div[@class='col2_right j_threadlist_li_right']//div/a/@href")
pagelink_list = content.xpath("//div[@class='t_con cleafix']//div/a/@href")
for link in pagelink_list:
print link
self.loadImage(self.loadRequest(self.baseURL + link))
def loadImage(self, html):
"""
提取帖子里用户发送的图片的url地址
html: 每个帖子的html
"""
content = etree.HTML(html)
imagelink_list = content.xpath("//div[@class='p_content ']//img[@class='BDE_Image']/@src")
for link in imagelink_list:
self.writeImage(self.loadRequest(link), link[-10:])
def writeImage(self, data, filename):
"""
将图片的响应数据,写入到本地磁盘里
data: 图片的响应数据
filename: 文件名(图片url的后10位)
"""
print "正在保存图片...%s" % filename
with open(filename, "wb") as f:
f.write(data)
if __name__ == "__main__":
tieba = Tieba()
tieba.startWork()
希望本文所述对大家Python程序设计有所帮助。
来源:https://blog.csdn.net/xuezhangjun0121/article/details/73719059
0
投稿
猜你喜欢
- 编写一个名为 collatz()的函数,它有一个名为 number 的参数。如果参数是偶数,那么 collatz()就打印出 number
- 一、前言容器使用沙箱机制,互相隔离,优势在于让各个部署在容器的里的应用互不影响,独立运行,提供更高的安全性。本文主要介绍python应用(d
- 1、二维数组声明方式是下面这样的:var images=new Array(); //先声明一维 for(var i=0;i<10;i
- 二元运算符作用于位,进行逐位运算。二元运算只是组合两个值以创建新值的规则。numpy.bitwise_and(): 此函数用于计算两个数组元
- 使用的类库pip install openpyxl操作实现•工作簿操作# coding: utf-8from openpyxl import
- 1、编写TCP服务器程序。2、获取浏览器发送的http请求消息数据。3、读取固定的页面数据,将页面数据组装成HTTP响应消息数据并发送给浏览
- 本文实例讲述了python通过colorama模块在控制台输出彩色文字的方法。分享给大家供大家参考。具体分析如下:colorama是一个py
- oracle 11g的监听日志和警告日志都是在/u01/oracle/diag/tnslsnr/oracle/listener目录和/u01
- 简单介绍下:CSS 图片拼合 (CSS sprites) 可有效降低图片文件的 HTTP 连接请求数. 多个图片将以一定间距合并为一个大图片
- python / 和 % 和 //(地板除)用于对数据进行除法运算。python中 // 和 / 和 %简介python中与除法相关的三个运
- 本文实例讲述了Python求导数的方法。分享给大家供大家参考。具体实现方法如下:def func(coeff): sum=
- 事件对象asyncio.Event是基于threading.Event来实现的。事件可以一个信号触发多个协程同步工作,例子如下:import
- 在软件项目实施的时候,数据导入一直是项目人员比较头疼的问题。其实,在SQL Server中集成了很多成批导入数据的方法。有些项目实施顾问头疼
- 设置自动生成作者信息1、file->settings->Editor->file and code templates-&
- 文章主要讲术了一些SQL Server新的Bug,帮您认识这些被忽略的SQL Server注入技巧。1.关于Openrowset和Opend
- 概要:本文主要描述XHTML中相对定位和绝对定位各自的本质、用法、区别和两者之间的关系。以及使用CSS的Left、Right、Top、Bot
- 如何用ASP发送HTML格式的邮件?HTML格式的邮件可以把网页上的所有元素,包括文字和图片集成保存在一个文件中,阅读和链接非常便捷,请问在
- 效果图最近帮朋友写个简单爬虫,顺便整理了下,搞成了一个带GUI界面的小说爬虫工具,用来从笔趣阁爬取小说。开发完成后的界面采集过程界面采集后存
- asp压缩access数据库,具体asp代码见下: Class DatabaseTools &n
- Check In/Out功能简介:该功能是专门针对多用户管理而预设的。即多用户使用多帐号管理同一站点。