Python编写百度贴吧的简单爬虫
作者:hebedich 发布时间:2023-12-06 02:17:56
标签:Python,百度贴吧,爬虫
操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
代码:
# -*- coding: utf-8 -*-
#----------------------------
# 程序:百度贴吧的小爬虫
# 日期:2015/03/28
# 语言:Python 2.7
# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
# 功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
import urllib2
import time
def baidu_tieba(url, start, end):
for i in range(start, end):
sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
f = open(sName, 'w+')
m = urllib2.urlopen(url+str(i))
n = m.read()
f.write(n)
f.close()
print '成功下载'
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))
baidu_tieba(baiduurl, begin_page, end_page)
以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。


猜你喜欢
- asp日期转换星座函数,参数是日期型function astro(birth)astro=""if
- python包含子目录中的模块方法比较简单,关键是能够在sys.path里面找到通向模块文件的路径。下面将具体介绍几种常用情况:(1)主程序
- 我就废话不多说了,大家还是直接看代码吧~'''Created on 2018-4-16'''
- 现在,ORM框架、Web框架和配置都已就绪,我们可以开始编写一个最简单的MVC,把它们全部启动起来。通过Web框架的@decorator和O
- 一 位置传递没什么好过多讲解.# 位置传递实例:def fun1(a,b,c): return a+b+cprint(fun1(
- 项目需求:浏览器中访问django后端某一条url(如:127.0.0.1:8080/get_book/),实时朝数据库中生成一千条数据并将
- clone() 与 detach() 对比Torch 为了提高速度,向量或是矩阵的赋值是指向同一内存的,这不同于 Matlab。如果需要保存
- APSchedulerAPScheduler 四个组件分别为:调度器(scheduler)、触发器(trigger),作业存储(job st
- 有关pygal的安装,大家可以参阅《pip和pygal的安装实例教程》。直方图:直方图是一个特殊的条,它可以取3个数值:纵坐标高度,横坐标开
- 前言:之前博主分享过knockoutJS和BootstrapTable的一些基础用法,都是写基础应用,根本谈不上封装,仅仅是避免了html控
- 分析古诗文网站下图1展示了古诗文网站—》诗文 栏目的首页数据。该栏目的地址是:https://so.gushiwen.cn/shiwens/
- 本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我
- eclipse 配置 python 默认头打开eclipse 点 窗口(Windows)->首选项(Preferences)Prefe
- 前言Django的模型(Model)的本质是类,并不是一个具体的对象(Object)。当你设计好模型后,你就可以对Model进行实例化从而创
- JSON [ JavaScript Object Notation ]:JavaScript 对象表示法。它是一种轻量级的数据交换格式。 J
- 1. 创建shell脚本 vim backupdb.sh 创建脚本内容如下: #!/bin/sh db_user="root&qu
- 如果点击“保存文本文件”将会弹出保存文本文件的对话框口,保存的文本文件中的内容是如下:/* 2010年4月5日0
- 1.什么是Json?JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它是JavaScript的
- 本文实例讲述了jQuery+php简单实现全选删除的方法。分享给大家供大家参考,具体如下:<input type="chec
- 神经网络只是由两个或多个线性网络层叠加,并不能学到新的东西,简单地堆叠网络层,不经过非线性激活函数激活,学到的仍然是线性关系。但是加入激活函