python 写的一个爬虫程序源码
作者:刘天斯 发布时间:2022-08-10 16:00:47
标签:python,爬虫程序
写爬虫是一项复杂、枯噪、反复的工作,考虑的问题包括采集效率、链路异常处理、数据质量(与站点编码规范关系很大)等。整理自己写一个爬虫程序,单台服务器可以启用1~8个实例同时采集,然后将数据入库。
#-*- coding:utf-8 -*-
#!/usr/local/bin/python
import sys, time, os,string
import mechanize
import urlparse
from BeautifulSoup import BeautifulSoup
import re
import MySQLdb
import logging
import cgi
from optparse import OptionParser
#----------------------------------------------------------------------------#
# Name: TySpider.py #
# Purpose: WebSite Spider Module #
# Author: 刘天斯 #
# Email: liutiansi@gamil.com #
# Created: 2010/02/16 #
# Copyright: (c) 2010 #
#----------------------------------------------------------------------------#
"""
|--------------------------------------------------------------------------
| 定义 loging class;
|--------------------------------------------------------------------------
|
| 功能:记录系统相关日志信息。
|
|
"""
class Pubclilog():
def __init__(self):
self.logfile = 'website_log.txt'
def iniLog(self):
logger = logging.getLogger()
filehandler = logging.FileHandler(self.logfile)
streamhandler = logging.StreamHandler()
fmt = logging.Formatter('%(asctime)s, %(funcName)s, %(message)s')
logger.setLevel(logging.DEBUG)
logger.addHandler(filehandler)
logger.addHandler(streamhandler)
return [logger,filehandler]
"""
|--------------------------------------------------------------------------
| 定义 tySpider class;
|--------------------------------------------------------------------------
|
| 功能:抓取分类、标题等信息
|
|
"""
class BaseTySpider:
#初始化相关成员方法
def __init__(self,X,log_switch):
#数据库连接
self.conn = MySQLdb.connect(db='dbname',host='192.168.0.10', user='dbuser',passwd='SDFlkj934y5jsdgfjh435',charset='utf8')
#分类及标题页面Community
self.CLASS_URL = 'http://test.abc.com/aa/CommTopicsPage?'
#发表回复页
self.Content_URL = 'http://test.bac.com/aa/CommMsgsPage?'
#开始comm值
self.X=X
#当前comm id取模,方面平均到表
self.mod=self.X%5
#Community文件下载页
self.body=""
#self.bodySoup对象
self.soup=None
#发表回复页下载内容变量
self.Contentbody=""
#发表回复页内容self.ContentbodySoup对象
self.Contentsoup=None
#日志开关
self.log_switch=log_switch
#======================获取名称及分类方法==========================
def _SpiderClass(self,nextpage=None):
if nextpage==None:
FIXED_QUERY = 'cmm='+str(self.X)
else:
FIXED_QUERY = nextpage[1:]
try:
rd = mechanize.Browser()
rd.addheaders = [("User-agent", "Tianya/2010 (compatible; MSIE 6.0;Windows NT 5.1)")]
rd.open(self.CLASS_URL + FIXED_QUERY)
self.body=rd.response().read()
#rd=mechanize.Request(self.CLASS_URL + FIXED_QUERY)
#response = mechanize.urlopen(rd)
#self.body=response.read()
except Exception,e:
if self.log_switch=="on":
logapp=Pubclilog()
logger,hdlr = logapp.iniLog()
logger.info(self.CLASS_URL + FIXED_QUERY+str(e))
hdlr.flush()
logger.removeHandler(hdlr)
return
self.soup = BeautifulSoup(self.body)
NextPageObj= self.soup("a", {'class' : re.compile("fs-paging-item fs-paging-next")})
self.cursor = self.conn.cursor()
if nextpage==None:
try:
Ttag=str(self.soup.table)
#print Ttag
"""
------------------分析结构体-----------------
<table cellspacing="0" cellpadding="0">
<tr>
<td>
<h1 title="Dunhill">Dunhill</h1>
</td>
<td valign="middle">
<div class="fs-comm-cat">
<span class="fs-icons fs-icon-cat"> </span> <a href="TopByCategoryPage?cid=211&ref=commnav-cat">中国</a> » <a href="TopByCategoryPage?cid=211&subcid=273&ref=commnav-cat">人民</a>
</div>
</td>
</tr>
</table>
"""
soupTable=BeautifulSoup(Ttag)
#定位到第一个h1标签
tableh1 = soupTable("h1")
#print self.X
#print "Name:"+tableh1[0].string.strip().encode('utf-8')
#处理无类型的
try:
#定位到表格中符合规则“^TopByCategory”A链接块,tablea[0]为第一个符合条件的连接文字,tablea[1]...
tablea = soupTable("a", {'href' : re.compile("^TopByCategory")})
if tablea[0].string.strip()=="":
pass
#print "BigCLass:"+tablea[0].string.strip().encode('utf-8')
#print "SubClass:"+tablea[1].string.strip().encode('utf-8')
except Exception,e:
if self.log_switch=="on":
logapp=Pubclilog()
logger,hdlr = logapp.iniLog()
logger.info("[noClassInfo]"+str(self.X)+str(e))
hdlr.flush()
logger.removeHandler(hdlr)
self.cursor.execute("insert into baname"+str(self.mod)+" values('%d','%d','%s')" %(self.X,-1,tableh1[0].string.strip().encode('utf-8')))
self.conn.commit()
self._SpiderTitle()
if NextPageObj:
NextPageURL=NextPageObj[0]['href']
self._SpiderClass(NextPageURL)
return
else:
return
#获取链接二对象的href值
classlink=tablea[1]['href']
par_dict=cgi.parse_qs(urlparse.urlparse(classlink).query)
#print "CID:"+par_dict["cid"][0]
#print "SubCID:"+par_dict["subcid"][0]
#print "---------------------------------------"
#插入数据库
self.cursor.execute("insert into class values('%d','%s')" %(int(par_dict["cid"][0]),tablea[0].string.strip().encode('utf-8')))
self.cursor.execute("insert into subclass values('%d','%d','%s')" %(int(par_dict["subcid"][0]),int(par_dict["cid"][0]),tablea[1].string.strip().encode('utf-8')))
self.cursor.execute("insert into baname"+str(self.mod)+" values('%d','%d','%s')" %(self.X,int(par_dict["subcid"][0]),tableh1[0].string.strip().encode('utf-8')))
self.conn.commit()
self._SpiderTitle()
if NextPageObj:
NextPageURL=NextPageObj[0]['href']
self._SpiderClass(NextPageURL)
self.body=None
self.soup=None
Ttag=None
soupTable=None
table=None
table1=None
classlink=None
par_dict=None
except Exception,e:
if self.log_switch=="on":
logapp=Pubclilog()
logger,hdlr = logapp.iniLog()
logger.info("[ClassInfo]"+str(self.X)+str(e))
hdlr.flush()
logger.removeHandler(hdlr)
else:
self._SpiderTitle()
if NextPageObj:
NextPageURL=NextPageObj[0]['href']
self._SpiderClass(NextPageURL)
#====================获取标题方法=========================
def _SpiderTitle(self):
#查找标题表格对象(table)
soupTitleTable=self.soup("table", {'class' : "fs-topic-list"})
#查找标题行对象(tr)
TitleTr = soupTitleTable[0]("tr", {'onmouseover' : re.compile("^this\.className='fs-row-hover'")})
"""
-----------分析结构体--------------
<tr class="fs-alt-row" onmouseover="this.className='fs-row-hover'" onmouseout="this.className='fs-alt-row'">
<td valign="middle" class="fs-hot-topic-dots-ctn">
<div class="fs-hot-topic-dots" style="background-position:0 -0px" title="点击量:12"></div>
</td>
<td valign="middle" class="fs-topic-name">
<a href="CommMsgsPage?cmm=16081&tid=2718969307756232842&ref=regulartopics" id="a53" title="【新人报到】欢迎美国人民加入" target="_blank">【新人报到】欢迎美国人民加入</a>
<span class="fs-meta">
<span class="fs-icons fs-icon-mini-reply"> </span>0
/
<span class="fs-icons fs-icon-pageview"> </span>12</span>
</td>
<td valign="middle">
<a class="fs-tiny-user-avatar umhook " href="ProfilePage?uid=8765915421039908242" title="中国人"><img src="http://img1.sohu.com.cn/aa/images/138/0/P/1/s.jpg" /></a>
</td>
<td valign="middle" style="padding-left:4px">
<a href="Profile?uid=8765915421039908242" id="b53" title="中国人" class="umhook">中国人</a>
</td>
<td valign="middle" class="fs-topic-last-mdfy fs-meta">2-14</td>
</tr>
"""
for CurrTr in TitleTr:
try:
#初始化置顶及精华状态
Title_starred='N'
Title_sticky='N'
#获取当前记录的BeautifulSoup对象
soupCurrTr=BeautifulSoup(str(CurrTr))
#BeautifulSoup分析HTML有误,只能通过span的标志数来获取贴子状态,会存在一定误差
#如只有精华时也会当成置顶来处理。
TitleStatus=soupCurrTr("span", {'title' : ""})
TitlePhotoViewer=soupCurrTr("a", {'href' : re.compile("^PhotoViewer")})
if TitlePhotoViewer.__len__()==1:
TitlePhotoViewerBool=0
else:
TitlePhotoViewerBool=1
if TitleStatus.__len__()==3-TitlePhotoViewerBool:
Title_starred='Y'
Title_sticky='Y'
elif TitleStatus.__len__()==2-TitlePhotoViewerBool:
Title_sticky='Y'
#获取贴子标题
Title=soupCurrTr.a.next.strip()
#获取贴子ID
par_dict=cgi.parse_qs(urlparse.urlparse(soupCurrTr.a['href']).query)
#获取回复数及浏览器
TitleNum=soupCurrTr("td", {'class' : "fs-topic-name"})
TitleArray=string.split(str(TitleNum[0]),'\n')
Title_ReplyNum=string.split(TitleArray[len(TitleArray)-4],'>')[2]
Title_ViewNum=string.split(TitleArray[len(TitleArray)-2],'>')[2][:-6]
#获取贴子作者
TitleAuthorObj=soupCurrTr("td", {'style' : "padding-left:4px"})
Title_Author=TitleAuthorObj[0].next.next.next.string.strip().encode('utf-8')
#获取回复时间
TitleTime=soupCurrTr("td", {'class' : re.compile("^fs-topic-last-mdfy fs-meta")})
"""
print "X:"+str(self.X)
print "Title_starred:"+Title_starred
print "Title_sticky:"+Title_sticky
print "Title:"+Title
#获取贴子内容连接URL
print "Title_link:"+soupCurrTr.a['href']
print "CID:"+par_dict["tid"][0]
print "Title_ReplyNum:"+Title_ReplyNum
print "Title_ViewNum:"+Title_ViewNum
print "Title_Author:"+Title_Author
print "TitleTime:"+TitleTime[0].string.strip().encode('utf-8')
"""
#入库
self.cursor.execute("insert into Title"+str(self.mod)+" values('%s','%d','%s','%d','%d','%s','%s','%s','%s')" %(par_dict["tid"][0], \
self.X,Title,int(Title_ReplyNum),int(Title_ViewNum),Title_starred,Title_sticky, \
Title_Author.decode('utf-8'),TitleTime[0].string.strip().encode('utf-8')))
self.conn.commit()
self._SpiderContent(par_dict["tid"][0])
except Exception,e:
if self.log_switch=="on":
logapp=Pubclilog()
logger,hdlr = logapp.iniLog()
logger.info("[Title]"+str(self.X)+'-'+par_dict["tid"][0]+'-'+str(e))
hdlr.flush()
logger.removeHandler(hdlr)
#======================获取发表及回复方法=======================
def _SpiderContent(self,ID,nextpage=None):
if nextpage==None:
FIXED_QUERY = 'cmm='+str(self.X)+'&tid='+ID+'&ref=regulartopics'
else:
FIXED_QUERY = nextpage[9:]
rd = mechanize.Browser()
rd.addheaders = [("User-agent", "Tianya/2010 (compatible; MSIE 6.0;Windows NT 5.1)")]
rd.open(self.Content_URL + FIXED_QUERY)
self.Contentbody=rd.response().read()
#rd=mechanize.Request(self.Content_URL + FIXED_QUERY)
#response = mechanize.urlopen(rd)
#self.Contentbody=response.read()
self.Contentsoup = BeautifulSoup(self.Contentbody)
NextPageObj= self.Contentsoup("a", {'class' : re.compile("fs-paging-item fs-paging-next")})
try:
Tdiv=self.Contentsoup("div", {'class' : "fs-user-action"})
i=0
for Currdiv in Tdiv:
if i==0:
Ctype='Y'
else:
Ctype='N'
#发表时间
soupCurrdiv=BeautifulSoup(str(Currdiv))
PosttimeObj=soupCurrdiv("span", {'class' : "fs-meta"})
Posttime=PosttimeObj[0].next[1:]
Posttime=Posttime[0:-3]
#IP地址
IPObj=soupCurrdiv("a", {'href' : re.compile("CommMsgAddress")})
if IPObj:
IP=IPObj[0].next.strip()
else:
IP=''
#发表/回复内容
ContentObj=soupCurrdiv("div", {'class' :"fs-user-action-body"})
Content=ContentObj[0].renderContents().strip()
"""
print "ID:"+str(self.X)
print "ID:"+ID
print "Ctype:"+Ctype
print "POSTTIME:"+Posttime
print "IP:"+IP
print "Content:"+Content
"""
self.cursor.execute("insert into Content"+str(self.mod)+" values('%s','%d','%s','%s','%s','%s')" %(ID,self.X,Ctype,Posttime,IP,Content.decode('utf-8')))
self.conn.commit()
i+=1
except Exception,e:
if self.log_switch=="on":
logapp=Pubclilog()
logger,hdlr = logapp.iniLog()
logger.info("[Content]"+str(self.X)+'-'+ID+'-'+str(e))
hdlr.flush()
logger.removeHandler(hdlr)
#如“下一页”有链接刚继续遍历
if NextPageObj:
NextPageURL=NextPageObj[0]['href']
self._SpiderContent(ID,NextPageURL)
def __del__(self):
try:
self.cursor.close()
self.conn.close()
except Exception,e:
pass
#遍历comm范围
def initapp(StartValue,EndValue,log_switch):
for x in range(StartValue,EndValue):
app=BaseTySpider(x,log_switch)
app._SpiderClass()
app=None
if __name__ == "__main__":
#定义命令行参数
MSG_USAGE = "TySpider.py [ -s StartNumber EndNumber ] -l [on|off] [-v][-h]"
parser = OptionParser(MSG_USAGE)
parser.add_option("-s", "--set", nargs=2,action="store",
dest="comm_value",
type="int",
default=False,
help="配置名称ID值范围。".decode('utf-8'))
parser.add_option("-l", "--log", action="store",
dest="log_switch",
type="string",
default="on",
help="错误日志开关".decode('utf-8'))
parser.add_option("-v","--version", action="store_true", dest="verbose",
help="显示版本信息".decode('utf-8'))
opts, args = parser.parse_args()
if opts.comm_value:
if opts.comm_value[0]>opts.comm_value[1]:
print "终止值比起始值还小?"
exit();
if opts.log_switch=="on":
log_switch="on"
else:
log_switch="off"
initapp(opts.comm_value[0],opts.comm_value[1],log_switch)
exit();
if opts.verbose:
print "WebSite Scider V1.0 beta."
exit;


猜你喜欢
- 互联网时代数据是 * 式增长,我们常常需要把结构化数据和非结构化数据(如文档,演示文稿,视频,音频,图像)存储在一起。通常有几种方案: 1。在
- Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进
- 安装通过 pip 安装 Beautiful Soup 模块:pip install beautifulsoup4 。 还可以使用 PyCha
- 打过了趟深圳回来后,已经快半个月,在广州购书中心逛了下,发现2本前端书《重构HTML-改善WEB应用的设计》、《CSS3 实战》,看了一半《
- 一般情况下,在 golang 中执行一些命令如 git clone,则可以使用 exec.Command 函数func RunCommand
- 1.简介本文将介绍首先为什么需要主动关闭goroutine,并介绍如何在Go语言中关闭goroutine的常见套路,包括传递终止信号和协程内
- 1. constructorconstructor应该是ES6中明确使用constructor来表示构造函数的,构造函数使用在class中,
- 中文如果用表单提交的话,不会出现乱码,而用ajax提交就会出现乱码,这是什么原因呢?我的理解是,我在写源码的时候,一般用记事本写,保存的时候
- 前言损失函数在机器学习中用于表示预测值与真实值之间的差距。一般而言,大多数机器学习模型都会通过一定的优化器来减小损失函数从而达到优化预测机器
- 1、需求用户输入当前目录下任意文件名,程序完成对该文件的备份功能。备份文件名为xx[备份]后缀,例如:test[备份].txt。2、步骤接收
- 当设计一个产品,其中很多地方要把日期类型保存到数据库中,如果产品有兼容不同数据库产品的需求,那么,应当怎样设计呢?当然,首先想到的是,使用数
- 1.字符串处理将字符串中的数字替换成其两倍的值,例如:修改前:"AS7G123m (d)F77k"修改后:"A
- 高阶函数除了可以接受函数作为参数外,还可以把函数作为结果值返回。看代码:# -*- coding: utf-8 -*-# @File &nb
- Birdseye是一个Python调试器,它在函数调用中记录表达式的值,并让你在函数退出后轻松查看它们,例如:无论你如何运行或编辑代码,都可
- 前言Python文件默认的编码格式是ascii ,无法识别汉字,因为ascii码中没有中文。所以py文件中要写中文字符时,一般在开头加 #
- Sql中in和not in中有null值的情况1)in的逻辑规则是or not in 的逻辑规则是 and2)判断null 的sql语句为
- 如何将123456789转化成123,456,789这样的形式呢?很多流量大的站比如优酷都有这样的格式。也是设计程序最常用的算
- 本文实例主要是实现爬取一个网页上的图片地址,具体如下。读取一个网页的源代码:import urllib.requestdef getHtml
- NumPy 是一个Python 库,用于 Python 编程中的科学计算。在本教程中,你将学习如何在 NumPy 数组上以多种方式添加、删除
- 前言提到数据库,你多半会联想到事务,进而还可能想起曾经背得滚瓜乱熟的ACID,不知道你有没有想过这个问题,事务有原子性、隔离性、一致性和持久