python书籍信息爬虫实例
作者:moxiaomomo 发布时间:2023-11-17 11:15:49
标签:python,爬虫
python书籍信息爬虫示例,供大家参考,具体内容如下
背景说明
需要收集一些书籍信息,以豆瓣书籍条目作为源,得到一些有效书籍信息,并保存到本地数据库。
获取书籍分类标签
具体可参考这个链接:
https://book.douban.com/tag/?view=type
然后将这些分类标签链接存到本地某个文件,存储内容如下
https://book.douban.com/tag/小说
https://book.douban.com/tag/外国文学
https://book.douban.com/tag/文学
https://book.douban.com/tag/随笔
https://book.douban.com/tag/中国文学
https://book.douban.com/tag/经典
https://book.douban.com/tag/日本文学
https://book.douban.com/tag/散文
https://book.douban.com/tag/村上春树
https://book.douban.com/tag/诗歌
https://book.douban.com/tag/童话
......
获取书籍信息,并保存本地数据库
假设已经建好mysql表,如下:
CREATE TABLE `book_info` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`bookid` varchar(64) NOT NULL COMMENT 'book ID',
`tag` varchar(32) DEFAULT '' COMMENT '分类目录',
`bookname` varchar(256) NOT NULL COMMENT '书名',
`subname` varchar(256) NOT NULL COMMENT '二级书名',
`author` varchar(256) DEFAULT '' COMMENT '作者',
`translator` varchar(256) DEFAULT '' COMMENT '译者',
`press` varchar(128) DEFAULT '' COMMENT '出版社',
`publishAt` date DEFAULT '0000-00-00' COMMENT '出版日期',
`stars` float DEFAULT '0' COMMENT '评分',
`price_str` varchar(32) DEFAULT '' COMMENT '价格string',
`hotcnt` int(11) DEFAULT '0' COMMENT '评论人数',
`bookdesc` varchar(8192) DEFAULT NULL COMMENT '简介',
`updateAt` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '修改日期',
PRIMARY KEY (`id`),
UNIQUE KEY `idx_bookid` (`bookid`),
KEY `idx_bookname` (`bookname`),
KEY `hotcnt` (`hotcnt`),
KEY `stars` (`stars`),
KEY `idx_tag` (`tag`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='书籍信息';
并已实现相关爬虫逻辑,主要用到了BeautifulSoup包,如下:
#!/usr/bin/python
# coding: utf-8
import re
import logging
import requests
import pymysql
import random
import time
import datetime
from hashlib import md5
from bs4 import BeautifulSoup
logging.basicConfig(level=logging.INFO,
format='[%(levelname)s][%(name)s][%(asctime)s]%(message)s',
datefmt='%Y-%m-%d %H:%M:%S')
class DestDB:
Host = "192.168.1.10"
DB = "spider"
Table = "book_info"
User = "test"
Pwd = "123456"
def connect_db(host, db, user, pwd):
conn = pymysql.connect(
host=host,
user=user,
passwd=pwd,
db=db,
charset='utf8',
connect_timeout=3600) #,
# cursorclass=pymysql.cursors.DictCursor)
conn.autocommit(True)
return conn
def disconnect_db(conn, cursor):
cursor.close()
conn.close()
#提取评价人数,如果评价人数少于10人,按10人处理
def hotratings(person):
try:
ptext = person.get_text().split()[0]
pc = int(ptext[1:len(ptext)-4])
except ValueError:
pc = int(10)
return pc
# 持久化到数据库
def save_to_db(tag, book_reslist):
dest_conn = connect_db(DestDB.Host, DestDB.DB, DestDB.User, DestDB.Pwd)
dest_cursor = dest_conn.cursor()
isql = "insert ignore into book_info "
isql += "(`bookid`,`tag`,`author`,`translator`,`bookname`,`subname`,`press`,"
isql += "`publishAt`,`price_str`,`stars`,`hotcnt`,`bookdesc`) values "
isql += ",".join(["(%s)" % ",".join(['%s']*12)]*len(book_reslist))
values = []
for row in book_reslist:
# 暂时将md5(bookname+author)作为bookid唯一指
bookid = md5(("%s_%s"%(row[0],row[2])).encode('utf-8')).hexdigest()
values.extend([bookid, tag]+row[:10])
dest_cursor.execute(isql, tuple(values))
disconnect_db(dest_conn, dest_cursor)
# 处理每一次访问的页面
def do_parse(tag, url):
page_data = requests.get(url)
soup = BeautifulSoup(page_data.text.encode("utf-8"), "lxml")
# 提取标签信息
tag = url.split("?")[0].split("/")[-1]
# 抓取作者,出版社信息
details = soup.select("#subject_list > ul > li > div.info > div.pub")
# 抓取评分
scores = soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums")
# 抓取评价人数
persons = soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl")
# 抓取书名
booknames = soup.select("#subject_list > ul > li > div.info > h2 > a")
# 抓取简介
descs = soup.select("#subject_list > ul > li > div.info > p")
# 从标签信息中分离内容
book_reslist = []
for detail, score, personCnt, bookname, desc in zip(details, scores, persons, booknames, descs):
try:
subtitle = ""
title_strs = [s.replace('\n', '').strip() for s in bookname.strings]
title_strs = [s for s in title_strs if s]
# 部分书籍有二级书名
if not title_strs:
continue
elif len(title_strs) >= 2:
bookname, subtitle = title_strs[:2]
else:
bookname = title_strs[0]
# 评分人数
hotcnt = hotratings(personCnt)
desc = desc.get_text()
stars = float('%.1f' % float(score.get_text() if score.get_text() else "-1"))
author, translator, press, publishAt, price = [""]*5
detail_texts = detail.get_text().replace('\n', '').split("/")
detail_texts = [s.strip() for s in detail_texts]
# 部分书籍无译者信息
if len(detail_texts) == 4:
author, press, publishAt, price = detail_texts[:4]
elif len(detail_texts) >= 5:
author, translator, press, publishAt, price = detail_texts[:5]
else:
continue
# 转换出版日期为date类型
if re.match('^[\d]{4}-[\d]{1,2}', publishAt):
dts = publishAt.split('-')
publishAt = datetime.date(int(dts[0]), int(dts[1]), 1)
else:
publishAt = datetime.date(1000, 1, 1)
book_reslist.append([author, translator, bookname, subtitle, press,
publishAt, price, stars, hotcnt, desc])
except Exception as e:
logging.error(e)
logging.info("insert count: %d" % len(book_reslist))
if len(book_reslist) > 0:
save_to_db(tag, book_reslist)
book_reslist = []
return len(details)
def main():
with open("book_tags.txt") as fd:
tags = fd.readlines()
for tag in tags:
tag = tag.strip()
logging.info("current tag url: %s" % tag)
for idx in range(0, 1000000, 20):
try:
url = "%s?start=%d&type=T" % (tag.strip(), idx)
cnt = do_parse(tag.split('/')[-1], url)
if cnt < 10:
break
# 睡眠若干秒,降低访问频率
time.sleep(random.randint(10, 15))
except Exception as e:
logging.warn("outer_err: %s" % e)
time.sleep(300)
if __name__ == "__main__":
main()
小结
以上代码基于python3环境来运行;
需要首先安装BeautifulSoup: pip install bs4
爬取过程中需要控制好访问频率;
需要对一些信息进行异常处理,比如译者信息、评论人数等。
来源:http://blog.csdn.net/moxiaomomo/article/details/79023873


猜你喜欢
- 用golang来实现的webserver通常是是这样的//main.gopackage mainimport ("fmt"
- 一、简单使用def TestLogBasic(): import logging  
- 用re或者string.find.以下是re代码import re#文本所在TXT文件file = '123.txt'#关键
- 本文实例为大家分享了JavaScript实现简单计算器的具体代码,供大家参考,具体内容如下代码:<!DOCTYPE html>&
- 本文实例讲述了PHP实现按之字形顺序打印二叉树的方法。分享给大家供大家参考,具体如下:问题请实现一个函数按照之字形打印二叉树,即第一行按照从
- 本文所述实例可以实现基于Python的查看图片报纸《参考消息》并将当天的图片报纸自动下载到本地供查看的功能,具体实现代码如下:# codin
- 本文实例讲述了Python实现判断一个整数是否为回文数算法。分享给大家供大家参考,具体如下:第一个思路是先将整数转换为字符串,再将字符串翻转
- 但是你懂的,浏览器实在太不和谐了,兼容性且不说,各种坐标属性看得人头昏眼花,极容易混淆。好吧,我来总结一下: 测试浏览器:IE8, Chro
- 本文实例讲述了Python显示进度条的方法,是Python程序设计中非常实用的技巧。分享给大家供大家参考。具体方法如下:首先,进度条和一般的
- 引言最近遭遇了绑定手机号相关的压测需求,有了手机号登录的经验和测试数据,这次算起来比较简单。最重要的是难点就是要求开发配合调整配置已经在上一
- MySQL8数据库安装一、Windows 环境下安装A、下载 MySQL下载地址Select Operating System:Micros
- 前言本文主要给大家介绍了关于python指定时间调用函数的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍:在前面的一
- 一、背景:nginx 的log 不会自动按天备份,而且记录时间格式不统一,此程序专门解决这两个问题;二、windows 部署方式1.在 ng
- Fabric是一个用Python开发的部署工具,最大特点是不用登录远程服务器,在本地运行远程命令,几行Python脚本就可以轻松部署。文档入
- python线程池ThreadPoolExecutor,传单个参数和多个参数这是线程池传单个参数的from concurrent.futur
- 什么是 PIP?PIP 是 Python 包或模块的包管理器。注释:如果你使用的是 Python 3.4 或更高版本,则默认情况下会包含 P
- 本文实例为大家分享了js实现简单放大镜效果的具体代码,供大家参考,具体内容如下效果效果,鼠标在原图片移动,黄色小盒子跟随鼠标移动,黄色小盒子
- 概述🌱记住日期是有点困难,但我们是程序员,使困难的事情更容易是我们唯一的工作,所以我们不记得日期为什么不自动化这个任务。在这篇文章中,我们将
- 本文实例讲述了PHP扩展Swoole实现实时异步任务队列。分享给大家供大家参考,具体如下:假如要发100封邮件,for循环100遍,用户直接
- 假设有两个dict x和y,合并成一个新的dict,不改变 x和y的值,例如x = {'a': 1, 'b'