位置：首页>> 网络编程>> Python编程>> Python爬取三国演义的实现方法

Python爬取三国演义的实现方法

作者：bluescorpio　　发布时间：2022-12-11 20:07:37　

标签：python,爬取,网页

本文的爬虫教程分为四部：

1.从哪爬 where

2.爬什么 what

3.怎么爬 how

4.爬了之后信息如何保存 save

一、从哪爬

三国演义

二、爬什么

三国演义全文

三、怎么爬

在Chrome页面打开F12，就可以发现文章内容在节点

<div id="con" class="bookyuanjiao">

只要找到这个节点，然后把内容写入到一个html文件即可。

content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})

四、爬了之后如何保存

主要就是拿到内容，拼接到一个html文件，然后保存下来就可以了。

#!usr/bin/env
# -*-coding:utf-8 -*-
import urllib2
import os
from bs4 import BeautifulSoup as BS
import locale
import sys
from lxml import etree
import re

reload(sys)
sys.setdefaultencoding('gbk')

sub_folder = os.path.join(os.getcwd(), "sanguoyanyi")
if not os.path.exists(sub_folder):
os.mkdir(sub_folder)

path = sub_folder

# customize html as head of the articles
input = open(r'0.html', 'r')
head = input.read()

domain = 'http://www.shicimingju.com/book/sanguoyanyi.html'
t = domain.find(r'.html')
new_domain = '/'.join(domain.split("/")[:-2])
first_chapter_url = domain[:t] + "/" + str(1) + '.html'
print first_chapter_url

# Get url if chapter lists
req = urllib2.Request(url=domain)
resp = urllib2.urlopen(req)
html = resp.read()
soup = BS(html, 'lxml')
chapter_list = soup.find("div", {"class": "bookyuanjiao", "id": "mulu"})
sel = etree.HTML(str(chapter_list))
result = sel.xpath('//li/a/@href')

for each_link in result:
each_chapter_link = new_domain + "/" + each_link
print each_chapter_link
req = urllib2.Request(url=each_chapter_link)
resp = urllib2.urlopen(req)
html = resp.read()

soup = BS(html, 'lxml')
content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})
title = soup.title.text
title = title.split(u'_《三国演义》_诗词名句网')[0]

html = str(content)
html = head + html + "</body></html>"

filename = path + "\\" + title + ".html"
print filename
# write file
output = open(filename, 'w')
output.write(html)
output.close()

0.html的内容如下

<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body>

总结

0

投稿

猜你喜欢

用ASP实现分级权限控制
权限级别划分如下：①、院长和财务科长：不能输入，可以无限制查询、统计；②、副院长：不能输入，可以查询、统计其分管部门的帐务；③、部门领导：不
Python爬取商家联系电话以及各种数据的方法
上次学会了爬取图片，这次就想着试试爬取商家的联系电话，当然，这里纯属个人技术学习，爬取过后及时删除，不得用于其它违法用途，一切后果自负。首先
Oracle数据库的十种重新启动步骤
1. 停应用层的各种程序。 2. 停oralce的监听进程: $lsnrctl stop 3. 在独占的系统用户下，备份控制文件: SQL&
动态加载iframe时get请求传递中文参数乱码解决方法
当用户的页面需要动态加载iframe 时，如果iframe的src中包传中文参数会出现编码错误；必须加编码，然后再解码。编码：encod
Python+OpenCV图像处理——实现轮廓发现
简介：轮廓发现是基于图像边缘提取的基础寻找对象轮廓的方法，所以边缘提取的阈值选定会影响最终轮廓发现结果。代码如下：import cv2 as
Python模拟登录网易云音乐并自动签到
一、开发工具**Python****版本：**3.6.4相关模块：DecryptLogin模块；argparse模块；以及一些Python自
详解Python使用OpenCV如何确定一个对象的方向
在本教程中，我们将构建一个程序，该程序可以使用流行的计算机视觉库 OpenCV 确定对象的方向（即以度为单位的旋转角度）。最常见的现实世界用
如何修复MySQL数据库表
一张损坏的表的症状通常是查询意外中断并且你能看到例如这些错误：◆ “tbl_name.frm”被锁定不能改变。◆ 不能找到文件“tbl_na
Python unittest单元测试框架实现参数化
当我们在使用TestNG时，发现它有一个非常好用的参数化功能。当你的测试用例有固定的参数和断言结果时，它可以相似用例的节省用例的个数。例子如
Python安装第三方库及常见问题处理方法汇总
源码安装Python第三方库几乎都可以在github或者 pypi上找到源码。源码包格式大概有zip 、 tar.zip、 tar.bz2。
python统计函数库scipy.stats的用法解析
背景总结统计工作中几个常用用法在python统计函数库scipy.stats的使用范例。正态分布以正态分布的常见需求为例了解scipy.st
10分钟搭建自己的Git仓库
GitLab是一款使用MIT许可证的基于网络的Git仓库管理工具，我们可以使用它来搭建自己的Git仓库，本文将介绍如何使用Gitlab在Li
python修改全局变量可以不加global吗?
以如下代码为例，我们在局部作用域内使用全局变量a，需要使用global关键字进行声明。否则代码会不可用。a = 100def fun():&
pyinstaller 3.6版本通过pip安装失败的解决办法(推荐)
本机中原pyinstaller版本为3.5版本，本打算通过 pip install --upgrade pyinstaller进行升级，竟然
在Django中限制已登录用户的访问的方法
有很多原因需要控制用户访问站点的某部分。一个简单原始的限制方法是检查 request.user.is_authenticated() ,然后
mysql出现ERROR 1819 (HY000)的解决方法
ERROR 1819 (HY000): Your password does not satisfy the current policy
在漏洞利用Python代码真的很爽
不知道怎么忽然想看这个,呵呵小我的python的反shell的代码 #!/usr/bin/python # Python&nbs
Javascript中的基本类型和引用类型概述说明
简单概述js变量可以划分为两种不同的数据类型：基本类型：undefined、null、Boolean、Number、String、Symbo
解决windows下python3使用multiprocessing.Pool出现的问题
例如：from multiprocessing import Pooldef f(x):return x*xpool = Pool(proc
js replace()去除代码中空格的实例
实例如下：$("#stream_title").val().trim().replace(/\s/g,"&qu

使用Python读写多个sheet文件

在Python程序中进行文件读取和写入操作的教程

Python快速实现一个线程池的示例代码

Python boxplot 用法详解

微信跳一跳小游戏python脚本

python实现简单倒计时功能

基于K-Means聚类算法演示及可视化展示

图文详解Python中模块或py文件导入(超详细!)

keras自动编码器实现系列之卷积自动编码器操作

Python中的协程(Coroutine)操作模块(greenlet、gevent)

小编教你ulitraiso制作U盘启动盘

钉钉云课堂批量导入试题-钉钉云课堂批量导入试题方法

汉字六六六找出十二个数字答案是什么

SpringBoot中的multipartResolver上传文件配置

精灵食肆糯米菇叽有哪些效果？糯米菇叽效果及制作食材介绍

蒸汽平台游戏库怎么办-蒸汽平台游戏库详情介绍

Windows 2000服务器安全配置精华教程

excel2016中如何调出开发工具

微软word怎么转换成pdf文件？微软word转换为pdf格式的方法

Excel中SECOND函数的语法和用法

手机版 网络编程 asp之家 www.aspxhome.com