位置：首页>> 网络编程>> Python编程>> Python爬取三国演义的实现方法

Python爬取三国演义的实现方法

作者：bluescorpio　　发布时间：2022-12-11 20:07:37　

标签：python,爬取,网页

本文的爬虫教程分为四部：

1.从哪爬 where

2.爬什么 what

3.怎么爬 how

4.爬了之后信息如何保存 save

一、从哪爬

三国演义

二、爬什么

三国演义全文

三、怎么爬

在Chrome页面打开F12，就可以发现文章内容在节点

<div id="con" class="bookyuanjiao">

只要找到这个节点，然后把内容写入到一个html文件即可。

content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})

四、爬了之后如何保存

主要就是拿到内容，拼接到一个html文件，然后保存下来就可以了。

#!usr/bin/env
# -*-coding:utf-8 -*-
import urllib2
import os
from bs4 import BeautifulSoup as BS
import locale
import sys
from lxml import etree
import re

reload(sys)
sys.setdefaultencoding('gbk')

sub_folder = os.path.join(os.getcwd(), "sanguoyanyi")
if not os.path.exists(sub_folder):
os.mkdir(sub_folder)

path = sub_folder

# customize html as head of the articles
input = open(r'0.html', 'r')
head = input.read()

domain = 'http://www.shicimingju.com/book/sanguoyanyi.html'
t = domain.find(r'.html')
new_domain = '/'.join(domain.split("/")[:-2])
first_chapter_url = domain[:t] + "/" + str(1) + '.html'
print first_chapter_url

# Get url if chapter lists
req = urllib2.Request(url=domain)
resp = urllib2.urlopen(req)
html = resp.read()
soup = BS(html, 'lxml')
chapter_list = soup.find("div", {"class": "bookyuanjiao", "id": "mulu"})
sel = etree.HTML(str(chapter_list))
result = sel.xpath('//li/a/@href')

for each_link in result:
each_chapter_link = new_domain + "/" + each_link
print each_chapter_link
req = urllib2.Request(url=each_chapter_link)
resp = urllib2.urlopen(req)
html = resp.read()

soup = BS(html, 'lxml')
content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})
title = soup.title.text
title = title.split(u'_《三国演义》_诗词名句网')[0]

html = str(content)
html = head + html + "</body></html>"

filename = path + "\\" + title + ".html"
print filename
# write file
output = open(filename, 'w')
output.write(html)
output.close()

0.html的内容如下

<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body>

总结

0

投稿

猜你喜欢

PHP输出JSON格式数据方式
PHP输出JSON格式数据常用框架封装好的方法来输出JSON数据，但是手动去书写的时候却遇到了问题，因为输出的数据类型为字符串类型，导致不能
301转向代码合集
樂思蜀将SEO工作中所需要的301转向代码进行了整理，收藏并分享，以备查阅。1、IIS下301设置 Internet信息服务管理器 ->
Python实用库 PrettyTable 学习笔记
本文实例讲述了Python实用库 PrettyTable。分享给大家供大家参考，具体如下：PrettyTable安装使用pip即可十分方便的
python单元测试框架pytest的使用示例
首先祝大家国庆节日快乐，这个假期因为我老婆要考注会，我也跟着天天去图书馆学了几天，学习的感觉还是非常不错的，这是一篇总结。这篇博客准备讲解一
Python高光谱遥感影像处理问题详细分析讲解
前言在写波段配准相关代码时经常需要用到tif影像的波段合成和分解，虽然可以用ENVI才处理，但是每次都要打开再设置一些参数有些麻烦，所以本着
python使用pandas处理excel文件转为csv文件的方法示例
由于客户提供的是excel文件，在使用时期望使用csv文件格式，且对某些字段内容需要做一些处理，如从某个字段中固定的几位抽取出来，独立作为一
ASP中页面限权访问的几种方法
在设计网页时，经常遇到某些页面需限权访问的情况。比如，一个公司的某些产品只让某一或某些供应商或客户浏览。那么，我们如何实现这一功能呢？本文，
python 计算t分布的双侧置信区间
如下所示：interval=stats.t.interval(a,b,mean,std)t分布的置信区间a：置信水平b:检验量的自由度me
python检测空间储存剩余大小和指定文件夹内存占用的实例
1、检测指定路径下所有文件所占用内存import osdef check_memory(path, style='M'):
MySQL Enterprise备份的恢复解决方案
Sun公司和Zmanda在3月18号声称他们正在一起合作，为MySQL Enterprise用户交付一种全面、全局数据备份与恢复解决方案。现
自己搭建resnet18网络并加载torchvision自带权重的操作
直接搭建网络必须与torchvision自带的网络的权重也就是pth文件的结构、尺寸和变量命名完全一致，否则无法加载权重文件。此时可比较2个
使用 XMLSPY 设计项目的 Schema 原型
Altova 公司的 XMLSPY 是个不可多得的好东西，它几乎可以开发所有的 XML 产品。最近用它来做 Schema
在任意字符集下正常显示网页的方法二（续）
转:coolcode.cn前几天写了一篇在任意字符集下正常显示网页的方法，里面介绍的很简单，就是把前128个字符以外的字符集都用
Python批量启动多线程代码实例
这篇文章主要介绍了python批量启动多线程代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友
网页设计中的对比原则与接近性原则
一、网页设计中的对比原则一件网页设计作品由许多元素构成，它们的重要性各不相同，其中一些元素的重要性要高于其它元素。一些相互关联，而另一些则
能否推荐一个论坛用的数据库结构？
我为一大型网站做了一个论坛，也顺利通过了测试。由于是第一次做这方面的数据库，我不知道比其它网站上数据库差距有多大，是不是够优化。能推荐或介绍
隐藏你的.php文件的实现方法
隐藏你的.php文件隐藏你的.php文件今天做PHP在线手册镜像的时候看到了这个方法,哈哈,以前都没有注意到,所以说,手册是
关于人物角色设计讨论
本期薯片会的目的是讨论人物角色在设计中如何应用的问题。围绕了以下几个问题开展了讨论：1、角色能干什么？2、包含哪
关于keras多任务多loss回传的思考
如果有一个多任务多loss的网络，那么在训练时，loss是如何工作的呢？比如下面：model = Model(inputs = input,
python读取指定字节长度的文本方法
软件版本Python 2.7.13; Win 10场景描述1、使用python读取指定长度的文本；2、使用python读取某一范围内的文本。

Python将字典转换为XML的方法

python中format的用法实例详解

pytorch--之halfTensor的使用详解

python+pytest接口自动化之session会话保持的实现

对python插入数据库和生成插入sql的示例讲解

pandas Dataframe行列读取的实例

Python3 Loguru输出日志工具的使用

Python基于OpenCV实现人脸检测并保存

python anaconda 安装环境变量升级以及特殊库安装的方法

opencv实现矿石图片检测矿石数量

如何取消保护Excel工作表

关于django python manage.py startapp 应用名出错异常原因解析

【macOS小技巧】Chrome 浏览器如何实现AirDrop 分享功能？

word 2016中如何调整图片色调与光线

Java实战员工绩效管理系统的实现流程

EXCEL表格-如何对多行数据去除空格-TIRM函数

word拆分表格怎么弄？

word2003怎么插入标题?

excel2013条件格式如何快速查重

如何查看MAC系统Mail邮件路径在电脑的位置

手机版 网络编程 asp之家 www.aspxhome.com