基于Python实现网页文章转PDF文档
作者:嗨学编程 发布时间:2022-08-23 08:50:17
标签:Python,网页文章,PDF
我们有时候看到一篇好的文章,想去保存下来,传统方式一般是收藏书签、复制粘贴到文档或者直接复制链接保存,但这样一次两次还好,数量多了,比较麻烦不说,还可能不好找~
这个时候,Python的作用就来了,直接抓下来导出为PDF,直接把整个网站的内容都导下来都行~
话不多说,我们直接上代码!
import requests
import parsel
import pdfkit
import os
import re
html_str = """
<!doctype html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
{article}
</body>
</html>
"""
def change_title(title):
"""
替换标题中的特殊字符
:param title: 传入文章标题
:return: 返回一个替换掉特殊字符的标题
"""
"""
使用re.compile()将正则表达式的字符串形式编译为一个对象,通过该对象提供的一些列方法对文本
进行匹配查找
re.sub() 第一个参数对应的正则表达式,第二个参数为要替换成的字符串, 第三个参数为源字符串
"""
pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]") # '/ \ : * ? " < > |'
new_title = re.sub(pattern, "_", title) # 替换为下划线
return new_title
for page in range(1, 11):
"""
发送请求的url地址,唯一资源定位符
headers: 请求头 把python伪装成浏览器对服务器发送请求, 然后服务器会给我们返回一个响应数据
请求头所加的参数都是可以在开发者工具中的headers里面的request headers中找到的
比如 user-agent:代表着浏览器的信息
cookies:用户的信息 常用于检测是否有登陆账号
host:域名
referer:常说的防盗链,告诉服务器是从哪个网页跳转过来的
请求方式:可以通过开发者工具中headers里面的数据看到是什么样的请求方式
get请求: 是可以直接从服务器上面获取数据
post请求:需要向服务器发送一个数据 比如说(搜索/登陆)
response:响应对象
状态码: 200表示请求成功 300:重定向 跳转 400:通常是url网址不对 500 一般是服务器问题
获取网页文本数据 response.text 获取网页json字典数据 response.json() 获取网页二进制数据 response.content
"""
url = 'https://****/qdPython/article/list/{page}'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
"""
url里面的****替换为blog.csdn.net即可
把 html 字符串数据转换成一个 Selector 对象
Selector 就具有一系列数据解析的方法 css/xpath/re
类选择器 都是使用圆点.开头
ID选择器 是使用#开头
属性选择器:
::text获取标签里面的文本数据
::attr(xxx) 获取标签内某一个属性的数据
get() 从 Selector 对象中提取第一个数据, 直接返回字符串数据给我们
getall() 从 Selector 对象中提取提取所有数据, 返回一个列表
"""
selector = parsel.Selector(response.text)
href = selector.css('.article-list div.article-item-box a::attr(href)').getall()
for link in href:
response_1 = requests.get(url=link, headers=headers)
selector_1 = parsel.Selector(response_1.text)
title = selector_1.css('#articleContentId::text').get()
content = selector_1.css('#content_views').get()
new_title = change_title(title)
# 创建文件保存地址以及保存文件的名字 和格式
pdf_path = 'pdf\\' + new_title + '.pdf'
html_path = 'pdf\\' + new_title + '.html'
# str.format() 字符串格式化方法
html = html_str.format(article=content)
"""
with open 打开文件时, 当文件对象引用完毕之后会自动关闭文件
html_path:文件保存路径以及名字格式
mode:保存方式 w 写入 如果你不写mode默认是r 读
encoding: 编码
as f 重命名 可以自定义
f = open()
f.writer()
f.close()
"""
with open(html_path, mode='w', encoding='utf-8') as f:
f.write(html)
print('正在保存:', title)
# exe 文件存放的路径
config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
# 把 html 通过 pdfkit 变成 pdf 文件
pdfkit.from_file(html_path, pdf_path, configuration=config)
os.remove(html_path)
兄弟们快去试试吧!
来源:https://blog.csdn.net/fei347795790/article/details/124965768
0
投稿
猜你喜欢
- 在风起云涌的互联网浪潮中,产品迭代的速度越来越快。随着用户需求的激增,也不断带来了对设计师能力要求的提高。初入交互设计领域几年来,明显发现可
- 自己写的一个自动完成效果,暂时没有ajax数据源,用静态数据代替。仅供喜欢JavaScript的同学们参考,代码如下<!DOCTYPE
- 在给blog加上无刷新搜索和即时验证检测后,又看了下代码,感觉太过麻烦,就把XMLHttpRequest请求封装到一个类里面,用起来方便多了
- 今天咱写一个挺实用的工具,就是扫描并获取可用的proxy首先呢,我先百度找了一个网站:http://www.xicidaili.com 作为
- 本文实例为大家分享了js实现QQ邮箱邮件拖拽删除的具体代码,供大家参考,具体内容如下步骤分析:根据数据结构生成HTML结构全选和单选功能的实
- const 常量 1.在定义时必须被初始值,2.前面不加任何修饰符3.变量名字母一般都大写4.常量可以被子类继承5.一个常量是属于一个类的,
- 语法: text-overflow : clip | ellipsis 参数: clip : 不显示省略标记(...),而是简单的裁切 el
- 我已安装了WINDOWS NT OPTON PACK 中的SMTP Service,请问如何使用它的发送邮件功能?在安装了SMTP Serv
- 刚开始学习Python的类写法的时候觉得很是麻烦,为什么定义时需要而调用时又不需要,为什么不能内部简化从而减少我们敲击键盘的次数?你看完这篇
- <% On Error Resume Next Const uploadPath = "/uploads/"
- 5.0版本和之前版本的差异较大,本篇对熟悉3.2版本的用户给出了一些5.0的主要区别。URL和路由5.0的URL访问不再支持普通URL模式,
- 最近写一个小小的留言本;算是对AJAX的综合应用迈出了一小步在制作过程中有很多兴奋的体验 虽然和以前的制作方法比起来繁杂了一些但是整个页面的
- 在前面的DRF系列教程中,我们以博客为例介绍了序列化器, 使用基于类的视图APIView和ModelViewSet开发了针对文章资源进行增删
- Div的浮动+循环(描述的不清楚,请看图)在设计和布局的时候,碰到图片循环问题,碰到间距问题,怎么样让循环的图片每行的起始点跟上边的titl
- asp三天学好ADO对象之第二天 今天来说一下Recordset对象的一些方法。1、AddNew 方法创建可更新 Recordset 对象的
- 下面是Sql Server 和 Access 操作数据库结构的常用Sql,如如何新建一个表,如何删除表,如何删除数据,插入数据等等..希望对
- whoosh的官方介绍:http://whoosh.readthedocs.io/en/latest/quickstart.html因为做的
- “模板化”——这也许是视觉设计师通常最不愿意听到的概念,先入为主的会产生“批量生产”、“体力活儿”、“限制思维”等概念,总之都比较负面。但为
- 虽然小型web应用程序用单个脚本可以很方便,但这种方法却不能很好地扩展。随着应用变得复杂,在单个大的源文件中处理会变得问题重重。与大多数其他
- 错误提示Invalid byte 1 of 1-byte UTF-8 sequence原因分析在中文版的window下java的默认的编码为