Python爬虫框架NewSpaper使用详解
作者:梦想橡皮擦 发布时间:2022-06-03 06:20:26
写在前面
原计划继续写一篇Portia的使用博客,结果在编写代码途中发现,在windows7的DockerToolbox里面使用Portia错误实在是太多了,建议大家还是在Linux虚拟机或者直接在服务器上去运行。否则太耗费精力了~
今天我们转移一下,介绍一款newspaper
newspaper
github地址 : github.com/codelucas/n…
看名字应该能猜到和报纸/新闻有关系,这个库主要用于文章爬取和整理,国内的一个大佬做的,当然他的github上也贴上了其他开发者的推荐
例如requests库的作者在推特上的推荐语
"Newspaper is an amazing python library for extracting & curating articles."
The Changelog专门写了一篇评价文章,也可以围观一下
Newspaper delivers Instapaper style article extraction.
对于这样一款走出国门的爬虫库,我们还是很有必要介绍一下的
安装非常简单
pip install newspaper3k -i pypi.tuna.tsinghua.edu.cn/simple
官方文档可以查阅:newspaper.readthedocs.io/en/latest/u…
newspaper框架的使用
对于这款框架,使用起来难度是非常低的。简单对照这一页文档即可应用起来
例如:单条新闻内容获取
第一种应用方式,直接获取网页内容
from newspaper import Article
url = "https://36kr.com/p/857678806293124"
article = Article(url) # 创建文章对象
article.download() # 加载网页
article.parse() # 解析网页
print(article.html) # 打印html文档
当然还有一些其他属性,不过该框架都是基于关键字识别的,有一些BUG存在,有时识别不准
# print(article.html) # 打印html文档
print(article.text) # 新闻正文
print("-"*100)
print(article.title) # 新闻标题
print("-"*100)
print(article.authors) # 新闻作者
print("-"*100)
print(article.summary) # 新闻摘要
print(article.keywords) # 新闻关键词
# print(article.top_image) # 本文的top_image的URL
# print(article.images) # 本文中的所有图像url
newspaper文章缓存
默认情况下,newspaper缓存所有待提取的文章,如果文章被爬取过之后就会清除掉它。此功能用于防止重复的文章和提高提取速度。可以使用memoize_articles
参数选择是否缓存。
但当我使用下面这个办法进行提取的时候,神奇的BUG出现了,怎么也得不到我想要的文章了。唉~看来框架完善之路还是要继续啊
import newspaper
url = "https://news.sina.com.cn/c/2020-08-29/doc-iivhvpwy3651884.shtml"
# article = Article(url) # 创建文章对象
# article.download() # 加载网页
# article.parse() # 解析网页
news = newspaper.build(url, language='zh', memoize_articles=False)
article = news.articles[0]
article.download()
article.parse()
print('title=',article.title)
其他功能
在应用的过程中发现确实解析存在很大的问题,不过整体的框架设计思路还是非常棒的。有点高开低走 ,看到github上的评语其实对newspaper是非常有期待的,使用之后,我建议还是使用requests然后加上bs4自己搞搞更加合理。
除了上面简单介绍到的功能,它还有一些扩展,例如下面这些
requests
和newspaper
合体解析网页正文,也就是用requests爬取,newspaper充当解析器可以调用
Google Trends
信息支持多任务爬取
支持NPL自然语言处理
甚至官方文档还给了一个
Easter Eggs
复活节彩蛋~,可以拉倒文档最下面查阅
唉~总之一言难尽啊
写在后面
本打算 Python 玩转NewSpaper爬虫框架,看来是玩不转了,扩展一下知识点也是极好的,当然github下载源码之后,好好研究一下大佬的编码规范,能学到很多。
来源:https://juejin.cn/post/7136556501920907272
猜你喜欢
- Ajax(Asynchronous Javascript And XML)翻译成英文就是“异步Javascript和XML”。即用Javas
- javascript 代码实现vbscript中的trim、left、right等函数兼容IE,FireFox。<style>b
- 学习vue和nodejs的过程当中,涉及到了axios,今天为了测试,写了get和post两个方法来跟node服务端交互,结果因为heade
- 网络爬虫由于一个ip频繁访问同一网站,容易返回456或者被长时间封禁。特别的本机有socks5客户端的设置如下,前提是已经安装了socks5
- 简述由于某些原因,在使用 import 时,Python 找不到相应的模块。这时,解释器就会发牢骚 - ImportError。那么,Pyt
- 如下所示:# -*- coding:utf-8 -*-from datetime import datetimeimport redef M
- 在Soundbreak我们每天24小时不间断地播放实况音频和视频,所以对于MySQL的新增的复制特性,我们不能做出很令人信服的测试。通过测试
- 前言world:世界表格continent:大洲名称name:国家名称population:人口数量聚合函数介绍sum()求和函数avg()
- 1.元组的概念Python中的元组和列表很相似,元组也是Python语言提供的内置数据结构之一,可以在代码中直接使用。元组和列表就像是一个孪
- 本文分析了CodeIgniter连贯操作的底层原理。分享给大家供大家参考,具体如下:php oop连贯操作原理->符号其实是传递对象指
- 建立随机生成的HTML代码是一件相当容易实现的ASP特性。你可能创建过“每日一帖”、滚动广告等等,只需要稍加点缀就会令你的网站日久弥新。对存
- 等差数列末项计算题目内容:给出一个等差数列的前两项a1,a2,求第n项是多少可以使用以下语句实现非负整数n的输入:n=int(input()
- 本文实例讲述了Python学习笔记之列表推导式。分享给大家供大家参考,具体如下:列表推导式列表推导式可以快速简练地创建列表之前的复杂写法:c
- 1. 介绍1.1 前言NetworkX是复杂网络研究领域中的常用Python包。1.2 图的类型(Graph Types)允许以可哈希的ob
- Python 操作文件时,我们一般要先判断指定的文件或目录是否存在,不然容易产生异常。1.文件# 是否存在import osos.path.
- commands模块的适用commands模块是python的内置模块,他共有三个函数,使用help(commands)可以查看到FUNCT
- 1.基本概念定义含义并发:concurrency,同一时刻只能有一条指令执行,但是多个线程的对应的指令被快速轮换地执行并行parallel,
- 前言说起面试,很多同学都经历过,但是 面试中 可能会遇到各种问题,MySQL 的问题 也是非常多,最近我也经常面试,也希望问一些数据库一些偏
- asp之家注:学习javascript(js),免不了要用到打开新窗口,方法很多,总的来说是使用window.open。不同与HTML中的t
- 前言在pandas模块中,通常我们都需要对类型为DataFrame的数据进行操作,其中最为常见的操作便是拼接了。比如我们将两个Excel表格