node爬取新型冠状病毒的疫情实时动态
作者:喜欢ctrl的cxk 发布时间:2024-05-22 10:26:14
标签:node,爬取,疫情,动态
写在前面:
新型冠状病毒有多么可怕,我想大家都已经知道了。湖北爆发了新型冠状病毒,湖南前几天爆发了禽流感,四川发生地震,中国加油!昨天晚上我突发奇想地打算把疫情实时动态展示在自建站上,于是说干就干(先附上昨晚用puppeteer截的图片)。
安装node_modules:
所需的node_modules:①puppeteer;②cheerio;③fs;④cron。
需要注意的是安装puppeteer的时候很容易安装失败,这里有俩个解决方法,都是用淘宝源(马云爸爸不是白叫的😄)。
一、先将npm换成淘宝源再安装:
npm config set registry http://registry.npm.taobao.org/
npm install -g cheerio
npm i -g puppeteer
npm i -g fs
npm i -g cron
二、用cnpm进行安装:
npm install cnpm -g --registry=https://registry.npm.taobao.org/
cnpm install -g cheerio
cnpm i -g puppeteer
cnpm i -g fs
cnpm i -g cron
具体操作:
用puppeteer爬取:
puppeteer本质上是一个chrome浏览器,网页很难分清这是人类用户还是爬虫,我们可以用它来加载 * 页。
先来一个简单的例子,用puppeteer截图:
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']}); //启动浏览器实例
/* puppeteer.launch()的可选参数如下:
headless: 是否打开浏览器,默认为true
ignoreHTTPSErrors: 是否忽略https错误,默认为true
executablePath: 配置要调用浏览器的可执行路径,默认是同Puppeteer一起安装的Chromeium
slowMo:指定的毫秒延缓Puppeteer的操作
args:设置浏览器的相关参数,比如是否启动沙箱模式“--no-sandbox”,是否更换代理“--proxy-server”,
*/
const page = await browser.newPage(); //新建页面
await page.goto('https://ncov.dxy.cn/'); //访问目标网页:丁香医生
await page.screenshot({ //进行截图
path: 'p1.png',
type: 'png',
// quality: 100, 只对jpg有效
// 指定区域截图,clip和fullPage两者只能设置一个
// fullPage: true,
clip: {
x: 0,
y: 0,
width: 1000,
height: 1000
}
});
browser.close(); //关闭浏览器
})();
用puppeteer获取网页源代码:
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('https://ncov.dxy.cn/');
//page.frames() 获取当前页面所有的 iframe,然后根据 iframe 的名字精确获取某个想要的 iframe
const frame = await page.mainFrame();
const bodyHandle = await frame.$('html'); //获取所有的html
//frame.evaluate()在浏览器中执行函数,相当于在控制台中执行函数,返回一个Promise
const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
await bodyHandle.dispose();
browser.close();
console.log(html);
})();
用cheerio解析html:
// 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象
// 使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码
var $ = cheerio.load(html);
var $menu_box = $(".statistics___1cFUQ");
console.log($menu_box.html());
用fs写入到文件中:
/* fs.wirteFile有三个参数
* 1,第一个参数是要写入的文件路径
* 2,第二个参数是要写入得内容
* 3,第三个参数是可选参数,表示要写入的文件编码格式,一般就不写,默认就行
* 4,第四个参数是个回调函数 只有一个参数error,来判断是否写入成功
*/
fs.writeFile("./coronavirus.php",$menu_box.html(),error=>{
if(error) return console.log("写入文件失败,原因是:"+error.message);
console.log('写入成功');
});
引入到网站中:
我是直接把它放在头部,局部代码如下:
<div id="header-bg">
<style type="text/css">
.title___2d1_B img {
width: 18px;
height: 18px;
cursor:pointer;
}
#novel_coronavirus {
text-align: center;
position:relative;
top:50px;
background-color:rgba(255,255,255,0.7);
}
#novel_coronavirus li {
margin: 10px;
padding:2px;
border:1px slide #000;
}
#novel_coronavirus ul li {
list-style:none;
display: inline-block;
}
.count___3GCdh p{
font-size:12px;
}
.count___3GCdh span{
font-size:20px;
}
</style>
<div id="novel_coronavirus" >
<strong><p style="font-size:23px">新型冠状病毒疫情实时动态</p></strong>
<?php require("./test/coronavirus.php");?>
</div>
</div>
服务器上运行的完整代码:
CronJob的定时参数是 秒 分钟 小时 天 月份 星期。这里我设置成了每分钟爬取一次。(我是用mstsc远程连接后运行node coronavirus.js的,这样关闭远程桌面连接后,服务器依然会每分钟爬取一次丁香医生上的新型冠状病毒的全国疫情实时动态。
const cheerio = require('cheerio');
const puppeteer = require('puppeteer');
const fs = require('fs');
var cronJob = require('cron').CronJob;
new cronJob('0 */1 * * * *',function(){
update();
},null,true); //每分钟执行一次
//爬取全国新型肺炎疫情实时动态并写入到指定的.php文件
function update() {
(async () => {
const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});
const page = await browser.newPage();
await page.goto('https://ncov.dxy.cn/');
const frame = await page.mainFrame();
const bodyHandle = await frame.$('html');
const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
await bodyHandle.dispose();
browser.close();
var $ = cheerio.load(html);
var $menu_box = $(".statistics___1cFUQ");
fs.writeFile("coronavirus.php",$menu_box.html(),error=>{
if(error) {
console.log("写入文件失败,原因是:"+error.message);
} else {
console.log('更新成功');
}
});
})();
}
查看我的网站
总结
以上所述是小编给大家介绍的node爬取新型冠状病毒的疫情实时动态,希望对大家有所帮助!
来源:https://blog.csdn.net/weixin_42449444/article/details/104185558


猜你喜欢
- 简介 本文介绍解决SecureCRT通过SSH连接Ubuntu时vi命令有多余的m的问
- 1、如何认识可视化?需要指出的是,虽然不同绘图工具包的功能、效果会有差异,但在常用功能上相差并不是很大。与选择哪种绘图工具包相比,更重要的是
- 1:mysql是我们使用最多的数据库,如果在日常中正确的对mysql数据进行备份,下面我们就来做这事,通过脚本来实现############
- 阅读上一篇:FrontPage2002简明教程四:网页超级链接 一、三种添加CSS的方式 在FrontPage 2002里可以通过三种方式给
- 使用穷举法求两个数的最大公约数for m in range (0,2): a = int(input("
- 本文实例讲述了php获取客户端IP及URL的方法。分享给大家供大家参考,具体如下:function getonlineip(){//获取用户
- 本文实例讲述了通过php修改xml文档内容的方法,分享给大家供大家参考。具体实现方法如下:<?php//1、创建一个DOMDocume
- PHP 向它运行的任何脚本提供了大量的预定义常量。魔术常量准确来说并不能算是常量,常量我们在之前的文章中我们介绍到,常量被定义之后是不能被改
- 前言:线程是指进程内的一个执行单元,也是进程内的可调度实体.与进程的区别:(1) 地址空间:进程内的一个执行单元;进程至少有一个线程;它们共
- 一、MySQL中的日期时间类型MySQL中常用的几种时间类型有:date、datetime、time、year、timestampdatet
- 背景众所周知,go语言可打包成目标平台二进制文件是其一大优势,如此go项目在服务器不需要配置go环境和依赖就可跑起来。操作需求:打包部署到c
- 项目场景:Python版本:3.8因公司业务需求,须开发一套局域网内视频会议软件,此次采用Python实现此功能。程序编写完并在编译器实现此
- 想学习Python的同学们,在这里隆重介绍一款 Python 的开发工具 pyCharm IDE。这是我最喜欢的 Python编辑器利器。而
- 本文实例讲述了Python开发微信公众平台的方法。分享给大家供大家参考,具体如下:这两天将之前基于微信公众平台的代码重构了下,基础功能以库的
- 前言大家都知道,英文的分词由于单词间是以空格进行分隔的,所以分词要相对的容易些,而中文就不同了,中文中一个句子的分隔就是以字为单位的了,而所
- 按照惯例,年底的淘宝的确是到了“需要改版的时候”。这次新版的淘宝首页上线,乍看并没有多少夺人眼球的地方,但仔细揣摩其中的细节,还是发现了不少
- 环境 : Debian 6.02 (squeeze) x64 软件:MySQL 5.5.14 步骤: 1、升级系统 #apt-get upd
- MySQL启动报错window10上安装了MySQL之前使用都是执行net start mysql启动,执行net stop mysql关闭
- 这本是课程的一个作业研究搜索算法,当时研究了一下Tkinter,然后写了个很简单的机器人走迷宫的界面,并且使用了各种搜索算法来进行搜索,如下
- 1. 新建.py文件# pip install kafka-pythonfrom kafka import KafkaConsumerimp