网络编程
位置:首页>> 网络编程>> Python编程>> Python使用Chrome插件实现爬虫过程图解

Python使用Chrome插件实现爬虫过程图解

作者:Johnthegreat  发布时间:2023-08-01 02:02:29 

标签:Python,Chrome,插件,爬虫

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。


{
 "_id": "jdreview",
 "startUrl": [
   "https://item.jd.com/100000680365.html#comment"
 ],
 "selectors": [
   {
     "id": "user",
     "type": "SelectorText",
     "selector": "div.user-info",
     "parentSelectors": [
       "main"
     ],
     "multiple": false,
     "regex": "",
     "delay": 0
   },
   {
     "id": "comments",
     "type": "SelectorText",
     "selector": "div.comment-column > p.comment-con",
     "parentSelectors": [
       "main"
     ],
     "multiple": false,
     "regex": "",
     "delay": 0
   },
   {
     "id": "time",
     "type": "SelectorText",
     "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
     "parentSelectors": [
       "main"
     ],
     "multiple": false,
     "regex": "",
     "delay": "0"
   },
   {
     "id": "color",
     "type": "SelectorText",
     "selector": "div.order-info span:nth-of-type(1)",
     "parentSelectors": [
       "main"
     ],
     "multiple": false,
     "regex": "",
     "delay": 0
   },
   {
     "id": "main",
     "type": "SelectorElementClick",
     "selector": "div.comment-item",
     "parentSelectors": [
       "_root"
     ],
     "multiple": true,
     "delay": "10000",
     "clickElementSelector": "div.com-table-footer a.ui-pager-next",
     "clickType": "clickMore",
     "discardInitialElements": false,
     "clickElementUniquenessType": "uniqueHTMLText"
   }
 ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

来源:https://www.cnblogs.com/johnthegreat/p/12757331.html

0
投稿

猜你喜欢

  • 现在大家都在讨论Web2.0 ,大家都在搞用户行为前端设计,现在注册一个ID一般只需要几秒钟,站长期望其产生高价值的UGC,形成一个只需要审
  • 如果你看过YUI的RAW源码,会发现很多跟javadoc语法类似的注释。据说(via)是使用JSDoc这个工具。但我探索了一遍,发现YUI多
  • 工作中,我们经常会遇到数据异常,比如说浏览量突增猛降,交易量突增猛降,但是这些数据又不是符合正太分布的,如果用几倍西格玛就不合适,那么我们如
  • XML文档对象模型(DOM)是什么?可扩展标记语言XML的基础是 DOM。XML 文档具有一个称为节点的信息单元层次结构;DOM 是描述那些
  • 【原理介绍】通过NETCONF,网管能够用可视化的界面统一管理网络中的设备,并且安全性高、可靠性强、扩展性强。如下图所示,网管与网络中的所有
  • 代码如下:    function HandleTabKey(evt) {   
  • 本文实例讲述了Go语言中使用反射的方法。分享给大家供大家参考。具体实现方法如下:// Data Modeltype Dish struct
  • 本文实例讲述了php实现mysql事务处理的方法。分享给大家供大家参考。具体分析如下:要实现本功能的条件是环境 mysql 5.2 /php
  • 对于个人网站来说,受到建站条件的制约,Access数据库成了广大个人网站站长的首选。然而,Access数据库本身存在很多安全隐患,攻击者一旦
  • global.asa<SCRIPT LANGUAGE="VBScript" RUNAT=&qu
  • gzip 是什么东东呢?百科跟我们说gzip是GNU zip的缩写,它是一个 GNU 自由软件的文件压缩程序。…gzip 的基础是 DEFL
  • 前言刚接触golang不久,有些环境无法融会贯通,现在针对开发过程中遇到的问题做个排查记录问题背景开发环境区分不同网段,同一个程序引入到另一
  • 导语:简洁并不等于极简主义,在保持网站简洁的外观的同时,辅以其它元素的使用,同样能够达到要求。那如何做到这一点呢?通过本文你能从中学到一些经
  • 本文实例为大家分享了python实现用户名密码校验的具体代码,供大家参考,具体内容如下需要实现功能输入用户名密码 ;认证成功后显示 欢迎信息
  • 对于编译型的语言,比如C#中的一个.cs文件,Java中的一个.java或者编译后的.class文件可以认为是一个模块(但常常不表述为模块)
  • 介绍兄弟们,这个是正经的教程,不要拿来乱用,可以自己用自己的电脑或者手机试,但是别搞别人,懂的都懂!本文思路1.通过opencv调用摄像头拍
  • 在自己的网站上更新文章时一个比较常见的问题是:文章插图太宽,使整个网页都变形了。如果对每个插图都先进行缩放再插入的话,太麻烦了。我前段时间写
  • 本文实例讲述了Python实现的NN神经网络算法。分享给大家供大家参考,具体如下:参考自Github开源代码:https://github.
  • pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,使用方法:from pyquery import PyQue
  • 前言我们在日常开发中,经常会遇到一些关于文件的操作,例如,实现查看目录内容的功能。类似Linux下的tree命令。统计目录下指定后缀文件的行
手机版 网络编程 asp之家 www.aspxhome.com