电脑教程
位置:首页>> 电脑教程>> 苹果Mac教程>> Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧

Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧

  发布时间:2023-10-18 16:38:50 

标签:Screaming,Frog,SEO,Spider,for,Mac教程,Screaming,Frog,SEO,Spider使用方法

Screaming Frog SEO Spider for Mac是一个网站爬虫,允许你抓取网站的网址,并获取关键要素,分析和审计技术和现场搜索引擎优化。在本篇文章中,我们介绍的是Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧。


Screaming Frog SEO Spider for Mac使用教程

1)点击“配置>自定义>提取”
该菜单可以在SEO Spider的顶级菜单中找到。Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧自定义提取以进行网页抓取
这将打开自定义提取配置,允许您配置多达100个单独的“提取器”。Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧2)选择CSS路径,XPath或正则表达式进行剪贴
在尖叫青蛙 SEO蜘蛛工具提供从网站抄袭数据的三种方法:

XPath – XPath是一种查询语言,用于从XML之类的文档(例如HTML)中选择节点。此选项使您可以使用XPath选择器(包括属性)来抓取数据。
CSS路径 –在CSS中,选择器是用于选择元素的模式,通常是三种可用方法中最快的一种。此选项使您可以使用CSS路径选择器来抓取数据。可选属性字段也可用。
正则表达式 –正则表达式当然是用于匹配数据模式的特殊文本字符串。这最适合高级用途,例如抓取HTML注释或内联JavaScript。
建议在大多数常见情况下使用CSS Path或XPath,尽管它们都有各自的优势,但是您可以简单地选择最适合使用的选项。

使用XPath或CSS Path收集HTML时,您可以使用下拉过滤器准确选择要提取的内容–

提取HTML元素 –所选元素及其所有内部HTML内容。
提取内部HTML –所选元素的内部HTML内容。如果所选元素包含其他HTML元素,则将它们包括在内。
提取文本 –所选元素的文本内容以及任何子元素的文本内容。
3)输入语法
接下来,您需要将语法输入到相关的提取器字段中。查找要抓取的数据的相关CSS路径或Xpath的快速简便方法是,只需在Chrome中打开网页,然后打开要收集的HTML行的“检查元素”,然后右键单击并复制提供的相关选择器路径。

例如,您可能希望开始抓取博客文章的“作者”,并且每个人都收到了评论。让我们以Screaming Frog网站为例。

在Chrome中打开任何博客帖子,右键单击并在每个帖子上的作者姓名上单击“检查元素”,这将打开“元素” HTML窗口。只需再次右键单击相关的HTML行(具有作者姓名),复制相关的CSS路径或XPath,然后将其粘贴到SEO Spider的相应提取器字段中即可。如果您使用Firefox,则也可以在其中进行相同的操作。
Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧CSS Path Scraping作者您可以重命名“提取程序”,它对应于SEO Spider中的列名。在此示例中,我使用了CSS Path。Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧定制提取作者和评论
每个提取器旁边的对勾确认所使用的语法有效。如果它们旁边有一个红叉,则可能需要进行一些调整,因为它们无效。

当您感到高兴时,只需按下底部的“确定”按钮即可。如果您想查看更多示例,请跳至本指南的底部。

请注意–这不是构建CSS选择器和XPath表达式的最可靠的方法。使用此方法给出的表达式可以非常特定于元素在代码中的确切位置。由于检查的视图是页面/ DOM的呈现版本,因此这是可以更改的,默认情况下,SEO Spider会查看HTML源代码,而SEO Spider在其中处理页面时会进行HTML清理是无效的加价。

这些内容在浏览器之间也可能有所不同,例如,对于上述“作者”示例,给出了以下CSS选择器–

Chrome:正文> div.mAIn-blog.clearfix> div> div.mAIn-blog-posts> div.mAIn-blog-posts_single-inside_author.clearfix.drop> div.mAIn-blog-posts_single-inside_author-detAIls.col- 13-16> div.author-detAIls-social>
Firefox: .author-detAIls-social> a:nth-child(1)

Firefox提供的表达式通常比Chrome提供的表达式更强大。即使这样,也不应将其用作理解各种提取选项并能够通过检查HTML源代码手动构建这些选项的完整替代。

关于CSS选择器的w3schools指南及其XPath简介是了解这些表达式基础的好资源。

4)抓取网站
接下来,在顶部的URL字段中输入网站地址,然后单击“开始”以爬网网站并开始抓取。Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧5)在“自定义提取”选项卡下查看爬取的数据
抓取的数据开始在抓取过程中实时显示在“自定义提取”选项卡以及“内部”选项卡下,您可以将收集到的所有数据一起导出到Excel中。

在上面概述的示例中,我们可以看到每篇博客文章旁边的作者姓名和评论数已被抓取。

自定义提取
当进度条达到“ 100%”时,爬网已完成,您可以选择使用“导出”按钮来“导出”数据。

如果您已经有了想要从中提取数据的URL列表,而不是抓取网站来收集数据,则可以使用列表模式上载它们。

而已!希望以上指南有助于说明如何使用SEO Spider软件进行网页抓取。Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧
显然,可能性是无限的,此功能可用于收集任何内容,从纯文本到Google Analytics(分析)ID,架构,社交元标签(例如Open Graph标签和Twitter卡),移动注释,hreflang值以及价格产品,折扣率,库存可用性等。我已经介绍了更多示例,这些示例按提取方法划分。

0
投稿

猜你喜欢

  • 在WPS 演示文稿中我们可以根据自己的实际需要为幻灯片添加编号,方便我们进行查看,而且我们在插入幻灯片编号窗口,我们还可以根据自己的实际需要
  • 日常工作中,很多用户需要从一个城市出差到另一个城市甚至另一个国家,这时候时差就是个问题,如何在Mac电脑中更改时区呢?下面我们分享在Mac电
  • 以下是一组和身份证有关的函数公式,如果你是财务人员或是一名HR,那就一起来看一下啦:1、查找重复身份证号码:=IF(COUNTIF(A:A,
  • 通常情况下,我们在Word中使用比较广的命令都分散在不同的菜单中。对于菜鸟来说则需要记清这些命令所分布的位置,如果弄混淆了则可能会打开多个菜
  • 在wps表格中统一设置打印表头的方法:1、打开我们想要打印的表格,点击页面布局2、选择打印标题3、在顶端标题行中,点击区域选择按钮3、在表格
  • 经常需要运用办公软件来制作上课的课件,那就需要在文档当中输入各种符号,那么,如何输入我们常见的因为所以符号呢,今天我们就来教大家如何在WPS
  • 如何修剪视频?今天小便给大家整理了使用Movavi Video Editor Plus视频编辑软件修剪视频的教程,操作简单快捷,感兴趣的朋友
  • 如果Excel工作表的某列中包含一列数据,现在要按单元格数据的长度来提取最长的几个数据,可以用下面的数组公式。假如数据在A2:A11区域中,
  • 我们在Excel单元格中输入数据后,可以利用Excel 2010的编辑功能对数据进行各种编辑操作,如修改、清除、复制与移动、查找与替换数据等
  • Excel中经常需要使用到日期公式,日期公式具体该如何使用呢?下面是由小编分享的excel使用日期公式的方法,欢迎大家来到学习。excel表
  • 更改word文档中的 自动编号值,需要通过“设置编号值”来实现。1、如图1所示,假设现在想从第3行开始,从“10”开始编号。先将鼠标指针放在
  • 在日常工作中,我们会用wps表格来编辑数据和制作表格,它功能强大,做表格时能替我们省下不少繁琐步骤,比如我们有时候编辑了一份很长的数据表格,
  • 最近有Win10用户反映,自己每次都很着急使用电脑,可电脑的开机速度却非常的慢,几乎每次都要等上两三分钟,非常烦人。那么,Win10开机速度
  • excel的数据相加的技巧在多数的情况下都需要用到,如果上班的时候需要用到但又不懂得该如何使用的朋友,可以一起来学习该如何操作。接下来是小编
  • 很多使用Win10专业版的小伙伴,为了能够使用电脑能够更加流畅给力,会选择使用8G的内存。但是却不知道该怎么样去设置虚拟内存。下面就给大家介
  • 我们在利用Excel表格进行日常办公时,经常需要制作各种各样的表格,当表格不能一目了然时,我们也会在表格当中根据数据添加图表,那么单调的图表
  • 5款MacBook电池续航测试(Intel/M1/M1 Pro/M1 Max):M1系列表现亮眼。过去大多数 MacBook 的电池续航时间
  • 如果我们要在wps里隐藏表格,那么我们应该怎么做呢?下面就让小编告诉你wps隐藏表格 的方法。wps隐藏表格的方法:第一步:我们如果只想隐藏
  • AGGREGATE函数用法与SUBTOTAL函数类似,但在功能上比SUBTOTAL函数更加强大,不仅可以实现诸如SUM、AVERAGE、CO
  • WPS中有个图片文字识别功能大家知不知道? 有时候每一个字都对着敲出来影响了我们的工作效率,有没有一种简单、高效、识别率百分百的方法呢?其实
手机版 电脑教程 asp之家 www.aspxhome.com