Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧
发布时间:2023-10-18 16:38:50
Screaming Frog SEO Spider for Mac是一个网站爬虫,允许你抓取网站的网址,并获取关键要素,分析和审计技术和现场搜索引擎优化。在本篇文章中,我们介绍的是Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧。
Screaming Frog SEO Spider for Mac使用教程
1)点击“配置>自定义>提取”
该菜单可以在SEO Spider的顶级菜单中找到。自定义提取以进行网页抓取
这将打开自定义提取配置,允许您配置多达100个单独的“提取器”。2)选择CSS路径,XPath或正则表达式进行剪贴
在尖叫青蛙 SEO蜘蛛工具提供从网站抄袭数据的三种方法:
XPath – XPath是一种查询语言,用于从XML之类的文档(例如HTML)中选择节点。此选项使您可以使用XPath选择器(包括属性)来抓取数据。
CSS路径 –在CSS中,选择器是用于选择元素的模式,通常是三种可用方法中最快的一种。此选项使您可以使用CSS路径选择器来抓取数据。可选属性字段也可用。
正则表达式 –正则表达式当然是用于匹配数据模式的特殊文本字符串。这最适合高级用途,例如抓取HTML注释或内联JavaScript。
建议在大多数常见情况下使用CSS Path或XPath,尽管它们都有各自的优势,但是您可以简单地选择最适合使用的选项。
使用XPath或CSS Path收集HTML时,您可以使用下拉过滤器准确选择要提取的内容–
提取HTML元素 –所选元素及其所有内部HTML内容。
提取内部HTML –所选元素的内部HTML内容。如果所选元素包含其他HTML元素,则将它们包括在内。
提取文本 –所选元素的文本内容以及任何子元素的文本内容。
3)输入语法
接下来,您需要将语法输入到相关的提取器字段中。查找要抓取的数据的相关CSS路径或Xpath的快速简便方法是,只需在Chrome中打开网页,然后打开要收集的HTML行的“检查元素”,然后右键单击并复制提供的相关选择器路径。
例如,您可能希望开始抓取博客文章的“作者”,并且每个人都收到了评论。让我们以Screaming Frog网站为例。
在Chrome中打开任何博客帖子,右键单击并在每个帖子上的作者姓名上单击“检查元素”,这将打开“元素” HTML窗口。只需再次右键单击相关的HTML行(具有作者姓名),复制相关的CSS路径或XPath,然后将其粘贴到SEO Spider的相应提取器字段中即可。如果您使用Firefox,则也可以在其中进行相同的操作。CSS Path Scraping作者您可以重命名“提取程序”,它对应于SEO Spider中的列名。在此示例中,我使用了CSS Path。
定制提取作者和评论
每个提取器旁边的对勾确认所使用的语法有效。如果它们旁边有一个红叉,则可能需要进行一些调整,因为它们无效。
当您感到高兴时,只需按下底部的“确定”按钮即可。如果您想查看更多示例,请跳至本指南的底部。
请注意–这不是构建CSS选择器和XPath表达式的最可靠的方法。使用此方法给出的表达式可以非常特定于元素在代码中的确切位置。由于检查的视图是页面/ DOM的呈现版本,因此这是可以更改的,默认情况下,SEO Spider会查看HTML源代码,而SEO Spider在其中处理页面时会进行HTML清理是无效的加价。
这些内容在浏览器之间也可能有所不同,例如,对于上述“作者”示例,给出了以下CSS选择器–
Chrome:正文> div.mAIn-blog.clearfix> div> div.mAIn-blog-posts> div.mAIn-blog-posts_single-inside_author.clearfix.drop> div.mAIn-blog-posts_single-inside_author-detAIls.col- 13-16> div.author-detAIls-social>
Firefox: .author-detAIls-social> a:nth-child(1)
Firefox提供的表达式通常比Chrome提供的表达式更强大。即使这样,也不应将其用作理解各种提取选项并能够通过检查HTML源代码手动构建这些选项的完整替代。
关于CSS选择器的w3schools指南及其XPath简介是了解这些表达式基础的好资源。
4)抓取网站
接下来,在顶部的URL字段中输入网站地址,然后单击“开始”以爬网网站并开始抓取。5)在“自定义提取”选项卡下查看爬取的数据
抓取的数据开始在抓取过程中实时显示在“自定义提取”选项卡以及“内部”选项卡下,您可以将收集到的所有数据一起导出到Excel中。
在上面概述的示例中,我们可以看到每篇博客文章旁边的作者姓名和评论数已被抓取。
自定义提取
当进度条达到“ 100%”时,爬网已完成,您可以选择使用“导出”按钮来“导出”数据。
如果您已经有了想要从中提取数据的URL列表,而不是抓取网站来收集数据,则可以使用列表模式上载它们。
而已!希望以上指南有助于说明如何使用SEO Spider软件进行网页抓取。
显然,可能性是无限的,此功能可用于收集任何内容,从纯文本到Google Analytics(分析)ID,架构,社交元标签(例如Open Graph标签和Twitter卡),移动注释,hreflang值以及价格产品,折扣率,库存可用性等。我已经介绍了更多示例,这些示例按提取方法划分。


猜你喜欢
- (1)制表位的三要素。制表位的三要素包括制表位位置、制表位对齐方式和制表位的前导字符。在设置一个新的制表位格式的时候,主要是针对这三个要素进
- 用户可以使用过滤条件以仅显示邮箱中的特定电子邮件,例如包含附件的电子邮件。过滤条件只会应用到当前“邮件”窗口。打开过滤在 Mac 上的“邮件
- 上期内容我们介绍了文本转换表格的小技巧,今天,再来给大家分享一个在WPS文档中,如何快速录入自定义编号的小方法吧~首先,在首行单元格中单击右
- Win10系统是应该全新的系统,各个功能都和其它版本系统都不一样,而且还新加了很多功能。但有用户在使用Win10的时候,发现没有想象中的那么
- 很多朋友至今都不知道火狐浏览器Mac版怎么收藏网页,这里小编就为大家带来了火狐浏览器 for mac将网站放入收藏夹的详细教程,需要的朋友可
- Win11睡眠无法唤醒黑屏怎么办?如果我们的电脑开启睡眠,那么一段时间不碰电脑就会自动进入,又或者笔记本电脑合盖也是会进入的,但是近期有Wi
- Excel表格中如何合并多个单元格中的内容呢?下面小编来教大家。01、首先,我们打开我们电脑上面的excel;02、然后我们在单元格中输入一
- Excel2016表格中画斜线表头的方法,Excel2016表格中,如何绘画斜线表头呢,下面小编就为大家介绍在excel表格中如何制作倾斜的
- 所谓“假”空单元格是指Excel中看上去好像是空单元格而实际包含内容的单元格。这些单元格实际上并非真正的空单元格,例如一些由公式返回的空字符
- 在Excel表格中出现合并单元格是常有的事,目前有这样的一个需求,对合并的单元格进行隔行填充,即每隔一行填充不同的颜色,交错填充让颜色不一样
- ppt怎么制作图片镂空效果?ppt中想要给图片制作镂空效果,该怎么制作呢?下面我们就来看看ppt制作图片镂空效果的制作方法,需要的朋友可以参
- 大家在办公生活当中总会有一些重要文件需要存放,而放在电脑中可能会被其他人所查看,这个时候就需要创建一个加密文件夹保护文件的安全,对于Wind
- 使用Win10预览版的用户们都发现,Win10操作系统比以往多了很多功能,在win10中可以让电脑自动的切换桌面壁纸,具体操作操作,下面为大
- Win11安装黑屏了怎么办?Win11系统预览版刚发布,相信不少人都马上更新升级了,其中有些朋友在更新了Win11后出现了黑屏的情况,小编这
- 在我们日常使用wps文字的时候总会遇到大大小小的问题,例如绘制表头斜线,对于新手来说还是有一定难度,怎么办?接下来小编举例简单的例子告诉大家
- iTunes作为Mac系统自带的应用,自我们上手Mac的时候就已经存在了。但是对于我们来说iTunes的使用成本和使用习惯都不是那么对胃口或
- Win10打开文件夹背景为黑色是什么原因?最近有用户反映在使用Win10系统的时候,打开文件夹发现文件夹的背景变成了黑色,很多用户不知道这是
- 肯德基app如何领取新人礼?肯德基app是一款专门店点肯德基的外卖软件,刚使用这款软件的用户还可以在里面领取到新人礼的优惠券,那么我们该如何
- 网格线在日常工作中起着重要的作用,而默认的网格线通常不符合办公格式的要求,那么?需要一点调整,这里有一个很好的教程,并整理出一些相关的问题,
- 马上就要走到头了,Windows 10却突然放慢了脚步,RTM正式版迟迟不肯出炉。俄罗斯大神WZor前些天透露说,Windows 10正式版