Golang爬虫框架colly使用浅析
作者:q56731523 发布时间:2024-02-06 23:28:06
Golang 是一门非常适合编写网络爬虫的语言,它有着高效的并发处理能力和丰富的网络编程库。下面是一个简单的 Golang 网络爬虫示例:
package main
import (
"fmt"
"net/http"
"io/ioutil"
"regexp"
)
func main() {
resp, err := http.Get("https://www.example.com")
if err != nil {
fmt.Println("Error:", err)
return
}
defer resp.Body.Close()
body, err := ioutil.ReadAll(resp.Body)
if err != nil {
fmt.Println("Error:", err)
return
}
re := regexp.MustCompile("<title>(.*)</title>")
title := re.FindStringSubmatch(string(body))[1]
fmt.Println("Title:", title)
}
这个爬虫的功能是获取指定网站的标题。代码中使用了 Go 的标准库 net/http 和 regexp 来进行网络请求和正则表达式匹配。当然,这只是一个简单的示例,实际上爬虫需要考虑更多的问题,比如反爬虫、数据存储、并发控制等等。
gocolly是用go实现的网络爬虫框架,我这里用来测试的版本是:colly “github.com/gocolly/colly/v2”
gocolly的网络爬虫还是很强大,下面我们通过代码来看一下这个功能的使用
package main
import (
"fmt"
colly "github.com/gocolly/colly/v2"
"github.com/gocolly/colly/v2/debug"
)
func main() {
mUrl := "http://www.ifeng.com/"
//colly的主体是Collector对象,管理网络通信和负责在作业运行时执行附加的回掉函数
c := colly.NewCollector(
// 开启本机debug
colly.Debugger(&debug.LogDebugger{}),
)
//发送请求之前的执行函数
c.OnRequest(func(r *colly.Request) {
fmt.Println("这里是发送之前执行的函数")
})
//发送请求错误被回调
c.OnError(func(_ *colly.Response, err error) {
fmt.Print(err)
})
//响应请求之后被回调
c.OnResponse(func(r *colly.Response) {
fmt.Println("Response body length:", len(r.Body))
})
//response之后会调用该函数,分析页面数据
c.OnHTML("div#newsList h1 a", func(e *colly.HTMLElement) {
fmt.Println(e.Text)
})
//在OnHTML之后被调用
c.OnScraped(func(r *colly.Response) {
fmt.Println("Finished", r.Request.URL)
})
//这里是执行访问url
c.Visit(mUrl)
}
运行结果如下:
这里是发送之前执行的函数
[000001] 1 [ 1 - request] map["url":"http://www.ifeng.com/"] (0s)
[000002] 1 [ 1 - responseHeaders] map["status":"OK" "url":"http://www.ifeng.com/"] (64.9485ms)
Response body length:250326
Finished http://www.ifeng.com/
[000003] 1 [ 1 - response] map["status":"OK" "url":"http://www.ifeng.com/"] (114.9949ms)
[000004] 1 [ 1 - html] map["selector":"div#newsList h1 a" "url":"http://www.ifeng.com/"] (118.9926ms)
[000005] 1 [ 1 - html] map["selector":"div#newsList h1 a" "url":"http://www.ifeng.com/"] (118.9926ms)
[000006] 1 [ 1 - scraped] map["url":"http://www.ifeng.com/"] (118.9926ms)
总结一下:
回调函数的调用顺序如下:
OnRequest在发起请求前被调用
OnError请求过程中如果发生错误被调用
OnResponse收到回复后被调用
OnHTML在OnResponse之后被调用,如果收到的内容是HTML
OnScraped在OnHTML之后被调用
来源:https://blog.csdn.net/weixin_44617651/article/details/130575725


猜你喜欢
- 反射的优点它的核心本质其实就是基于字符串的事件驱动,通过字符串的形式去操作对象的属性或者方法一个概念被提出来,就是要明白它的优点有哪些,这样
- 获取节点的两种方式: 1、通过event对象的srcElement属性; &nbs
- 1.软件环境??Windows10 教育版64位Python 3.6.3PyAV 8.0.32.问题描述??在提取视频文件的关键内容时,手动
- Vue.js 使用v-cloak后仍显示变量的解决方法v-cloak 这个指令是防止页面加载时出现 vuejs 的变
- 一、图片验证码django-simple-captcha配置1.在pycharm中,File====》Settings====》Projec
- 阅读目录• 下载MySQL免安装版• 配置MySQL数据库• MySQL环境变量• 安装MySQL数据库 公司服务器是Window
- 对于SQL的Join,在学习起来可能是比较乱的。我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于
- 方法一、SELECT SUM(正确数)+SUM(错误数) AS 总记录数,SUM(正确数),SUM(错误数) FROM ( SELECT C
- 如下所示:年月日时分秒>>> print datetime.datetime.now().strftime("%
- 本文实例讲述了python获取从命令行输入数字的方法。分享给大家供大家参考。具体如下:#--------------------------
- 以前见过一个很漂亮的网页提示信息,就是把鼠标放到网页的文字或者图片上面就会有提示的那种透明的,还带个箭头,很漂亮,不知道谁在哪见过没有,感谢
- 开发微信小程序过程中,有个需求需要用到日期时间筛选器,查看微信官方文档后,发现官方文档的picker筛选器只能单独支持日期或者是时间,所以为
- 本文通过图文并茂的方式给大家展示SQL SERVER数据库表记录只保留N天图文教程,具体方法步骤请看下文:第一步:首先设置SQL Serve
- 窗口函数简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以是排序值。开窗函数一般就是说的是over()函数,其窗口是由一个 OV
- python的列表list可以用for循环进行遍历,实际开发中发现一个问题,就是遍历的时候删除会出错,例如l = [1,2,3,4]for
- 图片人脸识别import cv2filepath = "img/xingye-1.png"img = cv2.imrea
- 演示时间是非常有限的,过去时光永远不会再回来。要在有限的时间里面,去面对生活的困难和生存的竞争,是需要强化自我的。而这些强化学习是最需时间的
- 强化功能本文针对中大型的后台项目的接口模块优化,在不影响项目正常运行的前提下,增量更新。接口文件写法简化(接口模块半自动化生成)任务调度、L
- 微信小程序实现人脸识别,具体应用场景 前端实现人脸信息采集 拍到正面照片 发送给后端该方法暂
- 查询mysql表是否被损坏命令,如下:# CHECK TABLE 表名mysql的长期使用,肯定会出现一些问题,一般情况下mysql表无法访