Python 详解爬取并统计CSDN全站热榜标题关键词词频流程
作者:剑客阿良_ALiang 发布时间:2021-08-09 19:41:14
前言
最近在出差,发现住的宾馆居然有小强。所以出差无聊之际,写了点爬虫的代码玩玩,问就是应景。本篇文章主要是爬取CSDN全站综合热榜的100个标题,然后分词提取关键词,统计一下词频。
我想了下,对于其他博主还是有用的,可以看看什么标题可以上热榜,就分享一下吧。顺便把我解决各类问题的方法,说一说。
环境
使用的IDE为:spyder(有看着界面不习惯的,忍一下,不关键)
页面爬取使用chromedriver,至于原因我后面会说。
分词器:jieba
爬取页面地址:https://blog.csdn.net/rank/list
爬虫代码
这里说一下为什么没有用requests直接获取页面源码,主要是因为该页面并不能直接请求出源码。而是通过页面滚动到最下方,才可以显示出全部的100个排名的文章。
所以我的思路是,使用chromedriver,然后执行js实现滚动页面到最下方。
这里需要说明一下chromedriver的下载,需要根据你google浏览器的版本来。我的笔记本事mac,可以点击左上角的Chrome,再点击关于Google Chrome看看自己的浏览器版本。
分享一下chromedriver的下载地址:google chrome driver下载地址
简单说明一下driver的原理,就是模拟浏览器打开url的操作,就像我们手点一样,具体原理改天可以再聊聊。
不废话了,上爬虫工具代码
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov 4 17:15:06 2021
@author: huyi
"""
from selenium import webdriver
import time
# =============================================================================
# 爬取动态下滑加载网页
# =============================================================================
def pa(url):
driver = webdriver.Chrome('/usr/local/bin/chromedriver')
driver.get(url)
js = '''
let height = 0
let interval = setInterval(() => {
window.scrollTo({
top: height,
behavior: "smooth"
});
height += 500
}, 500);
setTimeout(() => {
clearInterval(interval)
}, 20000);
'''
driver.execute_script(js)
time.sleep(20)
source = driver.page_source
driver.close()
return source
代码说明
1、代码主要是一个工具方法,使用diver打开浏览器。然后通过js代码,模拟向下滚动的操作。
2、根据你的网络条件,里面的超时时间你可以调整。避免还没有滚动到最下面就结束了,因为我宾馆的网比较卡,所以设置的比较大。
3、返回页面源码,为了后面的xpath解析。
验证一下
OK,已经拿到了页面源码了。
关键词提取代码
我们把关键词提取的方法也准备一下。不废话,上代码。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov 4 21:53:22 2021
@author: huyi
"""
import jieba.analyse
def get_key_word(sentence):
result_dic = {}
words_lis = jieba.analyse.extract_tags(
sentence, topK=3, withWeight=True, allowPOS=())
for word, flag in words_lis:
if word in result_dic:
result_dic[word] += 1
else:
result_dic[word] = 1
return result_dic
代码说明
1、简单说明一下,方法取的是权重最高的3个词,可以按照你的喜欢调整。
2、把相同的词做一个计数,方便把100的标题关键词词频统计用。
主程序代码
主程序主要是将源码中的标题,使用lxml进行元素提取,获取标题。然后词频统计后输出结果文本。
不废话,上代码。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov 4 14:01:38 2021
@author: huyi
"""
from lxml import etree
from tools.dynamic_page import pa
from tools.analyse_word import get_key_word
csdn_url = 'https://blog.csdn.net/rank/list'
source = etree.HTML(pa(csdn_url))
titles = source.xpath("//div[@class='hosetitem-title']/a/text()")
key_word_dic = {}
for x in titles:
if x:
for k, v in get_key_word(x).items():
if k.lower() in key_word_dic:
key_word_dic[k.lower()] += v
else:
key_word_dic[k.lower()] = v
word_count_sort = sorted(key_word_dic.items(),
key=lambda x: x[1], reverse=True)
with open('result.txt', mode='w', encoding='utf-8') as f:
for y in word_count_sort:
f.write('{},{}\n'.format(y[0], y[1]))
代码说明
1、xpath怎么取?google浏览器支持右键直接copy,但是还是建议了解一下xpath相关语法。
2、把英文单词统一小写,避免重复。
3、按照词频倒序排列输出的,最多次数的在前面。
验证结果
OK,不出意外,java是yyds。
来源:https://huyi-aliang.blog.csdn.net/article/details/121154001
猜你喜欢
- 1. 数组数组是 Golang 中的一种基本数据类型,用于存储固定数量的同类型元素。在 Golang 中,数组的长度是固定的,并且必须在定义
- 问题产生描述使用子进程处理一个大的日志文件,并对文件进行分析查询,需要等待子进程执行的输出结果,进行下一步处理。出问题的代码# 启用子进程执
- 如题:我写入关键字到数据库,多的时候用|隔开了,我提取再做相关文章搜索的时候,我怎么提取用|隔开的文字啊,这样我就好用关键字做搜索啊 回复:
- 1.客户端的主页面:<%@LANGUAGE="VBSCRIPT" CODEPAGE="936"
- 我们在切换选项卡的时候,如果使用的是ajax技术,会碰到如下情况:点击tab1选项,服务器发出一个Ajax请求获取该选项tab1的内容数据。
- 如何搭建完整的网站架构并设计出一个出色的网站?关于这个问题,我们很难提出一个绝对权威和正确的设计思路,但任何网站的设计都需要遵循一个循序渐进
- 一,利用键盘响应,在不刷新本页面的情况下验证表单输入是否合法用户通过onkeydown和onkeyup事件来触发响应事件。使用方法和oncl
- /// <summary> /// 获得目标
- 在我们设计网页的时候,总会遇到一些不愉快的事情,最常见的莫过于在后台添加内容后才发现显示的页面被撑开,导致网页极度不美观。以前大
- 本文实例讲述了Python中@property的理解和使用。分享给大家供大家参考,具体如下:重看狗书,看到对User表定义的时候有下面两行
- 本文实例讲述了Python面向对象程序设计类的多态用法。分享给大家供大家参考,具体如下:多态1、多态使用一种事物的多种体现形式,举例:动物有
- 最近因项目需要用ACCESS做数据库开发WEB项目 看论坛上还许多人问及ACCESS被注入的安全问题 许多人解决的方法仍然是用Replace
- 近期接手越来越多的东西,发布和运维的工作相当机械,加上频率还蛮高,导致时间浪费还是优点多。修复bug什么的,测试,提交版本库(2分钟),ss
- 一、图像噪声图像噪声是图像在获取或者传输过程中受到随机信号干扰,妨碍人们对图像理解及分析处理的信号。很多时候将图像看作随机过程,因而描述噪声
- 效果图如下所示:实现代码如下:<!DOCTYPE html><html lang="zh-cn">
- 最近在学习正则,一些比较有用的东西怕忘记,记下来,比较乱,想一条记录一条:正则表达式在线测试//匹配文本,这个偶尔比较好用,但是要小心字符中
- 原来在一本书上看到过,从多个tfrecord文件中读取数据的方法,今天想用在网上找了一下,现在记录一下,免得自己以后忘记了又不好找,tfre
- 一、目录权限设置很重要:可以有效防范黑客上传木马文件. 如果通过 chmod 644 * -R 的话,php文件就没有权限访问了。 如果通过
- 在对excel的操作中,调整列的顺序以及添加一些列也是经常用到的,下面我们用pandas实现这一功能。1、调整列的顺序>>>
- 这篇文章主要介绍了python isinstance函数用法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值