Python获取百度热搜的完整代码
作者:国家一级保护咸鱼 发布时间:2023-09-06 11:33:32
标签:Python,百度热搜
好久没写了,就把上课做的一个小东西拿出来分享一下吧。
百度网页截图如下 ↓↓↓
程序运行输出结果截图 ↓↓↓
上代码 ↓↓↓
from lxml import etree
from lxml import html
import requests
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36'}
page = requests.get("https://www.baidu.com",headers=headers)
html = page.text
#print(source1)
# 从字符串解析
element = etree.HTML(html)
# 元素列表,获取的方式列出了如下两种
# ps = element.xpath('//*[@id="hotsearch-content-wrapper"]/li/a/span[2]')
ps = element.xpath('//*[@class="title-content-title"]')
#热搜文本内容
text = []
if len(ps) > 0:
for p in ps:
#输出节点的文本
text1 = p.text
text.append(text1)
else:
print("空")
x = element.xpath('//*[@class="s-hotsearch-content"]/li')
#热搜文本对应的排名
index = []
for x1 in x:
#获取节点的属性
index1 = x1.get("data-index")
index.append(index1)
print(text)
print(index)
#定义一个对文本和排名进行匹配的函数,返回一个字典型数据
def PP(index_array,text_array):
x = {}
i = 0
for index_a in index_array:
#index_a = int(index_a)
x[index_a] = text_array[i]
i = i + 1
return x
re_text = PP(index,text)
#对字典性数据按key进行排序,即key=lambda re:re[0],排序完成后再转换为字典型数据
last_text = dict(sorted(re_text.items(),key=lambda re:re[0]))
来源:https://blog.csdn.net/qq_43225919/article/details/115442300
0
投稿
猜你喜欢
- css实现的圆角矩形的方式很多,但要追求灵活型,上面的结构简单,看起来爽一点注意css所用的图片路径,已修改兼容ie6 ie7 ff ,IE
- 所需库的安装很多人问Pytorch要怎么可视化,于是决定搞一篇。tensorboardX==2.0tensorflow==1.13.2由于t
- 使用Python3和Opencv识别一张标准的答题卡。大致的过程如下:1.读取图片2.利用霍夫圆检测,检测出四个角的黑圆位置,从确定四个角的
- python提供了4种方式来满足进程间的数据通信1. 使用multiprocessing.Queue可以在进程间通信,但不能在Pool池创建
- 环境:numpy,pandas,python3在机器学习和深度学习的过程中,对于处理预测,回归问题,有时候变量是时间,需要进行合适的转换处理
- 图片太大了,上百张图用photoshop改太慢,就想到用python写个简单的批处理。功能简单就是把原图按比例缩小# -*- coding:
- 身为一名小小的程序猿,在日常开发中不可以避免的要和where in和like打交道,在大多数情况下我们传的参数不多简单做下单引号、敏感字符转
- 目录使用软件问题描述搭建神经网络训练参数损失函数参数优化代码数据集参数训练测试结语Hello,兄弟们,开始搞深度学习了,今天出第一篇博客,小
- 网上的教程大多数是教大家如何加载自定义模型和函数,如下图这个SelfAttention层是在训练过程自己定义的一个class,但如果要加载这
- 从最基础的说起。本教程中,所有IE 均指 WindowXP + IE 6.0, 所有 FF 均指 FF 1.5。1. 不用编程的部分1.1
- 目标是想把在服务器上用pytorch训练好的模型转换为可以在移动端运行的tflite模型。最直接的思路是想把pytorch模型转换为tens
- 最近做了一个项目,其中有项目需求涉及到手机号验证码,就是当用户点击获取验证码之后我们会发送一条信息到用户手机,然后就会出现一个倒计时按钮,很
- 本文实例讲述了Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息。分享给大家供大家参考,具体如下:import timefro
- 质数(Prime number),又称素数,指在大于1的自然数中,除了1和该数自身外,无法被其他自然数整除的数(也可定义为只有1与该数本身两
- 一、yaml文件介绍yaml是一个专门用来写配置文件的语言。1. yaml文件规则区分大小写;使用缩进表示层级关系;使用空格键缩进,而非Ta
- 本文实例形式较为详细的讲述了Python socket编程。分享给大家供大家参考。具体如下:sock=socket.socket(socke
- API:statuses/public_timeline 返回最新的200条公共微博,返回结果非完全实时CODE:#!/usr/
- 程序中的错误一般被称为 Bug,无可否认,这几乎总是程序员的错。。。程序员的一生,始终伴随着一件事 - 调试(错误检测、异常处理)。反反复复
- 用Python求解微分线性方程因为之前用matlab也编写过,所以前不久试着用python写,感觉之间互通点也蛮多的,易理解。题目:稀疏线性
- 原因:list 获得的数据为空: 显示值为 [ ]不同的判断--- is None----not两者结果不一样分析:总之:not 判断的是内