Python爬虫Xpath定位数据的两种方法
作者:生活明朗,万物可爱,人间值得,未来可期 发布时间:2022-07-03 16:36:53
标签:Python,Xpath,定位
方法一:直接右键,将文章路径复制下来点击Copy full Xpath
使用selenium+lxml中的etree进行配合使用,使用etree解析html网页
import requests
from lxml import etree
import time
import socket
import csv
from selenium import webdriver
from configparser import ConfigParser
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions
#禁止图片和css加载
chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 如果想加载图片,就把下面第二句话改第一句话,删掉上面的“禁止图片和css加载”部分
# wb = Chrome(options=option)
wb=webdriver.Chrome(options=chrome_options)
#最大化窗口、输入网址、等待至网页加载完成(防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒,加载好了就立刻结束等待)
wb.maximize_window()
wb.get("https://www.tianyancha.com/")
wb.implicitly_wait(5)
然后获取网页数据,这里表明哪怕后面出错了,仍然可以延续wb的位置继续控制浏览器
data = wb.page_source
time.sleep(3)
data = wb.page_source
time.sleep(3)
page_all.append(data)
html = etree.HTML(data)
company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')
print(company )
方法二:使用@制定标签属性,搜索指定位置
这样的好处就是,对于批量处理的网页,有的标签位置不在同一个地方,那么我们就是不使用全Xpath路径,而使用相对路径,用@制定某种属性的标签,下载相关数据
"//div[@class='mainArea']/ul/li"
使用//div[@class=‘mainArea’]的意思是:从根部(//)查找 class值为 mainArea的Node.
所以,那么就很简单了 //某元素[@class=‘CLASS值’]
大家可以按照这个公式来查找 class的元素了。
剩下的 /ul/li 表示的是,继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。
来源:https://blog.csdn.net/weixin_39559994/article/details/125647638


猜你喜欢
- 实现思路是用深度遍历,对图片进行二值化处理,先找到一个黑色像素,然后对这个像素的周围8个像素进行判断,如果没有访问过,就保存起来,然后最后这
- 很佩服国外一些前端开发人员对待学问的研究精神,他们很善于总结发现。看到一篇关于安全字体List of Web Safe Fonts的文章,里
- 停止MySQL服务Windows可以右键我的电脑--管理--服务和应用程序--服务--找到对应的服务停止掉免密登录切换到MySQL安装路径下
- 一、Oracle11g的安装过程(Windows版本)很简单,步骤为: 1. 首先从Oracl
- jQuery 简介jQuery 库可以通过一行简单的标记被添加到网页中。您需要具备的基础知识在您开始学习 jQuery 之前,您应该对以下知
- 本文实例讲述了Python实现的使用telnet登陆聊天室。分享给大家供大家参考。具体如下:前久在家学习Python的时候写的一个简单的聊天
- 显示图像: Image img = Image.From
- 本文实例为大家分享了python正则实现计算器功能的具体代码,供大家参考,具体内容如下# -*- coding: utf-8 -*- # A
- 一、抛出异常和自定义异常Python中使用用异常对象(exception object)表示异常情况,当程序运行遇到错误后,就会触发发异常。
- NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进
- 前言快要过年了,现在是工作的事情也不想干,学习也完全学不进去,关于xlsx的操作原本昨天已经写好了,不过悲催的是,忘记发布了直接关浏览器关闭
- 如何做一个全面的探测器? 我们也可以做一个功能类似的探测器,见下:<Script lan
- 有的时候,操作大文件,或者取数,要很久,我们给脚本首尾添加一段代码就知道,这段代码整体的大致运行时间了。import timestart =
- 数据集中的图像,一般不可用在以下3个方面:1.图像过小2.无法打开3.“Premature end of JPEG fi
- 由于本人经常装系统,每次装完系统之后都要重新安装一些软件,安装软件的时候又要上网查找安装的教程,比较麻烦,所以自己整理了MySQL5.7.2
- 大家好,我是才哥。最近周末也加班了,害…有刚接触python的粉丝同学在运行此前《》的完整代码遇到以下问题,然后…好吧,今天我们就专门介绍一
- 微信应用号(微信公众平台小程序,「应用号」的新称呼)终于来了!开源中国社区的博卡君通宵吐血赶稿写出的微信公众平台应用号开发教程!大家赶紧来学
- 最近有一个需求要把dataframe转换为多维矩阵,然后可以使用values来实现,下面记录一下代码,方便以后使用。import panda
- 网上一直说的是先安装SQL Server 2014,再安装VS2015,软件就不会出现问题。我这次在什么都没准备的情况下安装了VS2015,
- 文件的一般操作步骤打开文件或创建新文件:使用相应的编程语言和对应的库或模块打开一个已经存在的文件或者创建新文件。读取文件内容或向文件中写入内