Selenium 模拟浏览器动态加载页面的实现方法
作者:mmc2015 发布时间:2023-06-04 11:06:54
标签:Selenium,动态加载页面
相信爬取大公司的数据时,常常会遇到页面信息动态加载的问题,
如果仅仅使用content = urllib2.urlopen(URL).read(),估计信息是获取不全的,这时候就需要模拟浏览器加载页面的过程,
selenium提供了方便的方法,我也是菜鸟,试了很多种方式,下面提供觉得最靠谱的(已经证明对于爬取新浪微博的topic、twitter under topic完全没问题)。
至于下面的browser变量是什么,看前面的几篇文章。
首先是请求对应的URL:
right_URL = URL.split("from")[0] + "current_page="+str(current_page) + "&since_id="+str(since_id) + "&page="+str(page_index) + "#Pl_Third_App__"+str(Pl_Third_App)
print right_URL
try:
browser.get(right_URL)
print "loading more, sleep 3 seconds ... 0"
time.sleep(3) # NO need for this sleep, but we add ...
browser = selenuim_loading_more(browser, method_index=0)
except:
print "one exception happen ==> get_tweeter_under_topic 2 ..."
pass
然后模拟浏览器,加载更多(推荐使用method_index=0,已经证明比其他好用很多):
def selenuim_loading_more(browser, method_index=0):
if method_index==0:
browser.implicitly_wait(3) # 为了快速滑动,先设置超时时间为1秒
# while True:
for i in range(1, 4): # at most 3 times
print "loading more, window.scrollTo bettom for the", i,"time ..."
browser.execute_script("window.scrollTo(0,document.body.scrollHeight);")
try:
# 定位页面底部的换页tab
browser.find_element_by_css_selector("div[class='W_pages']")
break # 如果没抛出异常就说明找到了底部标志,跳出循环
except NoSuchElementException:
pass # 抛出异常说明没找到底部标志,继续向下滑动
browser.implicitly_wait(4) # 将超时时间改回10秒
elif method_index==1:
browser.find_element_by_css_selector("div[class='empty_con clearfix']").click() # loading more
print "loading more, sleep 4 seconds ... 1"
time.sleep(4)
browser.find_element_by_css_selector("div[class='empty_con clearfix']").click() # loading more
print "loading more, sleep 3 seconds ... 2"
time.sleep(2)
elif method_index==2:
load_more_1 = browser.find_element_by_css_selector("div[class='empty_con clearfix']") # loading more
ActionChains(browser).click(load_more_1).perform()
print "loading more, sleep 4 seconds ... 1"
time.sleep(4)
load_more_2 = browser.find_element_by_css_selector("div[class='empty_con clearfix']") # loading more
ActionChains(browser).click(load_more_2).perform()
print "loading more, sleep 3 seconds ... 2"
time.sleep(2)
elif method_index==3:
print "loading more, sleep 4 seconds ... 1"
element = WebDriverWait(browser, 4).until(
EC.element_to_be_clickable((By.CSS_SELECTOR, "div[class='empty_con clearfix']"))
)
element.click()
print "loading more, sleep 2 seconds ... 2"
WebDriverWait(browser, 2).until(
EC.element_to_be_clickable((By.CSS_SELECTOR, "div[class='empty_con clearfix']"))
).click()
return browser
来源:https://blog.csdn.net/mmc2015/article/details/53366452
0
投稿
猜你喜欢
- 在这篇文章中,我将展示如何在 CentOS/RHEL 7、Debian 以及它的衍生版本比如 Ubuntu(最新的 Ubuntu 16.04
- 知识掌握 cv2.threshold()函数:设置固定级别的阈值应用于多通道矩阵,将灰度图像变换二值图像,或去除指定级别的噪声,或过滤掉过小
- 一、get//get请求function getUrl($url, $header = []){ $ch = cu
- PHP 301跳转的小代码<?php $the_host = $_SERVER['HTTP
- 先说结论:变量赋值属于浅拷贝(关于深拷贝和浅拷贝的区别可以自己了解下)。故如果是可变类型变量(如a是list类型,a=b)赋值,修改a会牵连
- 常用的python第三方库安装工具大概有三种:1、pip (分为cmd和conda)(推荐)2、easy_install &n
- 前言:Druid 连接池是阿里巴巴开源的数据库连接池项目,Druid 为监控而生,内置强大的监控功能,监控特性不影响性能,官网地址为:htt
- 怎样才能将在表A取得的数据插入另一个表B中?(1)对于表A和表B两个表结构完全相同的话〔字段个数,相应字段的类型等等〕,可以使用 inser
- If order does not matter, you can use"".join(set(foo))set()
- 问题的提出相传古时候有个退休的程序员,在家闲来无事,决定修习书法之道。第一日,备好笔墨纸砚,便挥毫写下一行大字:“Hello World”。
- 本文实例讲述了MySQL截取和拆分字符串函数用法。分享给大家供大家参考,具体如下:首先说截取字符串函数:SUBSTRING(commenti
- 主要用到 str.charCodeAt()和 String.fromCharCode()方法--》使用 charCodeAt() 来获得字符
- 在上一篇关于绘画Sankey桑葚图的文章里,已经介绍过大致的过程,本文主要解决如何自定义/修改 所想要的颜色, 如下所示一个桑葚图:想要修改
- 事物绝非十全十美总有强差人意的一面,之前针对浮动分析了其引起文本重影的怪异问题,而作为浮动布局的最佳搭档定位布局也存在一定的缺陷。围绕着定位
- 本文实例讲述了Python实现将SQLite中的数据直接输出为CVS的方法。分享给大家供大家参考,具体如下:对于SQLite来说,目前查看还
- 步骤创建 vue 的脚手架npm install -g @vue/clivue init webpack绑定 git 项目cd existi
- 首先我们来看看原图:接着我们来看看效果图:通过分析我们不难发现以下特征:主要颜色为黑白灰边界线条较重相同或相近色趋于白色略有光源效果需要用到
- 1.Pool资源池的概念Pool资源池的官方文档:https://docs.ceph.com/en/pacific/rados/operat
- fso对象CreateTextFile方法调用时可能会报“无效的过程调用或参数”错误,在使用ASP生成静态页面时,如果传入的字符串参数编码为
- Anaconda下需要使用Python与MySQL数据库进行交互,所以需要import一个mysql-python的包,但是在ipython