基于python requests selenium爬取excel vba过程解析
作者:forxtz 发布时间:2021-06-18 23:47:09
目的:基于办公与互联网隔离,自带的office软件没有带本地帮助工具,因此在写vba程序时比较不方便(后来发现07有自带,心中吐血,瞎折腾些什么)。所以想到通过爬虫在官方摘录下来作为参考。
目标网站:https://docs.microsoft.com/zh-cn/office/vba/api/overview/
所使工具:
python3.7,requests、selenium库
前端方面:使用了jquery、jstree(用于方便的制作无限层级菜单
设计思路:
1、分析目标页面,可分出两部分,左边时导航,右边是内容显示。
2、通过selenium对导航条进行深度遍历,取得导航条所有节点以及对应的链接,并以jstree的数据格式存储。
# 导航层级为
<ul>
<li>
<a>...
<span>....
3、使用requests遍历所有链接取得相应主体页面。
实现:
#
# parent 上级节点
# wait_text 上级节点对应的xpath路径的文本项
# level,limit 仅方便测试使用
#
def GetMenuDick_jstree(parent,level,wait_text,limit=2):
if level >= limit: return []
parent.click()
l = []
num = 1
new_wati_text = wait_text + '/following-sibling::ul' # 只需要等待ul出来就可以了/li[' + str(ele_num) + ']'
try:
wait.until(EC.presence_of_element_located((By.XPATH,new_wati_text)))
# 查询子节点所有的 a节点和span节点(子菜单)
childs = parent.find_elements_by_xpath('following-sibling::ul/li/span | following-sibling::ul/li/a')
for i in childs:
k = {}
if i.get_attribute('role') == None:
k['text'] = i.text
# 如果是子菜单,进行深度遍历
k['children'] = GetMenuDick_jstree(i,level+1,new_wati_text + '/li[' + str(num) + ']/span',limit)
else:
# 网页访问的Url无Html后缀,需要加上。去除无相关地址,形成相对路径。
url_text = str(i.get_attribute('href')).replace('https://docs.microsoft.com/zh-cn/office/', '',1) + '.html'
k['text'] = i.text
k['a_attr'] = {"href":url_text,"target":"showframe"}
lhref.append(str(i.get_attribute('href')))
num = num + 1
l.append(k)
parent.click() # 最后收起来
except Exception as e:
print('error message:',str(e),'error parent:' ,parent.text,' new_wati_text:',new_wati_text,'num:',str(num))
lerror.append(parent.text)
finally:
return l
# data菜单,lhref为后续需要访问的地址。
# 找到第一个excel节点,从excel开始
data = []
lhref = []
lerror = []
k = {}
browser.get(start_url)
browser.set_page_load_timeout(10) #超时设置
xpath_text = '//li[contains(@class,"tree")]/span[text()="Excel"][1]'
cl = browser.find_element_by_xpath(xpath_text)
k = {'text':'Excel'}
k['children'] = GetMenuDick_jstree(cl,1,xpath_text,20)
data.append(k)
# Writing JSON data
with open(r'templete\data.json', 'w', encoding='utf-8') as f:
json.dump(data, f)
进行到这里,已经拥有了excel vba下所有的菜单信息以及对应的url。下来需要得到页面主体。
实现思路:
1、遍历所有url
2、通过url得到相应的文件名
#
# 根据网页地址,得到文件名,并创建相应文件夹
#
def create_file(url):
t = 'https://docs.microsoft.com/zh-cn/office/'
# 替换掉字眼,然后根据路径生成相应文件夹
url = url.replace(t,"",1)
lname = url.split('/')
# 先判断有没有第一个文件夹
path = lname[0]
if not os.path.isdir(path):
os.mkdir(path)
for l in lname[1:-1]:
path = path + '\\' + str(l)
if not os.path.isdir(path):
os.mkdir(path)
if len(lname) > 1:
path = path + '\\' + lname[-1] + '.html'
return path
3、访问url得到主体信息储存。
# requests模式
# 循环遍历,如果错误,记录下来,以后再执行
had_lhref = []
error_lhref = []
num = 1
for url in lhref:
try:
had_lhref.append(url)
path = create_file(url)
resp = requests.get(url,timeout=5,headers = headers) # 设置访问超时,以及http头
resp.encoding = 'utf-8'
html = etree.HTML(resp.text)
c = html.xpath('//main[@id="main"]')
# tostring获取标签所有html内容,是字节类型,要decode为字符串
content = html_head + etree.tostring(c[0], method='html').decode('utf-8')
with open(path,'w', encoding='utf-8') as f:
f.write(content)
except Exception as e:
print('error message:',str(e),'error url:',url)
error_lhref.append(url)
if num % 10 == 0 :
print('done:',str(num) + '/' + str(len(lhref)),'error num:' + str(len(error_lhref)))
#time.sleep(1) # 睡眠一下,防止被反
num = num + 1
现在,菜单信息与内容都有了,需要构建自己的主页,这里使用了jstree;2个html,index.html,menu.html。
index.html:使用frame页面框架,相对隔离。
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no">
<title>参考文档</title>
<script src="js/jquery.min.js"> </script>
</head>
<frameset rows="93%,7%">
<frameset cols="20%,80%" frameborder="yes" framespacing="1">
<frame src="menu.html" name="menuframe"/>
<frame id="showframe" name="showframe" />
</frameset>
<frameset frameborder="no" framespacing="1">
<frame src="a.html" />
</frameset>
</frameset>
</html>
menu.html:
1、引入了data.json,这样在可以进行离线调用,使用ajax.get读取json的话,会提示跨域失败;
2、jstree会禁止<a>跳转事件,所有需要通过监听"change.tree"事件来进行跳转。
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
<script src="js/jquery.min.js"></script>
<link rel="stylesheet" href="themes/default/style.min.css" rel="external nofollow" />
<script src="js/jstree.min.js"></script>
<script type="text/javascript" src="data.json"></script>
</head>
<body>
<div>
<form id="s">
<input type="search" id="q" />
<button type="submit">Search</button>
</form>
<div id="container">
</div>
<div id="container"></div>
<script>
$(function () {
$('#container').jstree({
"plugins": ["search", "changed"],
'core': {
'data': data,
}
});
});
$('#container').on("changed.jstree", function (e, data) {
//console.log(data.changed.selected.length); // newly selected
//console.log(data.changed.deselected); // newly deselected
if (data.changed.selected.length > 0){
// 说明转换了,获取url
var url = data.node.a_attr.href
// console.log(url)
if (url == "#"){
}else{
parent[data.node.a_attr.target].location.href = url
}
}else{
}
})
$("#s").submit(function (e) {
e.preventDefault();
$("#container").jstree(true).search($("#q").val());
});
</script>
</div>
</body>
</html>
以上,得到最后的本地版网页excel vba参考工具。最后,部分office自带本地版的vba参考工具,有点白干一场。
来源:https://www.cnblogs.com/cycxtz/p/13303306.html
猜你喜欢
- 最近微信登录开放公测,为了方便微信用户使用,我们的产品也决定加上微信登录功能,然后就有了这篇笔记。根据需求选择相应的登录方式python实现
- DBI安装:DBI详细信息参考:http://dbi.perl.org/ 1.下载DBI包: wget http://search.cpan
- 本文实例分析了Go语言中普通函数与方法的区别。分享给大家供大家参考。具体分析如下:1.对于普通函数,接收者为值类型时,不能将指针类型的数据直
- 首先,想要实现的功能是递归遍历文件夹,遇到满足条件的文件时,用yield返回该文件的位置。如果不用递归器,可以这样实现:path_list
- pygame实现代码雨动画如视频所示 利用pygame库实现了一个代码呈雨状下落的视觉效果部分代码如下import sysimport ra
- 你好,我是林骥。斜率图,可以快速展现两组数据之间各维度的变化,特别适合用于对比两个时间点的数据。比如说,为了对比分析某产品不同功能的用户满意
- 在众多代码编辑工具中,我最喜欢的就是微软的vscode。首先它十分轻便,不吃硬件,运行非常顺畅;其次是其各种各样的插件使得编程效率蹭蹭地往上
- PDO::rollBackPDO::rollBack — 回滚一个事务(PHP 5 >= 5.1.0, PECL pdo >=
- 千图成像也就是用N张图片组成一张图片的效果。制作方法有很多的,最常见的如用ps、懒人图云、foto-mosaik-edda这些制作。千图成像
- 先了解什么是deferGo语言中的defer与return执行的先后顺序Go语言的 defer 语句会将其后面跟随的语句进行延迟处理,在 d
- 在 AbpBase.Database 中,通过 Nuget 添加以下几个库:版本都是 1.9.0-preview0917
- 本文实例讲述了Python实现快速多线程ping的方法。分享给大家供大家参考。具体如下:#!/usr/bin/python#_*_codin
- 本文实例讲述了PHP实现的redis主从数据库状态检测功能。分享给大家供大家参考,具体如下:实例:<?php/** * 检测多个主从r
- 腾讯“月捐计划”倡导爱心人士,通过每月小额捐款的形式,长期关注和支持公益项目。并和亿万爱心网友一起,每人每月1份爱,点滴付出,汇成爱海,形成
- 一:操作session1:session配置Session 的配置文件存储在config/session.php中,配置参数有:(1):配置
- 简单的小练习,实现将一个指定列表中的数值进行转化,对于其中的非负数不作处理,对于负数需要转化为制定的数值,很简单就不多说了,下面是具体的实现
- <?phpfunction map($fun, $list,$params=array()){ $
- 使用 os.open 打开文件无论是读文件还是写文件,都要先打开文件。说到打开文件,估计首先想到的就是内置函数 open(即 io.open
- 在使用Python做开发的时候,时不时会给自己编写了一些小工具辅助自己的工作,但是由于开发依赖环境问题,多数只能在自己电脑上运行,拿到其它电
- 我想把存在数据库里的每天24小时来访者数另放到一个Excel文件中去,可以吗?可以,其实就是将数据库里面的内容生成一个Excel文件:toe