Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析
作者:Leslie-x 发布时间:2022-12-01 07:16:59
标签:python,request,爬取,网站,百度权重,查询结果
一:脚本需求
利用Python3查询网站权重并自动存储在本地数据库(Mysql数据库)中,同时导出一份网站权重查询结果的EXCEL表格
数据库类型:MySql
数据库表单名称:website_weight
表单内容及表头设置:表头包含有id、main_url(即要查询的网站)、website_weight(网站权重)
要查询的网站:EXCEL表格
二:需求实现
一:利用openpyxl模块解析excel文件,将查询的网站读取到一个列表中保存
# 解析excel文件,取出所有的url
def get_urls(file_path):
wb = load_workbook(file_path)
sheet = wb.active
urls = []
for cell in list(sheet.columns)[1]:
if cell != sheet['B1']:
urls.append(cell.value)
return wb, urls
二:分析请求发送,伪造请求,取得HTML页面
# 伪造请求,取得html页面
def get_html(url):
# 定义http的请求Header
headers = {}
# random.randint(1,99) 为了生成1到99之间的随机数,让UserAgent变的不同。
headers[
'User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(
random.randint(1, 99))
# Referer地址使用待查询的网址
headers['Referer'] = "http://seo.chinaz.com/" + url + "/"
html = ''
try:
html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text
except Exception:
pass
return html
三:分析HTML页面,利用BeautifulSoup模块提取数据
# 利用BeautifulSoup模块从html页面中提取数据
def get_data(html, url):
if not html:
return url, 0
soup = bs(html, "lxml")
p_tag = soup.select("p.ReLImgCenter")[0]
src = p_tag.img.attrs["src"]
regexp = re.compile(r'^http:.*?(\d).gif')
br = regexp.findall(src)[0]
return url, br
四:数据库连接配置,并获取游标
# 连接数据库
def get_connect():
conn = pymysql.connect(
host='127.0.0.1',
port=3306,
user='root',
passwd='root',
db='seotest',
charset="utf8")
# 获取游标对象
cursor = conn.cursor()
return conn, cursor
五:主程序逻辑编写
if __name__ == "__main__":
#命令行执行脚本文件,获取excel文件路径
file_path = sys.argv[1]
#获取URL列表和excle工作簿
wb, urls = get_urls(file_path)
#获取数据库连接和游标
conn, cursor = get_connect()
#获取工作簿当前工作sheet
sheet = wb.active
#数据库插入语句
sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)'''
for row, url in enumerate(urls):
if not url: continue
html = get_html(url)
data = get_data(html, url)
# 插入数据到数据库
cursor.execute(sql_insert, data)
# 插入数据到Excel表中
cell = sheet.cell(row=row + 2, column=3)
cell.value = data[1]
# 终端打印插入的数据
print(data)
conn.commit()
conn.close()
wb.save(file_path)
wb.close()
# cmd命令:python3 F:\算法与结构\网站权重.py F:\website.xlsx
三:脚本运行及其实现结果
CMD执行
数据库:
excel文件写入:
来源:https://www.cnblogs.com/li1992/p/9863056.html
0
投稿
猜你喜欢
- 对于Python开发用户来讲,安装第三方库是家常便饭,下面提供两种安装方式pycharm软件安装1.打开file>setting2.点
- 对于python开发用户而言,经常需要安装一些python的第三方库,但是第三方库的安装经常出错,以下给大家介绍一下python安装第三方库
- 数据聚合与分组运算对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之
- 在使用数据库的时候,难免要在使用过程中进行删除的操作,如果是使用int类型的字段,令其自增长,这是个最简单的办法,但是后果会有些不是你想要的
- 如何实现让每句话的头一个字母都大写? <%dim txtFnametxtFName = &qu
- 记得有一期ucdchina书友会里面,聊过一次大家的工作习惯问题,现在回想起来很有意思,特整理这篇文章分享给大家。关于photoshop1
- Laravel通过传统的登录表单已经让用户认证变得很简单,但是API怎么办?API通常使用token进行认证并且在请求之间不维护sessio
- 我想大家都有一些开了80端口的肉 * ,如果是国内的出于安全就不要往下看了,如果不不妨往下看一下,小弟献丑了,以求抛砖引玉。在肉鸡上放网站最麻
- 属性在运行时的动态替换,叫做猴子补丁(Monkey Patch)。为什么叫猴子补丁属性的运行时替换和猴子也没什么关系,关于猴子补丁的由来网上
- 列表添加元素append(),extend(),insert(),+list区别回忆初学python的时候,对列表list添加元素时,对类表
- 昨日内容:ORM高级查询-filterid=3id__gt=3id__lt=3id__lte=3id__gte=3-in /not in.f
- 看到豆瓣上有网友提了这个问题,看到回答的人不多,忍不住写了下面的内容。工作中最常用到的统计方法有哪些?根据我自己的经验给举些例子。1.通过一
- 前言在Python爬虫中,使用requests发送请求,访问指定网站,是常见的做法。一般是发送GET请求或者POST请求,对于GET请求没有
- 今天借助ChatGPT完成我们这步骤,主要涉及三个问题:1. Python怎么读取.env配置文件,实现一个代码封装2. Python怎么读
- 前言Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义。本文主要给大家介绍了关于
- 1、Model signalsdjango.db.models.signales 作用于django的model操作上的一系列信号1)pre
- 01、正则表达式学习正则表达式操作字符串,re模块是用C语言写的没匹配速度非常快,其中compile函数根据一个模式字符串和可选的标志参数生
- 代码实现如下:import win32com.client,os,timedef word_encryption(path, passwor
- <!DOCTYPE HTML PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN&
- 问题:1.一个销售系统,设有各级代理商,每个代理商的表是这样设计的 数据库结构表1: 代理商资料表[id]