Python爬虫小例子——爬取51job发布的工作职位
作者:Alan.hsiang 发布时间:2022-04-30 23:17:18
概述
不知从何时起,Python和爬虫就如初恋一般,情不知所起,一往而深,相信很多朋友学习Python,都是从爬虫开始,其实究其原因,不外两方面:其一Python对爬虫的支持度比较好,类库众多。其二Pyhton的语法简单,入门容易。所以两者形影相随,不离不弃,本文主要以一个简单的小例子,简述Python在爬虫方面的简单应用,仅供学习分享使用,如有不足之处,还请指正。
涉及知识点
本例主要爬取51job发布的工作职位,用到的知识点如下:
开发环境及工具:主要用到Python3.7 ,IDE为PyCharm
requests类库:本类库封装了python的内置模块,主要用于网络的请求和获取数据,可以支持不同形式的请求。
BeautifulSoup库:主要用于解析获取的数据,包括Html,Xml,Json等不同的格式。
数据持久化:主要是将内存中的数据,保存到数据库或者文件中。
爬虫的基本步骤
爬虫的基本步骤,如下图所示:
爬取目标
如有要爬取相关内容,首先要对爬取的目标进行分析,了解其目录结构,才能进行解析。本例主要爬取51job中的工作列表,如下所示:
核心源码
1.获取数据
定义一个函数get_data,用于发起请求并获取数据,如下所示:
headers中的User-Agent主要用于模拟浏览器,不然会被反爬虫程序屏蔽,http状态码为418,意思是被网站的反爬程序返回的。
encoding是要爬取的网站的编码为gbk,如果不加,会产生乱码,默认为utf-8
def get_data(req_url):
"""获取数据"""
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko',
'Accept-Language': 'zh-Hans-CN, zh-Hans;q=0.5'
}
resp = requests.get(req_url, headers=headers)
resp.encoding = 'gbk' # 不加会产生中文乱码
if resp.status_code == 200:
return resp.text
else:
return None
2.解析数据
定义一个函数parse_data,用于解析获取到的内容,如下所示:
采用BeautifulSoup,将返回的文本,解析成html对象,并获取对应的内容。本例主要获取工作的列表
def parse_data(resp_html):
"""解析数据,并返回列表"""
soup = BeautifulSoup(resp_html, features='html.parser')
job_table = soup.find('div', attrs={'class': 'dw_table'})
# print(job_table)
job_list = job_table.find_all('div', attrs={'class': 'el'})
# print(job_list)
# 循环列表,去掉第一个title和最后一个
res_list = []
for job in job_list[1: -1]:
job_name = job.find('p', attrs={'class': "t1"}).find('span').find('a').get_text()
job_name = job_name.replace('\r\n', '').strip()
job_company = job.find('span', attrs={'class': "t2"}).find('a').get_text()
job_addr = job.find('span', attrs={'class': "t3"}).get_text()
job_salary = job.find('span', attrs={'class': "t4"}).get_text()
job_time = job.find('span', attrs={'class': "t5"}).get_text()
# print('工作信息:', job_name, '---', job_company, '---', job_addr, '---', job_salary, '---', job_time)
res_item = {
'工作名称': job_name,
'公司': job_company,
'工作地址': job_addr,
'薪资水平': job_salary,
'发布时间': job_time
}
res_list.append(res_item)
return res_list
3.保存数据
定义一个函数save_data,用于将获取到的内容保存到json文件中,如下所示:
with函数 可以自动进行释放。因包含中文,所以json文件的编码为utf-8,否则会出现乱码
def save_data(res_list):
"""保存数据"""
with open('jobs.json', 'w', encoding='utf-8') as f:
res_list_json = json.dumps(res_list, ensure_ascii=False)
f.write(res_list_json)
4.整体调用步骤
依次调用定义的三个函数,如下所示:
if __name__ == '__main__':
"""如果是主程序自己调用"""
req_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
# 获取数据
resp_html = get_data(req_url)
# print(html)
# 解析数据
res_list = parse_data(resp_html)
# 保存数据
save_data(res_list)
爬取结果展示
爬取的结果保存在jobs.json文件中,如下所示:
[
{
"工作名称": "Java架构师",
"公司": "深圳市钻木信息技术有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "1.8-3万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java实习生 6k起",
"公司": "深圳市智玩创新科技有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "6-8千/月",
"发布时间": "06-13"
},
{
"工作名称": "Java实习生6k起",
"公司": "深圳市康姆达科技有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "6-8千/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市网新新思软件有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1.5-1.7万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市睿服科技有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "1.3-1.7万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发经理",
"公司": "深圳市聚惠企业登记代理有限公司",
"工作地址": "深圳-龙华新区",
"薪资水平": "1-3万/月",
"发布时间": "06-13"
},
{
"工作名称": "高级JAVA",
"公司": "深圳易加油信息科技有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1.5-2.1万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师",
"公司": "深圳市绿联科技有限公司",
"工作地址": "深圳-龙华新区",
"薪资水平": "2-3万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市博悦科创科技有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师",
"公司": "易普森智慧健康科技(深圳)有限公...",
"工作地址": "深圳",
"薪资水平": "1.5-2.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳易世通达科技有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1.2-1.8万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "苏州今融加科技有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "1.5-2万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java后端开发工程师",
"公司": "深圳市长隆科技有限公司",
"工作地址": "深圳-龙岗区",
"薪资水平": "1.5-2万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市元诺智能系统有限公司",
"工作地址": "深圳-龙华新区",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "java 有物流类经验",
"公司": "深圳市欧恩德技术有限公司",
"工作地址": "深圳-罗湖区",
"薪资水平": "0.8-1.1万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师-2020校园招聘",
"公司": "金蝶软件(中国)有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "0.8-1.6万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师",
"公司": "丰疆智能科技股份有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "2.5-3万/月",
"发布时间": "06-13"
},
{
"工作名称": "JAVA软件开发工程师",
"公司": "深圳市吉星时代科技有限公司",
"工作地址": "深圳-龙岗区",
"薪资水平": "2-3万/月",
"发布时间": "06-13"
},
{
"工作名称": "JAVA 高级软件工程师",
"公司": "相通网络技术有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "1.5-3万/月",
"发布时间": "06-13"
},
{
"工作名称": "JAVA开发工程师(接受应届生)",
"公司": "深圳市智岩科技有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "0.8-1万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java后台开发工程师",
"公司": "深圳市炬驰科技发展有限公司",
"工作地址": "深圳",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市韶音科技有限公司",
"工作地址": "深圳-宝安区",
"薪资水平": "0.8-1万/月",
"发布时间": "06-13"
},
{
"工作名称": "JAVA 开发工程师",
"公司": "深圳市优博讯科技股份有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市有豆科技有限公司",
"工作地址": "深圳-宝安区",
"薪资水平": "1.8-3万/月",
"发布时间": "06-13"
},
{
"工作名称": "Saas平台架构师(Java方向)",
"公司": "深圳市智布互联纺织科技有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1.7-2.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发实习生",
"公司": "云软科技",
"工作地址": "深圳-宝安区",
"薪资水平": "6-9千/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师",
"公司": "深圳市阿尔法智汇科技有限公司",
"工作地址": "深圳-宝安区",
"薪资水平": "2-4万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java 全栈开发工程师",
"公司": "深圳市杰纳斯科技有限公司",
"工作地址": "深圳-宝安区",
"薪资水平": "1-3.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "中高级java工程师",
"公司": "北京联创智融信息技术有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "1.3-1.8万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "得实信息科技(深圳)有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "0.6-1万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市联创科技集团有限公司",
"工作地址": "深圳-龙岗区",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "中级JAVA(J13824)",
"公司": "银雁科技服务集团股份有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "java工程师",
"公司": "深圳市安思疆科技有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "0.8-1.6万/月",
"发布时间": "06-13"
},
{
"工作名称": "JAVA 高级开发工程师",
"公司": "汇才保险代理(深圳)有限公司",
"工作地址": "深圳-罗湖区",
"薪资水平": "1.5-2万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师(直连)",
"公司": "深圳市天泰国际航空旅行社有限公司...",
"工作地址": "深圳",
"薪资水平": "2-4万/月",
"发布时间": "06-13"
},
{
"工作名称": "JAVA工程师",
"公司": "深圳市开度贸易有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "0.8-1.2万/月",
"发布时间": "06-13"
},
{
"工作名称": "后台开发Leader(JAVA方向)",
"公司": "深圳金世纪保险经纪有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "3-4万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市中深力人力资源管理有限公司...",
"工作地址": "深圳-南山区",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师",
"公司": "研祥高科技控股集团有限公司",
"工作地址": "深圳-光明新区",
"薪资水平": "0.9-1.8万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java(证券不加班)",
"公司": "上海华腾软件系统有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "1.8-2.2万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师",
"公司": "深圳大美商业地产管理有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "1.5-2万/月",
"发布时间": "06-13"
},
{
"工作名称": "资深/高级Java工程师",
"公司": "未来穿戴(深圳)有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "3-4万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师",
"公司": "深圳市太阳星通信科技有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "0.8-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java高级开发工程师",
"公司": "深圳市蓝鹰立德软件咨询有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1.5-1.8万/月",
"发布时间": "06-13"
},
{
"工作名称": "JAVA(高级、架构)",
"公司": "深圳市几米物联有限公司",
"工作地址": "深圳-宝安区",
"薪资水平": "2.2-3.2万/月",
"发布时间": "06-13"
},
{
"工作名称": "JAVA开发工程师",
"公司": "江苏康尚生物医疗科技有限公司",
"工作地址": "深圳-宝安区",
"薪资水平": "1-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "java架构师",
"公司": "深圳市泓齐网络科技有限公司",
"工作地址": "深圳",
"薪资水平": "1.5-1.8万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "深圳市智璟科技有限公司",
"工作地址": "深圳-福田区",
"薪资水平": "0.9-1.5万/月",
"发布时间": "06-13"
},
{
"工作名称": "Java开发工程师",
"公司": "上海舟恩信息技术有限公司",
"工作地址": "深圳-南山区",
"薪资水平": "1.4-1.9万/月",
"发布时间": "06-13"
}
]
进一步思考
本例可以进一步优化的空间,如下所示:
本次爬虫只是单次爬取,数据量相对小,如果要爬取大量数据的时候,则需要使用多线程相关的知识。
基础的爬虫,只能爬取静态渲染的内容,如果是异步动态渲染的数据,如何爬取呢?
将爬取的结果保存到数据库如何操作呢?
来源:https://www.cnblogs.com/hsiang/p/13121404.html


猜你喜欢
- 1.按列取、按索引/行取、按特定行列取import numpy as npfrom pandas import DataFrameimpor
- 我们或多或少都使用过各式各样的富文本编辑器,其中有一个很方便功能,复制一张图片然后粘贴进文本框,这张图片就被上传了,那么这个方便的功能是如何
- 关于Pillow与PILPIL(Python Imaging Library)是Python一个强大方便的图像处理库,名气也比较大。不过只支
- Windows上安装mysql-8.0.29-winx64,供大家参考,具体内容如下1.进入官网找到自己所需的安装包:https://dev
- django 处理上传图片生成缩略图首先要注意form标签上必须有enctype="multipart/form-data&quo
- 1.下载MySQL下载地址,选择要下载的版本,建议选择DMG安装包,用着比较方便。2.解压并安装DMG包中的mysql-5.6.12-osx
- 先给一个例子:假设在一个表单中有一个按钮id="save"$(document).ready(function(){&n
- 本文实例讲述了Python数据预处理之数据规范化。分享给大家供大家参考,具体如下:数据规范化为了消除指标之间的量纲和取值范围差异的影响,需要
- 在python中,循环有一个语句:for语句。简单的for循环例子>>> hello = "world"
- 消息/事件机制是几乎所有开发语言都有的机制,并不是deviceone的独创,在某些语言称之为消息(Event),有些地方称之为(Messag
- 本文主要研究的是tornado 多进程模式的相关内容,具体如下。官方文档的helloworld实例中的启动方法:if __name__ ==
- 1. 引言Python程序有许多模块和第三方包,这非常有助于高效编程。了解这些模块的正确使用方法是很重要的,在本文中,主要介绍一些非常实用的
- 为项目设置虚拟环境Python的虚拟环境可以类似于Java中Tomcat容器。其主要作用是为了给不同的工程创建相互独立的运行环境,在虚拟环境
- BluePrint是一个非常成熟也非常流行的CSS框架,很多网站和wordpress基于Blueprint搭建前端结构。最近,bluepri
- 通常懒加载等都会通过监听scroll事件用getBoundingClientRect()来判断元素位置来决定是否可以开始加载。性能开销是比较
- 一、前期准备1.1 安装环境1、安装python32、打开命令行安装seleniumpip install selenium二、python
- 讲解我们的爬虫之前,先概述关于爬虫的简单概念(毕竟是零基础教程)爬虫网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收
- IE(internet explorer)公司:微软(MicroSoft)布局引擎:Trident(也做MSHTML)注:解析渲染
- 输入半径,计算圆的周长、面积、球体体积,并画出这个圆。拖动条、输入框和图像控件的数据保持一致!Fedora下测试通过#https://git
- asp无组件上传VBS编写的大家见的多了,这个是纯javascript实现的上传,原来unicode可以解决读取位置的问题,这次真的是纯JS