利用Python获取赶集网招聘信息前篇
作者:mrmusic 发布时间:2021-09-23 12:53:36
标签:Python,获取信息
如何获取一个网站的相关信息,获取赶集网的招聘信息,本文为大家介绍利用python获取赶集网招聘信息的关键代码,供大家参考,具体内容如下
import re
import urllib
import urllib.request
#获取赶集网数据
def begin(url):
#要伪装成的浏览器(我这个是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
opener = urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode('utf-8')
return data
#处理数据,返回字典城市对应城市的url
def get_cityinfo(data):
city_info1=re.findall(r'dl>(.*?)</dl>',data,re.S)
city_info2=re.findall(r'(<a.*?</a>)',city_info1[0],re.S)
city_dict={}
for each in city_info2:
key=re.findall('>(.*?)</',each,re.S)
city_url=re.findall('href="(.*?)"',each,re.S)
city_dict[key[0]]=city_url[0]
return city_dict
#获取所有的a标签,并从a标签中获取信息
def a_info(data):
a_info=re.findall(r'(<a.*?</a>)',data[0],re.S)
a_dict={}
for each in a_info:
key=re.findall('>(.*?)</',each,re.S)
a_url=re.findall('"(.*?)"',each,re.S)
a_dict[key[0]]=a_url[0]
return a_dict
#获取对应城市信息的所有分类
def get_cityinfoclass():
#目前先获取招聘信息,后面有时间再继续补充完善这个模块
info= 'zhaopin/'
return info
#获取对应城市和其城市分类的信息
def getzhaopin(city_info,infoclass):
#先搞成都的信息招聘
city_url=city_info['成都']
cdzp_url=city_url+infoclass
cdzp_info=begin(cdzp_url)
return city_url,cdzp_info
#获取成都市招聘信息
def get_zhaopin_info(city_url,cdzp_info):
allzp_info=re.findall('class="f-all-news"(.*?)</div>',cdzp_info,re.S)
a_dict={}
class_info=re.findall('<dd>(.*?)</dd>',allzp_info[0],re.S)
for each in class_info:
a_info=re.findall(r'(<a.*?</a>)',each,re.S)
for each1 in a_info:
key=re.findall('>(.*?)</',each1,re.S)
a_url=re.findall('href="/(.*?)"',each1,re.S)
a_dict[key[0].strip()]=city_url+a_url[0]
return a_dict
#获取招聘信息的具体内容
def get_city_zpinfo_detail(url):
#先获取软件工程师
sorft_engineer=(zp_class_info['软件工程师'])
job_url_info=begin(sorft_engineer)
get_detail_info(job_url_info)
#处理详情页的信息
def get_detail_info(list_info):
job_info=re.findall('<dl class="list-noimg job-list clearfix"(.*?)</dl',list_info,re.S)
print(job_info[0])
if __name__=='__main__':
url='http://www.ganji.com/index.htm';
data=begin(url);
#所有城市信息
city_info=get_cityinfo(data)
#对应的分类
infoclass=get_cityinfoclass()
cdzp_url,xiaoshou=getzhaopin(city_info,infoclass)
#获取招聘的分类信息
zp_class_info=get_zhaopin_info(cdzp_url,xiaoshou)
get_city_zpinfo_detail(zp_class_info)


猜你喜欢
- SpringBoot环境启动项目创建数据库表使用环境windows+eclipse+mysql+navicat步骤1.创建SpringBoo
- 为方便维护和实现开放性,我把调查的好几个主题都放到同一个数据库的同一个表名当中去了但问题是在查询其中一个调查主题时,往往还会显示不相关主题的
- MySQL-Group-Replication 是mysql-5.7.17版本开发出来的新特性;它在master-slave 之间实现了强一
- 本文实例讲述了PHP实现多文件上传的方法。分享给大家供大家参考。具体实现方法如下:<?phpdefine('ROOT'
- python处理按钮消息的实例详解  
- Mysql参数优化对于新手来讲,是比较难懂的东西,其实这个参数优化,是个很复杂的东西,对于不同的网站,及其在线量,访问量,帖子数量,网络情况
- 在我们学习和使用JavaScript的中,会经常使用到数组的去重,接下来的内容,来给大家分享一下,我们在开发过程中,常用到的数组去重方法,这
- 一.基本的查询语句,特殊符号||。制定列的别名AS,唯一标示distinct1.字符连接符“||”与“+”符oracle:select &n
- 本文实例讲述了JS+HTML5 canvas绘制验证码。分享给大家供大家参考,具体如下:css样式:<style>body{ &
- 1.已知有一个XML文件(bookstore.xml)如下: <?xml version="1.0" e
- Tensorflow是目前最流行的深度学习框架,我们可以用它来搭建自己的卷积神经网络并训练自己的分类器,本文介绍怎样使用Tensorflow
- 在asp里通过以下两个函数实现javascript里的escape函数和unescape函数加密功能。在ajax post或get时内容存在
- 通常的聊天室所采用的程序,也就是Chat程序了,其基本结构原理是不会采用到数据库的。那究竟采用什么技术呢?我们知道ASP变量当中Sessio
- 本文实例讲述了Python实现读取文件最后n行的方法。分享给大家供大家参考,具体如下:# -*- coding:utf8-*-import
- 1. 优化你的MySQL查询缓存在MySQL服务器上进行查询,可以启用高速查询缓存。让数据库引擎在后台悄悄的处理是提高性能的最有
- 本文实例讲述了SQL Server日期加减函数DATEDIFF与DATEADD用法。分享给大家供大家参考,具体如下:SQL Server 日
- 最近在学习Vue.js,把自己遇到的问题做个记录,所以,今天添加一点小笔记。在项目中遇到两个问题,简单的做个笔记来记录自己解决的问题,可能不
- 我们选择一种问题的解决办法,通常需要考虑到想要达到的效果,还有最重要的是这个办法本身的优缺点有哪些,与其他的方法对比哪一个更好。之前小编之前
- 最近邻:import cv2import numpy as npdef function(img): height,width,channe
- 如果和不同的后台调接口,如果后台接口没有合到一起,前端可以配不同的代理来共同访问他们的接口在config文件夹下的index.js中设置如下