位置：首页>> 网络编程>> Python编程>> python爬取51job中hr的邮箱

python爬取51job中hr的邮箱

作者：lijiao　　发布时间：2022-11-06 14:00:54　

标签：python,爬取,邮箱

本文实例为大家分享了python爬取51job中hr的邮箱具体代码，供大家参考，具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
url = 'http://www.51job.com/'+city
cj = cookielib.MozillaCookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cookie_support)
opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
urllib2.install_opener(opener)
response = urllib2.urlopen(url)
http = response.read()
rex = 'http://jobs.51job.com/hot/.*?html'
value = re.findall(rex, http)
for i in value:
print i
try:
readpage(i)
except:
pass

def readpage(url):
cj = cookielib.MozillaCookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cookie_support)
opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
urllib2.install_opener(opener)
html = urllib2.urlopen(url,timeout = 2).read()
doc = lxml.html.fromstring(html)
rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
for i in results:
xx = re.compile(rex)
for j in xx.findall(i):
print j
f.write(j+'\n')
f.flush()

if __name__ == '__main__':
city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
for i in city_list:
f.write(i+'\n')
f.flush()
try:
read(i)
except:
pass
f.flush()
f.close()

city_list大家自己整理一下，只能帮你们到这里了，谢谢大家的阅读，继续关注脚本之家更多精彩内容。

0

投稿

猜你喜欢

Python使用sqlite3第三方库读写SQLite数据库的方法步骤
1 数据概览学生课程成绩：studentID、name、english、chinese、math，存在一定缺失值2 任务定义基于学生课程成绩
JAVA使用DBUtils操作数据库
摘要：本文主要学习了如何使用DBUtils在Java代码中更方便的操作数据库。概述DBUtils是Java编程中的数据库操作实用工具，小巧简
详解python数据结构和算法
1.删除序列相同元素并保持顺序如果仅仅就是想消除重复元素，通常可以简单的构造一个集合，利用集合之间元素互不相同的特性就可以消除重复，但是这种
python监控进程状态,记录重启时间及进程号的实例
本脚本为本人在性能测试过程中编写，用于对进程状态的监控，也可以用于日常的监控，适用性一般，扩展性还行# -*- coding: UTF-8
如何用python写一个简单的词法分析器
编译原理老师要求写一个java的词法分析器，想了想决定用python写一个。目标能识别出变量，数字，运算符，界符和关键字，用excel表打印
python抓取网页内容并进行语音播报的方法
python2.7，下面是跑在window上的，稍作修改就可以跑在linux上。实测win7和raspbian均可，且raspbian可以直
MySQL数据库中varchar类型的数字比较大小的方法
创建测试表-- ------------------------------ Table structure for check_test-
asp 使用正则表达式替换word中的标签，转为纯文本
公司客户在使用网站后台编辑添加修改内容时，经常是直接从word文档里复制内容到编辑器里后就提交。结果是在内容显示页面上是五花八门的样式，有时
CSS中expression的用法
Expression定义 IE5及其以后版本支持在CSS中使用expression，用来把CSS属性和Javascript表达式关联起来，这
Django 通过JS实现ajax过程详解
ajax的优缺点AJAX使用Javascript技术向服务器发送异步请求AJAX无须刷新整个页面因为服务器响应内容不再是整个页面，而是页面中
制作Dreamweaver活动菜单条
用QQ聊过天的朋友都对它的自动隐藏窗口功能爱不释手，它可以使窗口显得清爽整洁而且富有动感，笔者的几个朋
python实现的登录与提交表单数据功能示例
本文实例讲述了python实现的登录与提交表单数据功能。分享给大家供大家参考，具体如下：# !/usr/bin/env python# -*
使用typescript快速开发一个cli的实现示例
cli 的全称 command-line interface（命令行界面），也就是前端同学常用的脚手架，比如 yo、vue cli、reac
利用PHP实现词法分析器与自定义语言
之前项目有一个需求，业务人员使用中文编写一些自定义公式，然后需要我们后台执行将结果返回到界面上，于是就基于有限状态机写了这个词法分析器，比较
python编程进阶之类和对象用法实例分析
本文实例讲述了python类和对象用法。分享给大家供大家参考，具体如下：前面我们都是用python面向过程编程，现在来用python创建类和
Golang递归获取目录下所有文件方法实例
1.问题如果我想获取一个目录下的所有文件列表，使用 Golang 该如何实现呢？比如有个目录 dir 结构如下：tree dirdir├──
详解Gotorch多机定时任务管理系统
前言先介绍下问题：组内有十来台机器，上面用 cron 分别定时执行着一些脚本和 shell 命令，一开始任务少的时候，大家都记得哪台机器执行
原生JS实现Ajax通过GET方式与PHP进行交互操作示例
本文实例讲述了原生JS实现Ajax通过GET方式与PHP进行交互操作。分享给大家供大家参考，具体如下：一、代码conn.php<?ph
基于django 的orm中非主键自增的实现方式
我们知道django的orm想实现自增，可以直接使用AutoField字段既可以实现，但是这种情况必须要求此字段是主键，但是我们知道主键只能
实战手记：让百万级数据瞬间导入SQL Server
想必每个DBA都喜欢挑战数据导入时间，用时越短工作效率越高，也充分的能够证明自己的实力。实际工作中有时候需要把大量数据导入数据库，然后用于各

Python数据结构之栈、队列的实现代码分享

Python 第三方日志框架loguru使用

Python3安装tensorflow及配置过程

python神经网络tensorflow利用训练好的模型进行预测

使用Anaconda创建Pytorch虚拟环境的排坑详细教程

使用sklearn对多分类的每个类别进行指标评价操作

Sanic框架请求与响应实例分析

pandas 使用insert插入一列

python概率计算器实例分析

弄清Pytorch显存的分配机制

怎么样设置PowerPoint2007幻灯片放映时不显示快捷工具栏

Kindle10周年了？新款防水阅读器劲爆上市！

C#反射(Reflection)详解

python实现的文件夹清理程序分享

js实现登录验证码

守望轮回谷炼狱nec怎么玩？炼狱nec通关指南分享

Word插入横线/加横线的方法

崩坏3蓝莓特攻科学怪人皮肤怎么获取？蓝莓特攻科学怪人皮肤获得方法

C# 格式化JSON的两种实现方式

原神手游那些年琴谱怎么弹

手机版 网络编程 asp之家 www.aspxhome.com