位置：首页>> 网络编程>> Python编程>> Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

作者：Tanglaoer　　发布时间：2023-06-23 09:35:59　

标签：python,爬虫,scrapy,框架,mongodb

创建项目

scrapy startproject zhaoping

创建爬虫

cd zhaoping
scrapy genspider hr zhaopingwang.com

目录结构

items.py

title = scrapy.Field()
position = scrapy.Field()
publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):
def process_item(self, item, spider):
print(item)
# 需要转换为 dict
collection.insert(dict(item))
return item

spiders/hr.py

def parse(self, response):
# 不要第一个和最后一个
tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
for tr in tr_list:
item = TencentItem()
# xpath 从1 开始数起
item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
item["position"] = tr.xpath("./td[2]/text()").extract_first()
item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
yield item

next_url = response.xpath("//a[@id='next']/@href").extract_first()
# 构造url
if next_url != "javascript:;":
print(next_url)
next_url = "https://hr.tencent.com/" + next_url
yield scrapy.Request(url=next_url,callback=self.parse,)

就是这么简单，就获取到数据

来源：https://www.cnblogs.com/tangkaishou/p/10264628.html

0

投稿

猜你喜欢

python3用PIL把图片转换为RGB图片的实例
感想我们在做深度学习处理图片的时候，如果是自己制作或者收集的数据集，不可避免的要对数据集进行处理，然后大多数模型都只支持RGB格式的图片，这
win10下opencv-python特定版本手动安装与pip自动安装教程
1. 特定版本的python-opencv安装在https://www.lfd.uci.edu/~gohlke/pythonlibs/#op
分享13款非常有用的jQuery插件
jQuery是一个非常优秀的JavaScript 框架，使用简单灵活，同时还有许多成熟的插件可供选择，它可以帮助你在项目中加入一些非常好的效
SQL Server 2008主要功能在兼容性上的问题
在许多情况下，当迁移至SQL Server 2008之前必须了解那些反对和放弃功能的具体情况。下文是几个主要功能在兼容性上的问题列表：1.S
python的迭代器,生成器和装饰器你了解吗
python 迭代器与生成器，装饰器迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器有两个基本的方法：iter()
在uni-app中使用element-ui的方法与报错解决
uni-app的相关UI组件库中可能会没有你想要的功能组件，自己去开发的话需要花很多时间，此时咱们可以将别的UI组件库给安装到uni-app
python抓取某汽车网数据解析html存入excel示例
1、某汽车网站地址2、使用firefox查看后发现，此网站的信息未使用json数据，而是简单那的html页面而已3、使用pyquery库中的
Python爬虫设置 * 的方法(爬虫技巧)
在学习Python爬虫的时候，经常会遇见所要爬取的网站采取了反爬取技术，高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力，所以同一
我喜欢你抖音表白程序python版
本文实例为大家分享了python抖音表白神器，供大家参考，具体内容如下# -*- coding: utf-8 -*-import sysfr
5个css+div导航菜单
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN&
Python学习笔记之文件的读写操作实例分析
本文实例讲述了Python文件的读写操作。分享给大家供大家参考，具体如下：读写文件读取文件f = open('my_path/my_
pandas 使用均值填充缺失值列的小技巧分享
pd.DataFrame中通常含有许多特征，有时候需要对每个含有缺失值的列，都用均值进行填充，代码实现可以这样：for column in
Python多继承原理与用法示例
本文实例讲述了Python多继承原理与用法。分享给大家供大家参考，具体如下：python中使用多继承，会涉及到查找顺序（MRO）、重复调用（
python3转换code128条形码的方法
这年头如果用 python3 做条形码的，肯定（推荐）用 pystrich 。这货官方文档貌似都没写到支持 Code128 ，但是居然有这个
vue实现PC端分辨率适配操作
依赖项目基础配置使用 vue-cli 生成自适应方案核心：阿里可伸缩布局方案 lib-flexiblepx转rem：px2rem，它有we
微信小程序picker组件简单用法示例
本文实例讲述了微信小程序picker组件简单用法。分享给大家供大家参考，具体如下：picker滚动选择器，现支持三种选择器，通过mode来区
详解Python中的分支和循环结构
一.条件语句条件语句可以给定一个判断条件，并在程序执行过程中判断该条件是否成立。程序根据判断结果，执行不同的操作，这样就可以改变代码的执行顺
SQL Server从安装到建库为新手寻找捷径
客户/服务器体系结构图形化的用户界面，使系统的管理更加直观和简单。丰富的编程接口，为用户进行应用程序设计提供了更大的选择余地。与Window
MYSQL和ORACLE的一些操作区别
有很多应用项目, 刚起步的时候用MYSQL数据库基本上能实现各种功能需求，随着应用用户的增多，数据量的增加，MYSQL渐渐地出现不堪重负的情
SpringBoot集成Flyway进行数据库版本迁移管理的步骤
目录Flyway简介Flyway中的迁移(migrations)模式Flyway历史记录表flyway_history_schemaSpri

解决Jupyter无法导入已安装的 module问题

基于pdf2docx模块Python实现批量将PDF转Word文档的完整代码教程

python的Jenkins接口调用方式

Python 调用DLL操作抄表机

Python实现的Kmeans++算法实例

python OpenCV学习笔记直方图反向投影的实现

python实现Scrapy爬取网易新闻

python实现线程池的方法

Python实现猜年龄游戏代码实例

Python实现LR1文法的完整实例代码

服务器不支持 MySql 数据库的解决方法

WPS的边框和底纹在哪里设置

最强蜗牛下水道乌龟小伙伴怎么获得

怎么看微信钱包记录？查看方法详解

Luminar Neo 教程「14」，如何在 Luminar Neo 中使用开发工具？

iOS9怎么降级到iOS8.4？教你iOS9降级iOS8.4

玩转微信，离不开的就是它——微信小助手！

win7电脑音量图标点了没反应怎么办

Excel中SKEW函数的语法和用法

SpringMVC MVC架构与Servlet使用详解

手机版 网络编程 asp之家 www.aspxhome.com