位置：首页>> 网络编程>> Python编程>> scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

作者：pythoner　　发布时间：2021-03-20 02:55:59　

标签：scrapy,采集,mongodb

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下：

# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
def __init__(self):
self.server = settings['MONGODB_SERVER']
self.port = settings['MONGODB_PORT']
self.db = settings['MONGODB_DB']
self.col = settings['MONGODB_COLLECTION']
connection = pymongo.Connection(self.server, self.port)
db = connection[self.db]
self.collection = db[self.col]
def process_item(self, item, spider):
err_msg = ''
for field, data in item.items():
if not data:
err_msg += 'Missing ％s of poem from ％s\n' ％ (field, item['url'])
if err_msg:
raise DropItem(err_msg)
self.collection.insert(dict(item))
log.msg('Item written to MongoDB database ％s/％s' ％ (self.db, self.col),
level=log.DEBUG, spider=spider)
return item

希望本文所述对大家的python程序设计有所帮助。

0

投稿

猜你喜欢

python DataFrame 取差集实例
需求：给定一个dataframe和一个list，list中存放的是dataframe中某一列的元素，删除dataframe中与list元素重
Python基于wordcloud及jieba实现中国地图词云图
热词图很酷炫，也非常适合热点事件，抓住重点，以图文结合的方式表现出来，很有冲击力。下面这段代码是制作热词图的，用到了以下技术：jieba，把
go语言程序cpu过高问题排查的方法详解
一、前言Go程序像C/C++一样，如果开发编码考虑不当，会出现cpu负载过高的性能问题。如果程序是线上环境或者特定场景下出现负载过高，问题不
PyCharm使用最多也最常用默认快捷键分享
工欲善其事必先利其器，PyCharm 是最popular的Python开发工具，它提供的功能非常强大，是构建大型项目的理想工具之一，如果能挖
优化mysql数据库的经验总结
1、选取最适用的字段属性 MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建
PHP下常用正则表达式整理
--------------------------------------------------------- 正则收藏手机号码： $
浅谈pandas dataframe对除数是零的处理
如下例data2[‘营业成本率'] = data2[‘营业成本本年累计']/data2[‘营业收入本年累计']*10
基于jsp实现新闻管理系统附完整源码
很棒的新闻发布系统分享给大家，希望大家喜欢。下面就让我们来说一说基于jsp的新闻发布系统，其中使用的技术有JavaBean、fillter、
Golang导入包的几种方式(点,别名与下划线)
一、包的导入Golang 当导入多个包时，一般按照字母顺序排列包名称，像Goland 等IDE 会在保存文件时自动完成这个动作。Golang
python将excel转换为csv的代码方法总结
python：如何将excel文件转化成CSV格式import pandas as pddata = pd.read_excel('
基于Python实现拉格朗日插值法
一、拉格朗日的基本思想拉格朗日插值法是以法国十八世纪数学家约瑟夫·拉格朗日命名的一种多项式插值方法。许多实际问题中都用
浅述python2与python3的简单区别
python2：print语句，语句就意味着可以直接跟要打印的东西，如果后面接的是一个元组对象，直接打印python3：print函数，函数
PyTorch深度学习模型的保存和加载流程详解
一、模型参数的保存和加载 torch.save(module.state_dict(), path)：使用module.state
python笔记之使用fillna()填充缺失值
使用fillna()填充缺失值df = pd.read_csv('ccf_offline_stage1_train.csv'
python数组循环处理方法
简介本文主要介绍python数组循环语法。主要方式有元素遍历，索引遍历，enumerate, zip, list内部等。普通循环list1
java连接mysql数据库乱码的解决方法
解决方法一: mysql安装时候的编码，看下my.ini，有无 [mysql] default-character-set=utf8 [c
MIME Type 引出的两难困境
一切从一个糟糕的浏览器开始，它完全不支持 XHTML。什么是 MIME Type？为什么这么说呢？首先，我们要了解浏览器是如何处理内容的。
JS实战篇之收缩菜单表单布局
获取节点的两种方式： 1、通过event对象的srcElement属性； &nbs
asp如何实现点击数的计算？
如下：counter.htm＜a href=counter.asp?save=123&url=http://127.0.0
轻松解决AJAX的中文乱码问题
最近写一个小小的留言本；算是对AJAX的综合应用迈出了一小步在制作过程中有很多兴奋的体验虽然和以前的制作方法比起来繁杂了一些但是整个页面的

Python中使用tkFileDialog实现文件选择、保存和路径选择

python 多进程和协程配合使用写入数据

Python3中关于cookie的创建与保存

Python内建函数之raw_input()与input()代码解析

深入理解 Python 中的多线程新手必看

把JSON数据格式转换为Python的类对象方法详解（两种方法）

Tensorflow实现多GPU并行方式

pyqt5使用按钮进行界面的跳转方法

python二分法查找算法实现方法【递归与非递归】

PyQt5实现用户登录GUI界面及登录后跳转

使用WebSocket实现即时通讯(一个群聊的聊天室)

Win10系统打开软件出现TesSafe.sys蓝屏解决方案

游戏王决斗链接雷破卡牌效果怎么样

win10 1903文件夹背景现在是黑色如何改变

光与夜之恋配音怎么切换

word 设计选项卡在哪里

伊洛纳怎么解除通缉？快速解除通缉方法一览

无畏契约准星代码在哪里输入

Python中常用的内置方法

Python 包含汉字的文件读写之每行末尾加上特定字符

手机版 网络编程 asp之家 www.aspxhome.com