网络编程
位置:首页>> 网络编程>> Python编程>> Pycharm安装scrapy及初始化爬虫项目的完整步骤

Pycharm安装scrapy及初始化爬虫项目的完整步骤

作者:_码农耕地人  发布时间:2023-04-03 10:49:43 

标签:pycharm,安装,scrapy

一)安装scrapy:

1、打开cmd命令窗口,输入:pip install Scrapy。

2、安装成功之后会显示下面字符,表示未将scrapy设置到环境变量。

Pycharm安装scrapy及初始化爬虫项目的完整步骤

3、配置环境变量:右键我的电脑-->属性-->高级设置--->环境变量---->系统变量中的Path--->编辑--->添加--->将上文中黄色的路径添加到环境变量即可。

4、scrapy安装完毕。

二)创建一个scrapy爬虫项目:

1、创建一个普通的Pycharm项目,然后找到下面的terminal

Pycharm安装scrapy及初始化爬虫项目的完整步骤

 2、输入命令scrapy startproject 模块名称(可以自己随便起,我以名为mine为例),成功之后你会发现自己的项目中多了一个mine的包文件。

Pycharm安装scrapy及初始化爬虫项目的完整步骤

 3、上述操作成功后终端会显示下图文字:此时我们输入cd那条命令。进入目标文件。

Pycharm安装scrapy及初始化爬虫项目的完整步骤

 4、这时就可以创建爬虫目标文件啦,

        输入scrapy genspider 爬取名 网站域名

1、爬取名是自己随便起的,比如我要爬百度那么我就可以起名为baidu

2、网站域名就是去掉  https:www.  剩下的部分,以博客园的为例:

网址为:https://www.cnblogs.com/

域名为 cnblogs.com

 2和3操作截图: 

Pycharm安装scrapy及初始化爬虫项目的完整步骤

5、此时我们会在目录里看见一个新的py文件:里自动生成如下代码:

Pycharm安装scrapy及初始化爬虫项目的完整步骤

Pycharm安装scrapy及初始化爬虫项目的完整步骤

三)开启pycharm对scrapy框架的调试功能:

由于pycharm没有创建scrapy框架的模块,所以我们想调试scrapy程序时要自己写一个小脚本来开启pycharm对scrapy的调试功能。

 1、在与mine包同级条件下创建一个main.py文件:

Pycharm安装scrapy及初始化爬虫项目的完整步骤

 2、mine文件将一下代码赋值进去:

import os
import sys

from scrapy.cmdline import execute

sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "cnblog"])  # 第三个参数为自己创建的那个爬取的名称

 这样就大功告成啦!

来源:https://blog.csdn.net/weixin_60414376/article/details/124023917

0
投稿

猜你喜欢

  • 本文讨论 MySQL 的备份和恢复机制,以及如何维护数据表,包括最主要的两种表类型:MyISAM 和 Innodb,文中设计的 MySQL
  • 前言本文主要给大家介绍了关于python卸载再安装遇到问题的解决方法,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧解决方法
  • CSS对浏览器的兼容性有时让人很头疼,或许当你了解当中的技巧跟原理,就会觉得也不是难事,从网上收集了IE7,6与Fireofx的兼容性处理技
  • js对文字进行编码涉及3个函数:escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,
  • 刚开始进入页面,当滚动向下超过原屏的时候。右侧会出现一个“返回顶部”的按钮。这个按钮会跟这网页一起向上向下,当滚动到顶部的时候。“返回顶部”
  • →问题提出:我用dw做了一个下拉菜单,但是碰到form的列表项就跑到下面去了,请帮忙解决,先谢谢各位了!请看问题图示如下:→解决问题:由于层
  • ORM 查询管理器对于 ORM 定义: 对象关系映射, Object Relational Mapping, ORM, 是一种程序设计技术,
  • FBV:function based view 基于函数的视图.CBV:class based view 基于类的视图.在视图函数创建类,需
  • 页面中无法看见页面,指向的连接网页无法显示 解决方法:1、首先在Dreamweaver中不能中文作为文件名。连目录名也最好是英文的。2、如果
  • 最近社会猪可是火遍了大江南北,不蹭下热度可对不起它。见过手画的佩奇,见过用代码画的吗?没有?那就来看我大显身手。用python的turtle
  • 一、前言在Python提供了re模块,用于实现正则表达式的操作。在实现时,可以使用re模块提供的方法(如,search()、match()、
  • 1.python解释器安装下载地址:https://www.python.org/打开官网,点击downloads,选择操作系统,以wind
  • 如果要问做什么事是最有吸引力,那就是创建Web应用。Web设计者们对设计交互式的Web没有什么更好的办法,却对我们做桌面软件的同事投去少许羡
  • Software as a service 软件即服务,21世纪开始兴起的一种完全创新的软件应用模式。客户通过互联网向厂商定购所需的应用软件
  • 本文实例讲述了Django restframework 框架认证、权限、限流用法。分享给大家供大家参考,具体如下:概述Django Rest
  • 该章节我们来学习一下在 Python 中去创建并使用多进程的方法,通过学习该章节,我们将可以通过创建多个进程来帮助我们提高脚本执行的效率。可
  • 第一节:WAP的潜能 这些日子,我们常听到WAP技术,一种手机上网的技术。从技术上讲,移动电话不可能和PC来竞争,移动电话的屏幕只能容下很少
  • enum 是一组绑定到唯一常数值的符号名称,并且具备可迭代性和可比较性的特性。我们可以使用 enum 创建具有良好定义的标识符,而不是直接使
  • 和设计师打过交道的人一定也见到过少数极品,不是扎着小辫子留着小胡子,就是剃了光头抽根烟,通常说起来一套一套的人作品都很一般般,而作品一般般的
  • 功能输入一个特定格式的时间戳,自动获取前进或者后退多少小时之后的时间附加函数时间戳转换函数def date_time_str_to_long
手机版 网络编程 asp之家 www.aspxhome.com