Pycharm安装scrapy及初始化爬虫项目的完整步骤
作者:_码农耕地人 发布时间:2023-04-03 10:49:43
一)安装scrapy:
1、打开cmd命令窗口,输入:pip install Scrapy。
2、安装成功之后会显示下面字符,表示未将scrapy设置到环境变量。
3、配置环境变量:右键我的电脑-->属性-->高级设置--->环境变量---->系统变量中的Path--->编辑--->添加--->将上文中黄色的路径添加到环境变量即可。
4、scrapy安装完毕。
二)创建一个scrapy爬虫项目:
1、创建一个普通的Pycharm项目,然后找到下面的terminal
2、输入命令scrapy startproject 模块名称(可以自己随便起,我以名为mine为例),成功之后你会发现自己的项目中多了一个mine的包文件。
3、上述操作成功后终端会显示下图文字:此时我们输入cd那条命令。进入目标文件。
4、这时就可以创建爬虫目标文件啦,
输入scrapy genspider 爬取名 网站域名
1、爬取名是自己随便起的,比如我要爬百度那么我就可以起名为baidu
2、网站域名就是去掉 https:www. 剩下的部分,以博客园的为例:
网址为:https://www.cnblogs.com/
域名为 cnblogs.com
2和3操作截图:
5、此时我们会在目录里看见一个新的py文件:里自动生成如下代码:
三)开启pycharm对scrapy框架的调试功能:
由于pycharm没有创建scrapy框架的模块,所以我们想调试scrapy程序时要自己写一个小脚本来开启pycharm对scrapy的调试功能。
1、在与mine包同级条件下创建一个main.py文件:
2、mine文件将一下代码赋值进去:
import os
import sys
from scrapy.cmdline import execute
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "cnblog"]) # 第三个参数为自己创建的那个爬取的名称
这样就大功告成啦!
来源:https://blog.csdn.net/weixin_60414376/article/details/124023917


猜你喜欢
- NumPy广播(Broadcast),广播(Broadcast)是 numpy 对不同形状(shape)的数组进行数值计算的方式, 对数组的
- 本文实例讲述了ThinkPHP中url隐藏入口文件后接收alipay传值的方法。分享给大家供大家参考。具体方法如下:现在公司项目的需求变化多
- 程序很简单,主要是 mp3play 模块的应用import mp3play, timefilename = "Should It
- 简单低级的爬虫速度快,伪装度低,如果没有反爬机制,它们可以很快的抓取大量数据,甚至因为请求过多,造成服务器不能正常工作。而伪装度高的爬虫爬取
- 需求桌面临时文件较多时,直接删了不太放心,不删又显得很杂乱,故需要写一个脚本批量清理并备份这些鸡肋的文件。所以脚本需要具有以下功能1. 可以
- 布尔表示两值之一:True 或 False。 布尔值在编程中,通常需要知道表达式是 True 还是 False。可以计算 Python 中的
- 这篇文章主要介绍了python智联招聘爬虫并导入到excel代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习
- 前言:首先,笔者不是web安全的专家,所以这不是web安全方面专家级文章,而是学习笔记、细心总结文章,里面有些是我们phper不易发现或者说
- 我的操作系统为centos6.51 首先选择django要使用什么数据库。django1.10默认数据库为sqlite3,本人想
- 发现ie7的空格间距要比ie6/firefox/opera的都要宽一点。比如有时候排版的时候,我会采用简单的空格来分隔。<div&nb
- GeoPandas是一个基于pandas,针对地理数据做了特别支持的第三方模块。它继承pandas.Series和pandas.Datafr
- 一、python-yml文件读写使用库 :import yaml安装:pip install pyyaml示例:文件config2.ymlg
- 对于web开来说,用户登陆、注册、文件上传等是最基础的功能,针对不同的web框架,相关的文章非常多,但搜索之后发现大多都不具有完整性,对于想
- import wx import imagesclass DemoTaskBarIcon(wx.TaskBarIcon): &nb
- 一、js中导致undefined的几种情况:1、变量声明过但没有赋值;2、获取对象中不存在的属性时;3、函数需要实参,但是调用时没有传参,形
- 原始结构:Column1 Column2----------- ----------1 A1 B2 C2 D2 E3 F查询效果:Colum
- 本文实例讲述了MHA实现mysql主从数据库手动切换的方法,分享给大家供大家参考。具体方法如下:一、准备工作1、分别在Master和Slav
- 本文实例为大家分享了python遗传算法的具体代码,供大家参考,具体内容如下1、基本概念遗传算法(GA)是最早由美国Holland教授提出的
- order by 从英文里理解就是行的排序方式,默认的为升序。 order by 后面必须列出排序的字段名,可以是多个字段名。 &
- 大型网站为了缓解大量的并发访问,除了在网站实现分布式负载均衡,还会搭建服务器mysql集群技术,来分担主数据库的压力。在本地电脑能实现这样的