PyCharm搭建Spark开发环境的实现步骤
作者:白蛇仙人 发布时间:2022-05-21 04:21:17
1.安装好JDK
下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量:
新建系统变量JAVA_HOME,值为Java安装路径
新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点)
配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin
在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。
2.安装Hadoop,并配置环境变量
下载hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
解压hadoop-2.7.7.tar.gz特定路径,如:D:\adasoftware\hadoop
添加系统变量HADOOP_HOME:D:\adasoftware\hadoop
在系统变量PATH中添加:D:\adasoftware\hadoop\bin
安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin
3.Spark环境变量配置
spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。
下载对应hadoop版本的spark:http://spark.apache.org/downloads.html
解压文件到:D:\adasoftware\spark-2.4.3-bin-hadoop2.7
添加PATH值:D:\adasoftware\spark-2.4.3-bin-hadoop2.7\bin;
新建系统变量SPARK_HOME:D:\adasoftware\spark-2.4.3-bin-hadoop2.7;
4.下载安装anaconda
anaconda集成了python解释器和大多数python库,安装anaconda 后不用再安装python和pandas numpy等这些组件了。下载地址。最后将python加到path环境变量中。
5.在CMD中运行pyspark,出现类似下图说明安装配置正常:
出现这种warning是因为JDK版本为12,太高了,但是不影响运行。没有影响。
6.在pycharm中配置spark
打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”–>点击+创建新的python Configurations
选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。
SPARK_HOME:Spark安装目录
PYTHONPATH:Spark安装目录下的Python目录
选择 File->setting->你的project->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)
保存即可
7.测试是否配置成功,程序代码如下,创建一个python程序放进去就可以:
import os
import sys
# Path for spark source folder
os.environ['SPARK_HOME'] = "D:\adasoftware\spark"
# Append pyspark to Python Path
sys.path.append("D:\adasoftware\spark\python")
try:
from pyspark import SparkContext
from pyspark import SparkConf
print("Successfully imported Spark Modules")
except ImportError as e:
print("Can not import Spark Modules", e)
sys.exit(1)
若程序正常输出: "Successfully imported Spark Modules"就说明环境已经可以正常执行。
来源:https://blog.csdn.net/mudooo/article/details/94830879


猜你喜欢
- 在上一篇文章《深入理解 go Mutex》中, 我们已经对 go Mutex 的实现原理有了一个大致的了解,也知道了 Mutex 可以实现并
- ASP.NET利用它可以实现在线备份、还原数据库等各种功能。由于客户的数据库和WEB服务不再同一台服务器,把网站部署在服务器上以后,运行程序
- 一. 引言在数据分析和可视化领域,数据的有效呈现是至关重要的。Python作为一种强大的编程语言,提供了多种数据可视化工具和库。其中,Plo
- 段落已经讲完了,那么一些基本的应用方式也讲了一些,那么是否已经应用了呢?当然应用可以更为丰富,那么这些就需要自己在实际工作中不断的摸索与思考
- 一位资深的设计师曾经向我抱怨,说老板不仅让他做“设计”工作,还让他做“制作”工作,真是很烦。言下之意,“制作”还要一个资深设计师亲自上阵,未
- 一、利用xpath进行(全程使用)driver.find_element_by_xpath()二、代码部分与图片内容打开淘宝网站,点击登录,
- 优化前后新老代码如下:from git_tools.git_tool import get_collect_projects, QQNews
- 在二维卷积函数tf.nn.conv2d(),最大池化函数tf.nn.max_pool(),平均池化函数tf.nn.avg_pool()中,卷
- 在numpy的ndarray类型中,似乎没有直接返回特定索引的方法,我只找到了where函数,但是where函数对于寻找某个特定值对应的索引
- 01-初心缘由最近在研究语音识别方向,看了很多的语音识别的资料和文章,了解了一下语音识别的前世今生,其中包含了很多算法的演变,目前来说最流行
- 刚才好无聊,突然想起来之前做一个课表的点子,于是百度了起来。刚开始,我是这样想的:在写微信墙的时候,用到了urllib2【两行代码抓网页】,
- 每个进行过较大型的ASP-Web应用程序设计的开发人员大概都有如下的经历:ASP代码与页面HTML混淆难分,业务逻辑与显示方式绞合,使得代码
- Tuple 是不可变 list。 一旦创建了一个 tuple 就不能以任何方式改变它。Tuple 与 list 的相同之处定义 tuple
- Git简单介绍Git是一个分布式版本控制软件,最初由Linus Torvalds创作,于2005年以GPL发布。最初目的是为更好地管理Lin
- ♩ 背景昨天在自己的 Laravel5.5 框架项目中,希望集成 Layer 的图片上传功能 但是在 ajax(POST) 提交请求时,一直
- 一、安装Docker安装环境:系统:CentOS Linux7 x86_64安装脚本wget -qO- https://get.docker
- 本文实例为大家分享了mysql备份脚本,供大家参考,具体内容如下#!/bin/bash#全备方式,一般在从机上执行,适用于小中型mysql数
- 一个例子: print("Loading vgg19 weights...")vgg_mode
- sys模块 与 os包一样,也是对系统资源进行调用。功能同样也是非常丰富,接下来我们会对 sys模块的一些简单且常用的函数进行介绍,主要针对
- 1. python三维图表绘制方法简介python三维图表的绘制算是二维图表的一个进阶版本,本质上和二维图表的绘制并无差别,唯一的区别在于使