MAC下Anaconda+Pyspark安装配置详细步骤
作者:Sun_Sherry 发布时间:2021-02-11 18:15:51
在MAC的Anaconda上使用pyspark,主要包括以下步骤:
在MAC下安装Spark,并配置环境变量。
在Anaconda中安装引用pyspark。
1. MAC下安装Spark
到Apark Spark官网上下载Spark文件,无论是windows系统,还是MAC系统,亦或者Linux系统,都可以下载这个文件(独立于系统)。
将下载的文件进行解压(可以使用命令行进行解压,也可以使用解压软件)。解压之后的文件如下:
配置环境变量。打开MAC命令行窗口,输入如下命令:
sudo vi ~/.bash_profile #bash_profile是当前用户的环境变量文件
打开bash_profile文件,并在该文件中增加以下两行命令:
export SPARK_HOME="/Users/sherry/documents/spark/spark-3.1.2-bin-hadoop2.7" #spark文件的完整解压目录
export PATH=${PATH}:${SPARK_HOME}/bin
如下图
保存并退出之后,运行以下命令:
source ~/.bash_profile #让修改的bash_profile生效
echo $PATH #查看环境变量,可以看到新增的路径名
一般MAC上使用的是zsh的shell工具,需要修改zshrc文件来使环境变量永久生效(若不修改该文件,在命令行中输入spark- shell或者pyspark时可能会提示zsh:command not found:pyspark 或 zsh:command not found spark-shell )。输入以下命令:
vi ~/.zshrc
修改该文件,添加如下命令:
if [ -f ~/.bash_profile ]; then
source ~/.bash_profile
fi
保存并退出即可。下面来验证spark是否正确安装,具体如下:
(1)命令行中输入spark-shell
(2)命令行中输入pyspark
至此,spark已经安装成功。
2.在Anaconda中引用pyspark
想要在Anacond中使用pyspark, 只需将spark解压文件中python文件夹下的pyspark复制到Anaconda下的site-packages文件中。下面来验证一下是否能在spyder中使用pyspark, 使用如下代码:
from pyspark import SparkContext, SparkConf
if __name__ == "__main__":
spark_conf = SparkConf()\
.setAppName('Python_Spark_WordCount')\
.setMaster('local[2]')
#使用spark最原始的API进行数据分析
sc = SparkContext(conf=spark_conf)
sc.setLogLevel('WARN')
print (sc)
# ------创建RDD,需要分析的数据 --------------------------------------
def local_rdd(spark_context):
datas = ['hadoop spark','hadoop hive spark','hadoop hive spark',\
'hadoop python spark','hadoop python spark',]
return spark_context.parallelize(datas)
rdd = local_rdd(sc)
print (rdd.count())
print (rdd.first())
sc.stop()
运行发现提示如下错误:
从提示信息可以知道,找不到SPARK_HOME。可以在上述主函数中增加如下代码:
import os
#添加spark安装目录
os.environ['SPARK_HOME'] ='/Users/sherry/documents/spark/spark-3.1.2-bin-hadoop2.7'
重新运行即可得到如下结果:
5
hadoop spark
来源:https://blog.csdn.net/yeshang_lady/article/details/121570361


猜你喜欢
- super 的工作原理如下:def super(cls, inst): mro = inst.__class__.mro() &
- 在SQL Server 2008 中,新的FILESTREAM 数据类型,允许像文件和图片这种大型的二进制数据可以直接在NTFS文件系统中进
- With语句是什么?有一些任务,可能事先需要设置,事后做清理工作。对于这种场景,Python的with语句提供了一种非常方便的处理方式。一个
- 前言在日常开发中 动画是必不可少的一部分 不仅能让元素直接的切换显得更加自然 同时也能极大的增强用户体验 因此 在Vue之中也提供了非常强大
- osql 工具是一个 Microsoft Windows 32 命令提示符工具,您可以使用它运行 Transact-SQL 语句和脚本文件。
- 我们在使用Golang时,不可避免会遇到异常情况的处理,与Java、Python等语言不同的是,Go中并没有try...catch...这样
- 在应用SA-FileUp时,必须确认用户已对目的路径有读、写、删除的权力。在多文件上传中,由于浏览器不支持SIZE= 属性,所以对多文件的情
- 结果然后直接放源码:import cv2 as cvsource = cv.imread("zhaopian.jpg")
- D:document 文档 浏览器加载的页面 DOM O:object 对象 页面及页面中的任何元素都是对象 M:module 模型 页面中
- 本程序将使用字典来构建有向无环图,然后遍历图将其转换为对应的Excel文件最终结果如下:代码:(py3) [root@7-o-1 py-da
- 一、MySQL中的日期时间类型MySQL中常用的几种时间类型有:date、datetime、time、year、timestampdatet
- 理解切片基本用法:首先需要明白,可迭代对象,按照正数索引(正序)是从0开始的,按照负数索引(逆序)是从-1开始的。>>>
- 注:以String类型为例一.导出redis某个库的数据import redisimport jsonfile_path = "w
- 在DOS界面运行python的py文件我用的Notepad++编写代码,编写完后需要在DOS界面运行打开DOS界面按键盘上的WIN+R,输入
- 本文实例讲述了Python实现获取照片拍摄日期并重命名的方法。分享给大家供大家参考,具体如下:python获取照片的拍摄日期并重命名。不支持
- 本文将介绍如何在 web 框架 Django 中使用可视化工具 Pyecharts, 看完本教程你将掌握几种动态展示可视化数据的方法!Dja
- 程序运算时往往需要数据,而数据的IO又往往需要时间传输,而常见的串行处理,是一个任务处理完成才接着处理新的任务, 其效率低下可想而知。 假如
- 本文实例为大家分享了Echarts单条折线可拖拽的具体代码,供大家参考,具体内容如下1、步骤:  
- FLV在线转换,是目前主流播客网上通用的一种视频解决方案需要用到的组件 ASPExecmencoderffmpeg.exe第一步骤: 在线转
- MySQL 非空约束(NOT NULL)指字段的值不能为空。对于使用了非空约束的字段,如果用户在添加数据时没有指定值,数据库系统就会报错。可