linux环境不使用hadoop安装单机版spark的方法
作者:stpeace 发布时间:2023-08-06 06:00:28
标签:linux,hadoop,spark,安装
大数据持续升温, 不熟悉几个大数据组件, 连装逼的口头禅都没有。 最起码, 你要会说个hadoop, hdfs, mapreduce, yarn, kafka, spark, zookeeper, neo4j吧, 这些都是装逼的必备技能。
关于spark的详细介绍, 网上一大堆, 搜搜便是, 下面, 我们来说单机版的spark的安装和简要使用。
0. 安装jdk, 由于我的机器上之前已经有了jdk, 所以这一步我可以省掉。 jdk已经是很俗气的老生常谈了, 不多说, 用java/scala的时候可少不了。
ubuntu@VM-0-15-ubuntu:~$ java -version
openjdk version "1.8.0_151"
OpenJDK Runtime Environment (build 1.8.0_151-8u151-b12-0ubuntu0.16.04.2-b12)
OpenJDK 64-Bit Server VM (build 25.151-b12, mixed mode)
ubuntu@VM-0-15-ubuntu:~$
1. 你并不一定需要安装hadoop, 只需要选择特定的spark版本即可。你并不需要下载scala, 因为spark会默认带上scala shell. 去spark官网下载, 在没有hadoop的环境下, 可以选择:spark-2.2.1-bin-hadoop2.7, 然后解压, 如下:
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc$ ll
total 196436
drwxrwxr-x 3 ubuntu ubuntu 4096 Feb 2 19:57 ./
drwxrwxr-x 9 ubuntu ubuntu 4096 Feb 2 19:54 ../
drwxrwxr-x 13 ubuntu ubuntu 4096 Feb 2 19:58 spark-2.2.1-bin-hadoop2.7/
-rw-r--r-- 1 ubuntu ubuntu 200934340 Feb 2 19:53 spark-2.2.1-bin-hadoop2.7.tgz
2. spark中有python和scala版本的, 下面, 我来用scala版本的shell, 如下:
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ bin/spark-shell
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
18/02/02 20:12:16 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/02/02 20:12:16 WARN Utils: Your hostname, localhost resolves to a loopback address: 127.0.0.1; using 172.17.0.15 instead (on interface eth0)
18/02/02 20:12:16 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Spark context Web UI available at http://172.17.0.15:4040
Spark context available as 'sc' (master = local[*], app id = local-1517573538209).
Spark session available as 'spark'.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.2.1
/_/
Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_151)
Type in expressions to have them evaluated.
Type :help for more information.
scala>
来进行简单操作:
scala> val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24
scala> lines.count()
res0: Long = 103
scala> lines.first()
res1: String = # Apache Spark
scala> :quit
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ wc -l README.md
103 README.md
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ head -n 1 README.md
# Apache Spark
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$
来看看可视化的web页面, 在Windows上输入: http://ip:4040
OK, 本文仅仅是简单的安装, 后面我们会继续深入介绍spark.
来源:https://blog.csdn.net/stpeace/article/details/79242999


猜你喜欢
- 高效管理服务器一直离不开有效的服务器管理技巧,笔者总结工作经验,提炼出3个小技巧,与读者共享。拒绝服务器重新启动一般情况下,在Windows
- AMH,这是一个由国人开发的LNMP/Nginx 虚拟主机面板,看到部落一直在测试各种VPS控制面板,有不少的朋友给我留言说可以测试和分享一
- Deluxe Plan主机怎样升级Zend呢?因为杰奇系统需要更高版本的ZEND,所以求教大家具体的安装步骤。 设置php4+Ze
- 我看了下,linux下的/proc/net/dev记录了每块网卡发送和接受的包和字节数。因此萌生想法,写了一个。运行效果: [root@74
- 在博客中留言不仅会引发众人的讨论,对于SEO也很有用。但是思亿欧这里指的不是通过大量注册博客,加自己网站链接。是用自己的站,参与到博客话题的
- 查看了一下博客的链接,发现有一些在博客文章中的链接也被计算在友情链接在内,不太清楚它们会不会影响页面的权重,索性将这些都加上了”extern
- 前言通过 Linux 上的日历,不仅仅可以提醒你今天是星期几。诸如 date、cal、 ncal 和 calendar 等命令可以提供很多有
- 自从建立了这个账号后写了一篇,好几年没来了,今天来看看,顺便分享一下.昨天晚上想玩玩zookeeper集群,在vb里复制了一台主机,可怎么也
- 问题描述调用并传参数给其他shell脚本,传的参数带有空格,被调用的shell脚本只取了这个参数的第一个单词。代码如下# 传参脚本 test
- 上次写了一篇关于PayPerPost的推介文章,但是那个方法虽然可以赚钱,但是不是很多,今天我就介绍下其主业务:用博客写英文评论赚钱。适合人
- DNS分为Client和Server,Client扮演发问的角色,也就是问 Server 一个Domain Name,而Server必须要回
- 404页面是当访问者输入了错误的地址或者访问了被删除的页面时,服务器返回的错误页面(404 HTTP 状态代码),就像现在你看到的一样。这个
- 如果你已经是google adsense内容发布商,登录帐户后台后可以看到每个月初由google adsense发送的优化建议(如“2007
- 马云收购口碑网,互联网江湖重现当年淘宝的烧钱令:碑2008年必须花掉多少亿,同时淘宝网在二手房等频道也给予口碑网巨大的流量支持。胆识胆识:胆
- 要做竞争对手分析,首先就是要确定竞争对手,已经存在的和潜在的竞争对手也许都盯着你。互联网上的竞争点很多体现在网站上,这里为大家整理了竞争对手
- 前段时间,看麦田博客有一篇文章在探讨mayi首页的功能问题,大意为:假设首页为一扇门,这扇门是敞开的好还是半掩着的好,敞开的门能让人一眼的看
- Web和FTP服务器创建好之后,还需要进行适当的管理才能使用户的信息安全有效的被其他访问者访问。Web和FTP 服务器的管理基本相同,包括一
- 你完全不必耐心看完所有内容:简要安装说明如下安装http://sourceforge.net/projects/awstats/ 下载安装包
- 1.问题描述出于安全考虑,新搭建的服务器集群只开放指定几个端口,但是端口开放以后依然无法远程访问,后经过查找问题发现是防火墙需要对端口进行开
- Godaddy主机用户可以为其Linux共享托管帐户里的每个目录设置多个不同的目录许可。这样就可以控制哪些人能访问你的文档,他们在这些目录里