Mapreduce分布式并行编程
作者:王以太 发布时间:2023-04-30 02:43:16
1.什么是并行计算
传统并行计算:共享同一个数据,通过锁来控制数据的读写,难度大,容易导致死锁,拓展性差。但是是实时的,细颗粒度计算,计算密集型
Mapreduce:对机器的要求低,拓展性难,便宜,拓展性强,批处理场景,非实时,数据密集型(傻大)
map:分配工作任务给不同的人,并让其完成工作(工作相互独立,不互相为上下环节)
reduce:把不同的结果集合并 再加上分布式
2.现在mapreduce能做什么?
map:映射
1.如小写字母变成大写字母 map
2.把年龄小于16岁的都去掉 map
3.把美元变成人民币 y=x∗6.3y=x * 6.3y=x∗6.3 map
4.地址库的一个翻译:省市县 map
5.(只要是一些处理数据相关的,都应当是在map上)
reduce:做比较,工作整合,上下游
1.统计年薪最高的人 (一个组)key
2.按照男女计算平均年龄 (俩个组)key
3.排序 reduce
有些操作放在map、reduce里面都可以
a-------->a----->A
map--------- reduce ×
前提:尽量要减少数据的流动,reduce阶段数据越少越好,能在map做就在map做掉
数据SQL:
Select name ,age,gender from people where id =3
1.project(投射)map完成
Select name ,age,gender
2.filter(过滤)map完成
id=3
3.key(汇集)
如:Select avg(age),gender from peoplemap:age,gender ---project
key:gender(F,M) //分为man和femalereduce:按照key进行汇集 F(25,38,23),M(45,23)
reduce:avg
如:Select max(age),gender from people这里和上面差不多,但是就没有key了放在同一个地方
oss和hive的区别?
在文件系统上
实验部分:
1. 搭建各类环境
为了模拟真实情况,我这里搭建了分布式的hadoop集群,分别有三台机器。一台做master,一台做slave。
2. 搭建、配置zookeeper
3. 启动zookeeper
/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start
4. 安装配置java
5. 主从节点格式化
6. 启动集群
/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh
7. 安装Scala
8. 启动spark集群
/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh
9. jps查看已经启动的
来源:https://juejin.cn/post/7127482853495373831


猜你喜欢
- 一、关键字关键字:被Java语言赋予特定含义的单词。组成关键字的字母全部小写。注:goto和const作为保留字存在,目前并不使用。main
- 一、Servlet3.0异步请求@WebServlet(value = "/async", asyncSupported
- 本文实例讲述了Java实现接口的枚举类。分享给大家供大家参考,具体如下:一 点睛枚举类也可以实现一个或多个接口。与普通类实现一个或多个接口完
- java 出现Zipexception 异常的解决办法1 异常描述在从 SVN 检出项目并配置完成后,启动 Tomcat 服务器,报出如下错
- 之前看到过一个数字进度条,一直想写,今天就把这个实现下,想起来也是很简单的,先看下实现的效果:思路:绘制2根线 绘制进度条的文字,不断的改变
- 现在网上很多应用都是用二维码来分享网址或者其它的信息。尤其在移动领域,二维码更是有很大的应用场景。因为项目的需要,需要在网站中增加一个生成二
- 本文实例讲述了Android开发中的文件操作工具类FileUtil。分享给大家供大家参考,具体如下:package com.ymerp.an
- 简介相信大家有配置过多数据源,或者即将配置多数据的朋友们,会发现网上大概有以下几种方案:1. 使用 AOP 切片进行动态数据源切换2. 使用
- 我们在设计layout的时候,使用Split视图,就是左侧是代码,右侧是设计图,但是我们忽视了最上方的工具栏,这里才是真正的宝藏。下面教大家
- 一、连接客户端原理流程图二、功能要求1)连接成功后,可以将服务器发来的消息不停地显示在 listbox 中;2) 客户端要发给服务器的数据,
- 前言定义一个工厂类,他可以根据参数的不同返回不同类的实例,被创建的实例通常都具有共同的父类在简单工厂模式中用于被创建实例的方法通常为静态(s
- foreach拼接字符串查询无数据返回Mybatis-plus xml使用foreach遍历查询条件,填充IN函数时,查询不到数据入参 Li
- 定时的功能我们在手机上见得比较多,比如定时清理垃圾,闹钟,等等.定时功能在java中主要使用的就是Timer对象,他在内部使用的就是多线程的
- Spring Boot简介Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开
- 最新Spring Data JPA官方参考手册 Version 2.0.0.RC2,2017-07-25https://docs.sprin
- 一、HandlerThread的介绍及使用举例  
- 最近有个老项目想逐步将新业务的数据放到新的数据库,以前的业务还得连接以前的数据库,于是需要整合多数据源 。多数据源实际上是继承了Abstra
- IDEA全局替换通过快捷键 Ctrl+Shift+r 或这点击 Edit 》Find 》Replace In Path有些IDEA版本按了快
- volatile先看个例子class Test {// 定义一个全局变量 private boolean isRu
- C#如何安全、高效地玩转任何种类的内存之Span的本质一、what - 痛点是什么?回答这个问题前,先总结一下如何用C#操作任何类型的内存: