浅谈Flink容错机制之作业执行和守护进程
作者:华为云开发者社区 发布时间:2021-02-28 07:58:25
一、作业执行容错
Flink 的错误恢复机制分为多个级别,即 Execution 级别的 Failover 策略和 ExecutionGraph 级别的 Job Restart 策略。当出现错误时,Flink 会先尝试触发范围小的错误恢复机制,如果仍处理不了才会升级为更大范围的错误恢复机制,具体可以看下面的序列图。
当 Task 发生错误,TaskManager 会通过 RPC 通知 JobManager,后者将对应 Execution 的状态转为 failed 并触发 Failover 策略。如果符合 Failover 策略,JobManager 会重启 Execution,否则升级为 ExecutionGraph 的失败。ExecutionGraph 失败则进入 failing 的状态,由 Restart 策略决定其重启(restarting 状态)还是异常退出(failed 状态)。
1.1、Task Failover策略
Task Failover策略目前有三个,分别是:RestartAll、RestartIndividualStrategy 和 RestartPipelinedRegionStrategy。
RestartAll: 重启全部 Task,是恢复作业一致性的最安全策略,会在其他 Failover 策略失败时作为保底策略使用。目前是默认的 Task Failover 策略。
RestartPipelinedRegionStrategy: 重启错误 Task 所在 Region 的全部 Task。Task Region 是由 Task 的数据传输决定的,有数据传输的 Task 会被放在同一个 Region,而不同 Region 之间没有数据交换。
RestartIndividualStrategy: 恢复单个 Task。因为如果该 Task 没有包含数据源,这会导致它不能重流数据而导致一部分数据丢失。考虑到至少提供准确一次的投递语义,这个策略的使用范围比较有限,只应用于 Task 间没有数据传输的作业。
1.2、Job Restart策略
如果 Task 错误最终触发了 Full Restart,此时 Job Restart 策略将会控制是否需要恢复作业。Flink 提供三种 Job 具体的 Restart Strategy。
FixedDelayRestartStrategy: 允许指定次数内的 Execution 失败,如果超过该次数则导致 Job 失败。FixedDelayRestartStrategy 重启可以设置一定的延迟,以减少频繁重试对外部系统带来的负载和不必要的错误日志。
FailureRateRestartStrategy: 允许在指定时间窗口内的指定次数内的 Execution 失败,如果超过这个频率则导致 Job 失败。同样地,FailureRateRestartStrategy 也可以设置一定的重启延迟。
NoRestartStrategy: 在 Execution 失败时直接让 Job 失败。
二、守护进程容错
Flink on YARN 的部署模式,关键的守护进程有 JobManager 和 TaskManager 两个,其中JobManager的主要职责协调资源和管理作业的执行分别为ResourceManager 和 JobMaster 两个守护线程承担,三者之间的关系如下图所示。
2.1、TaskManager 的容错
如果 ResouceManager 通过心跳超时检测到或者通过集群管理器的通知了解到 TaskManager 故障,它会通知对应的 JobMaster 并启动一个新的 TaskManager 以做代替。注意 ResouceManager 并不关心 Flink 作业的情况,这是 JobMaster 的职责去管理 Flink 作业要做何种反应。
如果 JobMaster 通过 ResouceManager 的通知了解到或者通过心跳超时检测到 TaskManager 故障,它首先会从自己的 slot pool 中移除该 TaskManager,并将该 TaskManager 上运行的所有 Tasks 标记为失败,从而触发 Flink 作业执行的容错机制以恢复作业。
TaskManager 的状态已经写入 checkpoint 并会在重启后自动恢复,因此不会造成数据不一致的问题。
2.2、ResourceManager 的容错
如果TaskManager通过心跳超时检测到 ResourceManager 故障,或者收到 zookeeper 的关于ResourceManager失去leadership通知,TaskManager会寻找新的 leader,ResourceManager 并将自己重启注册到其上,期间并不会中断 Task的执行。
如果JobMaster通过心跳超时检测到ResourceManager故障,或者收到 zookeeper 的关于 ResourceManager 失去 leadership 通知,JobMaster 同样会等待新的 ResourceManager 变成 leader,然后重新请求所有的TaskManager。考虑到 TaskManager 也可能成功恢复,这样的话 JobMaster 新请求的 TaskManager 会在空闲一段时间后被释放。
ResourceManager上保持了很多状态信息,包括活跃的 container、可用的 TaskManager、TaskManager 和 JobMaster 的映射关系等等信息,不过这些信息并不是 ground truth,可以从与 JobMaster 及 TaskManager 的状态同步中再重新获得,所以这些信息并不需要持久化。
2.3、JobMaster 的容错
如果 TaskManager 通过心跳超时检测到 JobMaster 故障,或者收到 zookeeper 的关于 JobMaster 失去 leadership 通知,TaskManager 会触发自己的错误恢复,然后等待新的 JobMaster。如果新的 JobMaster 在一定时间后仍未出现,TaskManager 会将其 slot 标记为空闲并告知 ResourceManager。
如果 ResourceManager 通过心跳超时检测到 JobMaster 故障,或者收到 zookeeper 的关于 JobMaster 失去 leadership 通知,ResourceManager 会将其告知 TaskManager,其他不作处理。
JobMaster 保存了很多对作业执行至关重要的状态,其中 JobGraph 和用户代码会重新从 HDFS 等持久化存储中获取,checkpoint 信息会从 zookeeper 获得,Task 的执行信息可以不恢复因为整个作业会重新调度,而持有的 slot 则从 ResourceManager 的 TaskManager 的同步信息中恢复。
2.4、并发故障
Flink on YARN 部署模式下,因为 JobMaster 和 ResourceManager 都在 JobManager 进程内,如果JobManager 进程出问题,通常是 JobMaster 和 ResourceManager 并发故障,那么 TaskManager 会按以下步骤处理:
按照普通的 JobMaster 故障处理。
在一段时间内不断尝试将 slot 提供给新的 JobMaster。
不断尝试将自己注册到 ResourceManager 上。
值得注意的是,新 JobManager 的拉起是依靠 YARN 的 Application attempt 重试机制来自动完成的,而根据 Flink 配置的 YARN Application:keep-containers-across-application-attempts行为,TaskManager 不会被清理,因此可以重新注册到新启动的 Flink ResourceManager 和 JobMaster 中。
三、总结
Flink 容错机制确保了 Flink 的可靠性和持久性,具体来说它包括作业执行的容错和守护进程的容错两个方面。在作业执行容错方面,Flink 提供 Task 级别的 Failover 策略和 Job 级别的 Restart 策略来进行故障情况下的自动重试。在守护进程的容错方面,在on YARN 模式下,Flink 通过内部组件的心跳和 YARN 的监控进行故障检测。TaskManager 的故障会通过申请新的 TaskManager 并重启 Task 或 Job 来恢复,JobManager 的故障会通过集群管理器的自动拉起新 JobManager 和 TaskManager 的重新注册到新 leader JobManager 来恢复。
来源:https://www.cnblogs.com/huaweiyun/p/14933597.html
猜你喜欢
- 事实上,我们一直在谈论的SNS网站并非真正的SNS网站,这些以WebGame来聚拢人气的网站最多只能算是社区——游戏社区,还没有真正上升到S
- 我先谈一下我的就爱车(www.9aiche.com),这个站是我的站兼职做宣传和优化,我不太懂程序优化也不是很懂所以就边学边用了,我自已的站
- linux下面的驱动虽然什么样的情形都有,但是dma驱动却并不少见。dma可以有很多的好处,其中最重要的功能就是能够帮助我们将数据搬来搬去,
- (1)http为默认的服务,不用设置 (2)ftp----/usr/lib/ftpAgentClusterServer Configurat
- 风雨变幻的2009年,风波不断的中国互联网世界,为了不在担心自己网站,为了早日脱离苦海,就买了款国外的主机,在众多的主机中,之所以选择ixw
- 10月16日早间消息,据香港媒体报道,腾讯控股(0700.HK)大股东南非传媒集团Naspers昨日在接受采访时表示,仍然深信腾讯未来增长潜
- 激进投资者卡尔·伊坎北京时间10月24日消息,据国外媒体报道,雅虎董事会成员卡尔·伊坎(Carl
- 概述微软的最新邮件系统Exchange server2007中新增加了一项服务:自动发现服务(auto discover service).
- 在Windows服务器系统中,每当服务器启动成功时,系统的C盘、D盘等都会被自动设置成隐藏共享,尽管通过这些默认共享可以让服务器管理维护起来
- 这里我们按照所需要的服务开放响应的端口。在2003系统里,不推荐用TCP/IP筛选里的端口过滤功能,譬如在使用FTP服务器的时候
- 中国雅虎这次先发制人,先于百度推出了雅虎统计,对决Google分析,而百度统计也即将上线,可以预计,未来中文网站统计领域将会发生巨大的变数。
- 众所周知,开启Gzip能极大地压缩文本数据的体积,可是有的主机上并没有安装Gzip模块(例如我现在使用的主机),因此不能通过写.htacce
- 1.代朋友问一下。 以前因为对政策不了解。 冒然做GG广告,被K了GG广告账户。 现在想"重新做人"。 可以么?有什么办
- 编者按:图形网络游戏鼻祖《万王之王》过去十年走过的历程,是中国网游发展史上的一面镜子。通过回顾它,我们能更清晰地还原过去所遇挫折与辉煌的本源
- 下面教给Godaddy用户电子邮件转发的设置步骤:第一、登陆AccountManger.第二、在MyProducts部分,点击Email/E
- 下载的地址:http://java.sun.com/products/archive/j2se/1.4.2_06/index.html 第一
- 12月2日消息, 56网近日宣布推出广告分成系统,视频内容方加入该系统,可以分享视频广告收益。用户分享广告价值 有效解决版权争端此次56网推
- Dedecms还是比较不错的,当然,除了论坛的技术回复速度!!今天分享一个比较实用的关于循环调用子栏目及其内容列表的小代码,其实查看标签手册
- 写这篇文章的时候,我忽然感觉自己有点自负,我的网站才起步,基本没任何访问量,我也刚刚从心理上把个人建站作为我的一份职业,可以说在这方面我连初
- Apache是运行在Linux操作系统上的头号Web服务器。很多小地方都可以用来调整Apache的性能,并降低它对系统资源的影响。其中一个就