0331故障
2018-04-10 11:51:57 0 举报
登录查看完整内容
test
作者其他创作
大纲/内容
晓鹏收到nm unhealthy报警
08:45
RM恢复正常
08:15
联系家恒查看队列资源是否有问题
04:50
简单总结:因Spark申请资源异常导致一个核心流程第一次执行失败,后切换Hive跑,由于hive需要更多的资源,且当前时间点的pending较高,同时RM性能下降,导致执行延迟,后来RM不可用,影响了一批流程,且RM不可用时间离大V承诺时间很近,导致流程执行变慢,重启RM修复,操作失误,造成hisserver异常,重跑了所有大V上游的出错和正在执行的任务,才执行成功。
说明:时间线以上为主要操作;时间线以下为故障 故障:1)Spark向RM注册时间长触发bug[SPARK-12142]导致资源申请异常;2)RM异常;3)historyserver异常
RMfull gc异常
06:48
收到RM探针电话报警确定问题
historyserver恢复
11:24
07:35
08:20
historyserver异常
08:26
家恒恢复夜间模式
重启RM完成解决问题
09:29
RM不可用
08:04
08:00
家恒第一次发现RM异常发现问题
处理完毕
联系天骁协助
07:27
重启historyserver
重启RM
王延收到用户电话
08:31
核心流程完成
10:24
立家Spark、hive双跑任务
RM可用,但性能下降
联系立家协助,并开始对任务持续加速
飞哥Cantor重跑失败任务
09:20
kill了所有的vip的超时但没有失败的任务重跑
09:47
时间线
03:30
Spark申请资源异常
07:20
误操作
10:15
王延对重跑任务加速
故障恢复
09:00
0 条评论
回复 删除
下一页