首页  流程图  详情

spark

2016-02-01 17:48:10   2  举报





为你推荐

查看更多



spark

Spark是一个开源的大数据处理框架，它提供了一个快速、通用和易于使用的数据处理引擎。Spark基于内存计算，可以在秒级别内处理TB级别的数据。它具有强大的数据处理能力，可以支持多种数据处理任务，包括批处理、流处理、机器学习和图计算等。Spark的主要特点是其灵活性和可扩展性，用户可以轻松地在不同的应用场景中使用它。此外，Spark还提供了丰富的API和工具，使得开发人员可以快速地构建复杂的数据处理应用程序。总之，Spark是一个强大而灵活的大数据处理框架，适用于各种规模的企业和组织。

作者其他创作

大纲/内容

shell脚本和spark作业jar在集群运行sparek作业

访问，Hive中的表的数据，也就是user_visit_action、user_info表。

后台

和平台部署所在的linux机器封装了spark-submit命令的shell

在将任务信息保存到MySQL表中后，就会用Runtime、Process等API去执行一个封装了spark-submit命令的linux shell脚本。（提交之后就会设置task的开始时间）（如果监控到spark作业结束，那么就会设置task的结束时间）（同时会维护任务状态）

spark集群

linux机

前端页面

mysql(会将用户提交的任务信息插入到MySQL中的task表中去。)

任务运行结束后，点击对应的链接查看结果数据的展示图表和报表。封装成json格式