spark
2016-02-01 17:48:10 2 举报
Spark是一个开源的大数据处理框架,它提供了一个快速、通用和易于使用的数据处理引擎。Spark基于内存计算,可以在秒级别内处理TB级别的数据。它具有强大的数据处理能力,可以支持多种数据处理任务,包括批处理、流处理、机器学习和图计算等。Spark的主要特点是其灵活性和可扩展性,用户可以轻松地在不同的应用场景中使用它。此外,Spark还提供了丰富的API和工具,使得开发人员可以快速地构建复杂的数据处理应用程序。总之,Spark是一个强大而灵活的大数据处理框架,适用于各种规模的企业和组织。
作者其他创作
大纲/内容
shell脚本和spark作业jar在集群运行sparek作业
访问,Hive中的表的数据,也就是user_visit_action、user_info表。
后台
和平台部署所在的linux机器封装了spark-submit命令的shell
在将任务信息保存到MySQL表中后,就会用Runtime、Process等API去执行一个封装了spark-submit命令的linux shell脚本。(提交之后就会设置task的开始时间)(如果监控到spark作业结束,那么就会设置task的结束时间)(同时会维护任务状态)
spark集群
linux机
前端页面
mysql(会将用户提交的任务信息插入到MySQL中的task表中去。)
任务运行结束后,点击对应的链接查看结果数据的展示图表和报表。封装成json格式
提交一个创建任务的请求,进入任务创建页面填写任务参数,最后提交任务
0 条评论
回复 删除
下一页