数据处理流程
2019-05-13 14:34:26 7 举报
大数据平台数据流程
作者其他创作
大纲/内容
文件上传系统
机器学习
交互式分析
ES
数据提供方式
BO报表
业务库
fine Report
支持对数据增删改查灵活方便,使用门槛低稳定,开发门槛低相关技术文档和支持多
不适合2C的场景
kafka
T+1数据
支持海量数据查询支持复杂逻辑查询未来开发成本低
echarts
sql
hive
需要on spark来提升性能spark需要on yarn来分配资源条件复杂时查询性能比较慢数据更新困难
spark
优点
分布式计算
数据管道,数据库,文件系统等
报表系统
fineBI
高可用场景事务型场景复杂条件查询
高速读写高并发读写
业务系统
数据
需要二次加工的数据
redis
非实时场景
组件
查询性能上限最高支持海量数据查询字段扩展性极好数据更新
python
特别复杂的关联查询
ETL
dataX
hdfs
只能批量获取数据,不能直接查询,对于数据需要二次开发消耗大量的IO资源
容错差,不具备恢复能力动态扩容难部分数据可能会丢失需要持久化动作
实时数据同步
hbase
数据,报告,工具
分布式存储
批量获取数据安全稳定
流式计算
zeppelin
无法支持大数据量复杂查询
实时数据交换
数据量比较小,数据成长缓慢的场景
sparkstreaming
mysql
读写速度非常快
建模
大数据量场景
不适用场景
对于复杂查询支持度比较低难以驾驭,开发成本高运维成本高
缺点
分析系统
适合做分析场景
实时数据
手工文件
能力
mllib
数据量增加,读写性能会下降数据更新消耗资源
复杂条件查询
正则表达式
可能会有消息积压问题数据恢复复杂
支持海量数据秒级查询支持复杂查询字段扩展性好
数据处理
手工数据
根据固定字段查询字段变更频繁
适用场景
excel
适合做查询场景
系统
0 条评论
下一页