大数据平台构建体系
2020-12-23 18:10:11 4 举报
AI智能生成
大数据平台构建体系
作者其他创作
大纲/内容
大数据管道
数据采集
关系数据库SQL定时采集
实时库代理接口定时采集
应用服务系统文件日志实时监听采集
应用客户端系统嵌入式代码实时监听采集
数据暂存
Java程序模拟暂存
Java 非阻塞队列
本地临时缓存
内存数据库暂存
Redis
Cassandra
消息服务暂存
RabbitMQ
AMQ/JMS协议
ActiveMQ
分区日志暂存
Kafka
超大规模流式数据计算
管道处理
流处理
复合事件处理
SQL事件
窗口事件
MQ事件
API事件
流分析
速率监测
窗口均值
指标趋势检测
维护物化视图
关系数据库与搜索引擎同步维护
关系数据库与数据仓库同步(ETL)维护
关系数据库与内存数据库同步维护
关系数据库与Hadoop/HDFS同步维护
流搜索
Kafka队列搜索
Java 队列搜索
RabbitMQ队列搜索
ActiveMQ搜索
事件推理
分布式时钟维护
事件时间与处理时间精确记录
窗口计算支持
数据流滚动窗口
数据流跳动窗口
数据流滑动窗口
数据流会话窗口
分布式一致性
顺序保证
序列号顺序
全序广播
分布式事务与共识
两阶段提交
容错共识
共识算法
拜占庭
Paxos
zookeeper
大数据分析
数据清洗
文本过滤
正则表达式过滤
Logstash正则过滤
Kafka streams 正则过滤
Spark streaming 正则过滤
Redis 正则过滤
MapReduce正则过滤
脚本解释过滤
Python脚本过滤
Groovy过滤
过滤反转
Java过滤控制反转
Python过滤控制反转
采样
频率
窗口滑动采样
窗口跳动采样
定时采样
连续采样
降噪
百分比降噪
均值降噪
中间值降噪
阀值降噪
初始化模型
算法输入模型构建
业务原子模型构建
图数据模型构建
数据图谱
顶点:设施、地点与时间
边:工业状态数据、时间窗口变化、设备网络
度量参数
聚集系数
传递比
图数据查询
Cypher查询
SQL查询
预测分析
排序
二次排序
TOP 10
反转排序
左外连接
移动平均
预测
马尔可夫模型
K-均值聚类
K-邻近KNN
朴素贝叶斯
皮尔逊相关系数
线性回归
大数据治理
数据风险管理
数据源风险
数据源故障影响控制
不良数据源影响控制
数据源版本升级影响控制
数据传递保证
传递次数
延迟探测
传递确认
数据保护
外部攻击
内部滥用
平台健壮性
可靠性
硬件故障
硬件冗余
软件容错机制
软件故障
错误输入控制
失控进程隔离
测量、监控并分析生产环境
允许进程崩溃重启
人为错误
最小化犯错设计
常见错误解耦
快速恢复机制
可扩展性
负载
垂直扩展支持
水平扩展支持
性能
吞吐量监测
延迟与响应监测
指标
算术平均值
百分位点
中位数
高百分位点(尾部延迟)
头部阻塞(排队延迟)
可维护性
维护开销
修复漏洞
保持正常运行
失效跟踪
适配新资源
新数据类型修改
添加新功能
数据模型管理
注册
路由
采样
访问控制
授时
元数据捕获
转换逻辑
聚合与分解
数据访问模式
大型扫描批处理作业
大规模流处理作业
大数据应用与存储
存储
场景需要
数据立方体/搜索引擎
Elasticsearch
Solr
大型扫描作业
Hadoop/HDFS
高可变性
Redis
随机访问
时间序列
查询方式
API
Elasticsearch API
Spark API
MapReduce API
HBase API
Redis API
Spring Data
SQL-on-Hadoop
Apache Hive
Apache Drill
Apache Tajo
Spark SQL
应用
趋势预测
查询平台
聚合统计
决策辅助
监测预警
关联/相似度
轨迹跟踪
收藏
收藏
0 条评论
下一页