大数据基础平台技术架构图

2025-02-05 09:34:26 0 举报
该产品基于最新开源技术打造,内置多种存储计算引擎,并对包括Hadoop、Spark、Impala等在内的多个核心组件做了功能及性能增强,新增EasyEagle组件实现智能运维和任务治理,支持企业级安全管控。 NDH对开源组件进行封装和增强,包含NDHManager(Easyops)和众多组件,分别提供功能如下: • NDHManager:作为一站式的大数据运维管控平台,集成大数据中台组件、基础组件、实时计算等系列产品,提供统一部署、监控报警、服务管理等能力,让大数据生态应用起来更加快捷、方便。 • HDFS:分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。 • Alluxio:世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 • HDFSMeta Service:HDFS元数据分析服务。准实时解析HDFS元数据并基于此提供在线查询服务,业务可以查询指定路径的元数据信息、目录结构信息。 • HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式KV存储系统。 • EasyEagle:监控Yarn队列、任务资源利用率,提供任务全链路诊断功能提高问题诊断效率。 • Yarn:分布式资源管理系统,可以为各类应用程序进行资源管理和调度。 • Hive:基于 Hadoop 的一个数据仓库工具,可将结构化数据映射为一张数据库表,并提供 HQL(Hive SQL) 查询功能。底层数据存储在 HDFS 上。Hive 本质是将 SQL 语句转换为 MapReduce 任务运行。 • Spark:基于内存进行计算的分布式计算框架。提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。 • Flink:一个批处理和流处理结合的统一计算框架,提供数据分发以及并行化计算的流数据处理引擎。 • Impala:Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 • Kudu:分布式列式存储系统,主要用于大规模扫描查询,高吞吐量更新、写入场景。 • Elasticsearch:一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎, 基于RESTful web接口。 • Ranger:提供一个集中式安全管理框架,并解决授权和审计。它可以对Hadoop生态的组件如HDFS、YARN、HIVE等进行细粒度的数据访问控制。
智能运维
大数据基础架构
任务治理
实时计算
大数据开发
作者其他创作
大纲/内容
评论
0 条评论
下一页