数据湖应用架构图_数据湖功能架构图_数据湖系统功能架构图
2022-12-29 10:28:25 6 举报
数据湖应用架构图主要分为数据湖应用架构图、数据湖功能架构图、数据湖系统功能架构图、数据湖整体架构图等。 数据湖是传统数据仓库概念在源类型、处理类型和用于业务分析解决方案的结构方面的高级版本。数据湖主要通过云实现,采用多种数据存储和数据处理工具进行架构,基于管理服务的服务...
作者其他创作
大纲/内容
图片库
Mysql 5.7
指标服务
渠道系统
数据模型管理
应用集市区
数据资产价值变现
非结构化数据转化
共享服务管理
临时库
数据运营中心
运营考核评价
影像识别
关系数据库
离线数据处理
数据挖掘
接口共享服务
运营可视化
数据统一门户
标准规范体系
数据库一主两从
文件共享服务
数据治理中心
库表共享服务
管理驾驶舱
物联网数据
Docker云平台
存储计算平台
JVM
数据产品服务
用户画像
数据生命周期管理
业务赋能
数据源
指标库
文本识别
同一用户/权限
财务系统
产能预测
当票人
ODS库
实时数据同步
语音识别
汇聚区
数据统一调度
互联网数据
风险审计
分布式文件系统
数据产品管理
数据标准管理
数据层
AI中心
基础区
分析区
数据检索服务
业务系统
内存数据库
平台管理
注册
运行环境
实时分析
经营分析
主数据
共享服务保障
共享审计
实时指标计算
互联网云服务器
数据运营维护
数据沙箱服务
Redis 6.25
语义解析
营销管理
机器分析
多维分析
应用集成
QA
运维保障体系
一、数据湖与数据仓库的概念1,什么是数据湖?数据湖定义将其解释为高度可扩展的数据存储区域,以原始格式存储大量原始数据,直到需要使用为止。数据湖可以存储所有类型的数据,对帐户大小或文件没有固定限制,也没有定义特定用途。数据来自不同的来源,可以是结构化的、半结构化的,甚至是非结构化的,数据可按需查询。数据湖的核心概念是允许收集和存储大量数据而无需立即处理或分析所有数据。 数据湖的最终用户是数据科学家和工程师。2,什么是数据仓库?数据仓库是从广泛的运营和外部数据源中积累的组织数据的大型存储库。数据经过结构化、过滤并已针对特定目的进行处理。数据仓库会定期从各种内部应用程序和外部合作伙伴系统中提取处理过的数据,以进行高级查询和分析。大中型企业使用数据仓库是基于跨部门特定的数据库共享数据和内容。数据仓库的目的可以是存储有关产品、订单、客户、库存、员工等的信息。数据仓库的最终用户是企业家和商业用户。接下来,让我们来了解一下 数据湖和数据仓库的类型。二、数据湖与数据仓库类型的区别1,数据湖的类型数据湖的类型可以是结构化、非结构化、半结构化和二进制等。(1)结构化:包含来自关系数据库的结构化数据,即行和列(2)非结构化:包含来自电子邮件、文档、PDF 的非结构化数据(3)半结构化:包含半结构化数据,如 CSV、日志、XML、JSON(4)二进制:包含图像、音频、视频2,数据仓库的主要类型(1)企业数据仓库 (EDW) :这种类型的数据仓库充当帮助企业内决策支持服务的主数据库。EDW 提供对跨组织信息的访问,一种数据表示的集成方法,并且可以运行复杂的查询。(2)操作数据存储 (ODS):ODS 实时刷新并用于运行例行任务,包括存储员工记录。存储在这里的数据可以被清理,冗余检查和解决。它还可以用于整合来自不同来源的对比数据,以便业务运营、分析和报告能够顺利运行。(3)数据集市:数据集市是数据仓库的子集,因为它存储特定部门、地区或业务单位的数据。数据集市有助于增加用户响应并减少分析数据量。此处的数据存储在 ODS 中,然后ODS将其发送到 EDW,并在其中存储和使用。接下来,让我们讨论一下数据湖与数据仓库工具之间的差异。三、数据湖工具与数据仓库工具的区别1、数据湖工具Hadoop 分布式文件系统 (HDFS) 等大数据技术用于增强数据湖对分析的影响。HDFS 对任何类型结构的海量数据都表现出轻松的适应性和可扩展性。此外,Hadoop通过将结构化视图应用于原始数据来支持数据仓库场景。这种灵活性使Hadoop成为向每一层业务用户提供数据和洞察力的绝佳选择。例如,亚马逊 (Amazon S3)、微软 (Azure Data Lake) 和谷歌 (Google Cloud Storage) 等许多公司都在为数据湖管理中的存储技术提供云端托管服务。市场上评价最高的数据湖工具有如下几款:(1)Azure Data Lake Storage:创建单一、统一的数据存储空间。该工具提供了先进的安全设施、准确的数据身份验证以及对特定角色的有限访问,适合大规模查询。(2)AWS Lake Formation:提供了一个非常简单的解决方案来设置数据湖。与基于 AWS 的分析和机器学习服务无缝集成。该工具创建了一个细致的、可搜索的数据目录,其中包含用于识别数据访问历史记录的审计日志。(3)Qubole:这个数据湖解决方案以开放格式存储数据,可以通过开放标准访问。主要功能包括提供临时分析报告,结合数据管道以实时提供统一的洞察力。(4)Infor 数据湖:从不同来源收集数据并将其摄取到一个结构中,该结构立即开始从中获取价值。由于智能编目,存储在这里的数据永远不会变成沼泽。(5)智能数据湖:此工具可帮助客户从基于 Hadoop 的数据湖中获得最大价值。底层 Hadoop 系统确保用户不需要太多编码即可运行大规模数据查询。由于所有这些差异,组织通常需要两个数据湖来利用大数据,同时仍需要数据仓库用于分析。
保障体系
租户管理
MongoDB 2.6
主数据管理
用户管理
实时数据存储
统计分析
三方QMS
爬虫
HR系统
数据分析平台
数据处理平台
外部数据
ERP
客户营销
数据资产价值评估
用户分析
即席分析
MPP
财务分析
图像识别
数据质量管理
分布式数据缓存
数据汇聚平台
Hadoop 2.x
数据需求管理
标签服务
共享服务引擎
实时分析处理
数据资产营销推广
对象库
共享检测
知识图谱服务
实时数据处理
可信计算服务
主题区
Hadoop
离线数据同步
图片、文件存储
数据资源目录管理
财务
数据共享交换
数据共享开放平台
资金管理
发布
多方安全计算服务
元数据管理
数据资源中心
数据安全管理
数据服务中心
标签库
私有云服务器
绩效考核
认证
权鉴
安全保障体系
订阅
时序库
数据目录
......
监管报送
0 条评论
下一页