首页  思维导图  详情

大数据概述

2021-03-11 16:06:43   0  举报





仅支持查看

AI智能生成

zjj

知识管理

作者其他创作

大纲/内容

什么是大数据

概述

大数据（BIGDATA），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

大数据的特征

容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息；

种类（Variety）：数据类型的多样性；

速度（Velocity）：指获得数据的速度；

可变性（Variability）：妨碍了处理和有效地管理数据的过程。

真实性（Veracity）：数据的质量

复杂性（Complexity）：数据量巨大，来源多渠道

价值（value）：合理运用大数据，以低成本创造高价值

单位换算

1Byte = 8bit

1K=1024KByte

1MB = 1024K

1G = 1024MB

1T =1024G

1PB = 1024TB

学习路线

JAVA 面向对象编程语言

Linux 类Unix操作系统

Hadoop生态圈

HDFS 解决存储问题

MapReduce 解决计算问题

Yarn 资源协调者

Zookeeper 分布式应用程序协调服务

Flume 日志收集系统

Hive 基于Hadoop的数仓工具

HBase 分布式、面向列的开源数据库

Sqoop 数据传递工具

Scala 多范式编程语言、面向对象和函数式编程的特性

Spark 目前企业常用的批处理离线/实时计算引擎

Flink 目前最火的流处理框架、既支持流处理、也支持批处理

Elasticsearch 大数据分布式弹性搜索引擎

离线/实时项目

专业技能

1.熟练使用Hadoop,熟悉相应的常用工作流程与工作机制根据业务需求完成M/R的开发

2、熟悉HBase的存储原理，掌握HBase的常用操作

3.熟练使用SparkCore、SparkSal以及SparkStreaming的进行开发

4.掌握Spark工作原理与Spark调优

5.熟悉Hive工作原理，能够使用Hive进行海量数据的查询清洗分析计算

6.熟悉Kafka消息队列的工作机制熟练掌握Kafka生产者、消费者的使用

7.熟练使用Flume实现监听、上传、清洗，理解Flume框架的原理

8.理解Zookeeper的存储原理，会配置Zookeeper集群，以及常用API操作

9.熟练使用Linux操作命令，系统性能分析。Crontab定时任务脚本、集群群起脚本

10熟悉Redis数据库，掌握Redis五大数据结构操作、持久化、事务控制、主从复制

11.熟练掌握MySQL日常操作，掌握Sql的性能调优

12掌握Scala的基本使用，可以使用Scala进行Spark开发

 收藏

立即使用

大数据概述

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多

