大数据概述
2021-03-11 16:06:43 0 举报
AI智能生成
zjj
作者其他创作
大纲/内容
什么是大数据
概述
大数据(BIGDATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程 优化能力的海量、高增长率和多样化的信息资产
大数据的特征
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量
复杂性(Complexity):数据量巨大,来源多渠道
价值(value):合理运用大数据,以低成本创造高价值
单位换算
1Byte = 8bit
1K=1024KByte
1MB = 1024K
1G = 1024MB
1T =1024G
1PB = 1024TB
1K=1024KByte
1MB = 1024K
1G = 1024MB
1T =1024G
1PB = 1024TB
学习路线
JAVA 面向对象编程语言
Linux 类Unix操作系统
Hadoop生态圈
HDFS 解决存储问题
MapReduce 解决计算问题
Yarn 资源协调者
Zookeeper 分布式应用程序协调服务
Flume 日志收集系统
Hive 基于Hadoop的数仓工具
HBase 分布式、面向列的开源数据库
Sqoop 数据传递工具
Scala 多范式编程语言、面向对象和函数式编程的特性
Spark 目前企业常用的批处理离线/实时计算引擎
Flink 目前最火的流处理框架、既支持流处理、也支持批处理
Elasticsearch 大数据分布式弹性搜索引擎
离线/实时项目
专业技能
1.熟练使用Hadoop,熟悉相应的常用工作流程与工作机制根据业务需求完成M/R的开发
2、熟悉HBase的存储原理,掌握HBase的常用操作
3.熟练使用SparkCore、SparkSal以及SparkStreaming的进行开发
4.掌握Spark工作原理与Spark调优
5.熟悉Hive工作原理,能够使用Hive进行海量数据的查询清洗分析计算
6.熟悉Kafka消息队列的工作机制熟练掌握Kafka生产者、消费者的使用
7.熟练使用Flume实现监听、上传、清洗,理解Flume框架的原理
8.理解Zookeeper的存储原理,会配置Zookeeper集群,以及常用API操作
9.熟练使用Linux操作命令,系统性能分析。Crontab定时任务脚本、集群群起脚本
10熟悉Redis数据库,掌握Redis五大数据结构操作、持久化、事务控制、主从复制
11.熟练掌握MySQL日常操作,掌握Sql的性能调优
12掌握Scala的基本使用,可以使用Scala进行Spark开发
0 条评论
下一页