大数据导论
2024-12-25 13:47:33 0 举报
AI智能生成
巴拉巴拉
作者其他创作
大纲/内容
第6章 数据挖掘
6.1 什么是数据挖掘
定义:
数据挖掘(Data Mining,DM)又称为数据库中的知识发现(Knowledge Discovery from DataBase,KDD),是指从大量数据中提取隐含的、先前未知的、有价值的知识和规则。
数据挖掘过程由如下6个步骤组成:
数据清洗
数据集成
数据转换
数据挖掘
模式评估
知识表示
数据挖掘就是从数据库、数据仓库或其他信息资源库中发现有用的知识。
6.2 数据挖掘的对象与价值
6.2.1 数据挖掘的对象
关系型数据库
数据仓库
面向对象数据库
6.2.2 数据挖掘的价值
技术价值
商业价值
行业价值
第7章 数据可视化
第8章 大数据与云计算
第9章 大数据与人工智能
第1章 什么是大数据
1.1 人类信息文明的发展
1.2 大数据时代的来临
1.2.1 信息技术的发展
信息采集技术的不断完善和实时程度的不断提升
信息存储技术的不断提升
信息处理速度和处理能力的急速提升
信息显示技术的完备和日臻成熟
1.2.2 数据产生方式的变革
传统大型商业领域业务运营数据产生方式的变化
互联网时代数据产生方式的变化
物联网(ITO)加快了数据产生方式的变革
1.3 大数据的主要特征
1.3.1 大数据的数据特征
数据量巨大(Huge Volume)
数据类型繁多(Variety)
信息处理速度快(Veloicity)
价值密度低(Value)
1.3.2 大数据的技术特征
大数据时代的技术是开放性的
大数据时代的技术是平台化的
大数据时代的技术是基于新型的实验训练性质的数学算法实现的
大数据时代的技术最终目标是实现人工智能管理和机器人代工
1.4 大数据的社会价值
大数据为各个行业带来了行业规划和行业决策的整体升级及精准化
大数据为行业的整体发展注入更加公平和充沛的活力
大数据从实际意义上促进了信息技术产业与工业企业的深度融合
第2章 大数据技术基础
2.3 数据库
2.5 大数据系统
2.6 大数据数据类型
2.6.1 结构化数据
定义:结构化数据就是传统关系型数据库数据,也称作行数据,是由二维表结构来进行逻辑表达和实现的数据,严格地遵循数据格式与规范长度,主要通过关系型数据库进行存储管理。
2.6.2 半结构化数据
定义:半结构化数据和普通纯文本相比具有一定的结构性,相当于具有严格理论模型的关系型数据库的数据更灵活。
特征:
1、数据结构自描述性。
2、数据结构描述的复杂性。
3、数据结构描述的动态性。
2.6.3 非结构化数据
定义:非结构化数据一般指无法结构化的书库,如图片、文件、超媒体等典型信息,在互联网上的信息内容形式中占据了很大比例。
2.7 大数据应用的开发流程
1、提出商业需求并做出初步设想
2、根据需求确定必需的数据集
3、数据采集
4、数据预处理
5、数据分析和挖掘
6、大数据产品可视化
第3章 数据采集与预处理
3.1 大数据的来源
3.1.1 传统商业数据(结构化数据)
3.1.2 互联网数据
1、大量化
2、多样化
3、快速化
3.1.3 物联网数据
1、物联网中的数据量更大
2、物联网中的数据传输速率更高
3、物联网中的数据更加多样化
4、物联网对数据真实性的要求更高
3.2 数据的采集方式
3.2.1 系统日志的采集方法
1、Scribe
2、Chukwa
3、Flume
3.2.2 网页数据的采集方法
1、浏览器背后的网页
2、初始网络爬虫
3、爬虫的重要模块
采集模板
数据处理模板
数据模板
4、爬虫的基本工作流程
5、爬虫的网页抓取策略
3.2.3 其他数据的采集方法
3.3 数据预处理
3.3.1 影响数据质量的因素
1、大数据处理环节对数据质量的影响
2、评估数据质量的标准
准确性
完整性
一致性
及时性
可信性
可解释性
重复性
关联性
3.3.2 数据预处理的目的
总体目的:为进行后续的数据发掘工作提供可靠和高质量的数据,缩小数据集规模,提高数据抽象程度和数据挖掘效率
主要任务:数据清洗、数据集成、数据变换、数据归纳
3.3.3 数据预处理的流程
1、数据清洗
(1)处理空缺值
忽略元组
人工填写空缺值
用全局变量替换空缺值
用属性的中心度量(如均值或中位数)填充空缺值
使用与给定元组属同一类的所有样本的属性的中心度量填充
使用最可能的值填充缺失值,可以使用回归、贝叶斯或决策树等方法来确定缺失值
(2)消除噪声数据
分箱法
回归法
聚类法
2、数据集成
数据集成过程中需要处理的问题主要分为以下3类
(1)实体识别问题
(2)冗余问题
(3)数据冲突的检测与处理
3、数据变换
数据变换策略包括如下几种:
(1)平滑
(2)属性构造(或特征构造)
(3)聚集
(4)离散化
(5)规范化
4、数据归纳
数据归纳的策略有如下几种
(1)数据立方体归纳
(2)属性子集选择
(3)数据压缩
(4)数据规约
(5)离散化和概念分层
第4章 大数据存储与管理
4.1 数据存储概述
4.1.1
4.1.2 数据的存储模式
附加直接模式(Direct-Attached Storage,DAS)
附加网络模式(Network-Attached Storage,NAS)
存储区域模式(Storage Area Network,SAN)
4.2 大数据时代的存储管理系统
4.2.3 数据库
关系型数据库
非关系型数据库
键-值数据库
列族数据库
文档数据库
图形数据库
4.2.4 键-值数据库
优点:在键已知的情况下查找内容,键-值数据库的访问速度比关系型数据库快好几个数量级。
缺点:在键未知的情况下查找内容,键-值数据库的访问速度是非常糟糕的。
4.2.10 云存储
特点:
(1)存储管理可以实现自动化和智能化,所有的存储资源被整合到一起,客户看到的是单一存储空间。
(2)云存储通过虚拟化技术解决了存储空间的浪费问题,可以重新自动分配数据,提高存储空间的利用率,同时具备负载均衡、故障冗余功能。
(3)云存储能够实现规模效应和弹性扩展,降低运营成本,避免资源浪费。
优点:
(1)节约成本
(2)更好地备份数据并可以异地处理日常数据
(3)访问更便捷
(4)提高竞争力
第5章 大数据计算框架
5.1 计算框架
5.1.1 (离线)批处理框架
特征:有界 持久 大量
5.1.2 (实时)流式处理框架
5.1.3 交互式处理框架
5.2 MapReduce(实现分布式的并行数据处理)
5.2.1 MapReduce编程的特点(借鉴分而治之的思想,将数据处理过程拆分为Map(映射)和Reduce(化简)两步)
开发简单
可拓展性强
容错性强
5.2.2 MapReduce的计算模型
1.输入
2.Map任务
3.Shuffle处理
4.Reduce任务
5.输出
5.2.3 MapReduce的资源管理框架
1、MRv1
计算框架:主从架构
支撑计算框架的进程是:
(1)JobTracker
(2)TaskTracker
2、YARN
3、MRv1与YARN的对比
5.3 Spark
5.3.1 Spark的基本知识
1.快速处理能力
2.易于使用
3.通用性强
4.可用性高
5.3.2 Spark的生态系统
1.Spark Core
2.Spark Streaming
3.Spark SQL
4.BlinkDB
5.MLlib
6.GraphX
5.3.3 Spark的架构与原理、
5.3.4 Spark RDD的基本知识
收藏
收藏
0 条评论
下一页