大数据学习
2023-05-19 16:59:57 1 举报
AI智能生成
大数据学习
作者其他创作
大纲/内容
大数据概述
大数据特点
数据体量巨大
数据类型繁多
价值密度低,商业价值高
处理速度快
大数据特征
全样而非抽样
效率而 非精确
相关而非因果
大数据的5个基础方面
可视化分析
数据挖掘算法
预测性分析能力
语义引擎
数据质量和数据管理
十大最热门的大数据技术
预测分析
NoSQL数据库
搜索和认知商业
流式分析
内存数据结构
分布式存储系统
数据可视化
数据整合
数据预处理
数据校验
中国大数据产业生态的总体状况概览
产业生态日趋成熟
大数据的产品和服务
数据分析挖掘
场景化解决方案
数据采集和预处理
数据可视化
数据的实际应用案例集中领域
金融
政府
电信
教育
医疗
商业交易营收低迷
大数据盈利最主要的三类模式
数据产品的直接销售
提供数据采集和预处理服务
构建平台撮合交易
数据价值落地仍需时间
大数据建设水平
互联网和金融行业持续领跑,大数据理念渗透和应用项目落地实施的程度最高
交通运输、医疗健康、公共管理、能源、制造和科教等行业的大数据应用处于中端
宿餐饮和农业等行业处于低端
企业形成对大数据项目费用的敏感性
一方面是由于项目实施成本高,这与自行建设分析平台和自行组织并培养数据分析团队有直接的关系
另一方面则是由于企业战略的模糊和企业组织结构变革滞后等原因的掣肘
大数据应用
案例分析
尿布与啤酒
淘宝促销时间
公交一人一座
行业应用
金融
本质是信用,评估贷款风险
电信
客户生命周期管理,客户关系化管理
健康
可穿戴设备,健康云帮助智能设备,帮助人们健康预测,打通数据,快速响应
媒体广告
更科学的媒介选择,效果评估服务等
零售服务
店址选择,天气数据加入物流模式
交通
交通管理,为保险公司提供风险评估
政府
自然源分析,舆情检测服务
智慧城市
智慧交通、智慧医疗、平安城市等
房地产
通过大数据平台挖掘潜在客户,精准营销服务
家居家电
智能摄像头家里发生的各种情况、食品购需,家里情况了解
技术体系
大数据生命周期
文件系统
HDFS(Hadoop)
Linux Ext4/NFS
数据管理
数据仓库(InfoBright)
Cassandra
PostGreSQL/Mysql
分结构化数据 全文检索
Elastic Search
业务计算
分布式技术(Spark)
机器学习
类sql检索
NLP处理API
数据订阅
ELK Lettle
业务规则引擎
流式实时计算(Storm)
分析工具
统计性分析
SPSS
SAS
R
数据挖掘
SPSS Modeler
Weka
可视化分析
TableAU
在线可视化
ECharts
D3
工具/语言
JAVA
Python
大数据技术生态
Hadoop生态体系
Ambari
Zookeeper
Hbase
Oozie
Hive
Pig
Mahout
MapReduce
HDFS
Sqoop
Flume
Spark生态体系
Spark提供强大的内存计算引擎
迭代计算
批处理计算
内存计算
流式计算(Spark Streaming)
数据查询分析计算(Shark)
图计算(GraphX)
应用框架
Scala
基于性能、兼容性、数据类型的研究
Shark
Phoenix
Apache Accumulo
Apache Drill
Apache Giraph
Apache Hama
Apache Tez
Apache Ambari
Apache Mesos
Apache 的YARN
Google 的Borg
腾讯搜搜的Torca
Facebook Corona
大数据采集与预处理
大数据采集来源
管理信息系统
Web信息系统
物理信息系统
科学实验系统
技术领域
管理信息系统中异构数据库集成技术
Web信息系统中的实体识别技术和DeepWeb集成技术
传感器网络数据融合技术
数据清洗和质量控制工具
Data Flux
Data Stage
Informatica Power Center
大数据存储与管理
按数据类型的不同,大数据的存储和管理采用不同的技术路线
大规模的结构化数据
半结构化和非结构化数据
结构化和非结构化混合的大数据
大数据计算模式与系统
典型大数据计算模式
大数据查询分析计算
批处理计算
流式计算
迭代计算
图计算
内存计算
大数据分析与可视化
因而与传统的OLAP相比较,基于机器学习的大数据分析具有自己独特的特点
迭代性
容错性
参数收敛的非均匀性
演变过程
传统的分布式计算框架MPI(message passing interface,信息传递接口)
MapReduce
Spark
参数服务器
可视化
大数据平台架构技术选型与场景运用
大数据平台内容
数据采集
数据存储
数据分析
数据源的特点
内部数据
外部数据
非结构化数据&结构化数据
不变可添加
可修改可删除
大数据量
数据存储的技术选型
舆情分析
商业智能产品
Airbnb的大数据平台
数据处理的分类
业务角度
查询检索
数据挖掘
统计分析
深度分析
技术角度
batch MapReduce
SQL
流式处理
Machine Learning
DeepLearning
编程模型
离线编程模型
内存编程模型
实时编程模型
大数据技术点
云计算
云服务
PaaS
SaaS
IaaS
Openstack
Docker
人工智能
机器学习
聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络
大数据处理框架
Spark
RDD
Spark SQL
Spark Streaming
MLLib
Hadoop
用户命令
Archive
创建一个Hadoop档案文件
distcp
能从hadoop文件系统并行复制大量数据,一般用于在两个HDFS集群中传输数据
fsck
运行HDFS文件系统检查工具
jar
运行jar文件,向Hadoop提交作业
特点
Scalable
Economical
Efficient
Reliable
HDFS(分布式文件系统)
分布式文件系统
NameNode
主节点
只有一个
接受用户操作请求
维护文件系统的目录结构
管理文件与block之间的关系,block与DataNode之间的关系
DataNode
从节点
有很多个
存储文件
文件被分成block存储在磁盘上
文件有多个副本
MapReduce(计算框架)
分布式计算框架
JobTracker
主节点
只有一个
接受呼呼提交的技术按任务
把计算任务分配给TaskTrackers执行
监控TaskTrackers的执行情况
TaskTracker
从节点
有很多个
执行JobTracker分配的计算任务
MR任务调度
FIFO批处理队列调度器
Capacity Scheduler 多用户容量调度器
FairScheduler 多用户公平调度器
Yarn(资源管理平台)
Pig(Piglatin 语句到 MapReduce 的映射)
Hive(数据仓库、提供SQL)
Mahout(机器学习算法的 MapReduce 实现库)
其他
Hbase
列式交互式数据库
Hive
MapReduce 的SQL工具
Mahout
数据挖掘工具
包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘’
Zookeeper
集群管理
Redis
分布式缓存
Flume
高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
Sqoop
与关系数据库交换数据
Kettle
ELK工具
ELK
ElasticSearch
Logstash
Kibana
Kafka
实时消息队列
Lucene
搜索引擎
Storm
实时计算系统
监控
grafana
influx
prometheus
数据分析挖掘
MATLAB
SPSS
SAS
数据可视化
R
D3.js
ECharts
Excle
zeppelin
hue
数据库
SQL Server
MySQL
MongoDB
Cassandra
Redis
SQLite
bsddb
HBase
编程语言
Python
R
Ruby
算法
一致性
paxos
raft
gossip
数据结构
栈、队列、链表
散列表
二叉树、红黑树、B树
图
常用算法
排序
插入排序
桶排序
堆排序
快速排序
最大字数组
最长公共子序列
最小生成树
最短路径
矩阵的存储和运算
0 条评论
下一页