首页  思维导图  详情

大数据学习

2023-05-19 16:59:57   1  举报





AI智能生成

大数据学习

学习笔记

作者其他创作

大纲/内容

大数据概述

大数据特点

数据体量巨大

数据类型繁多

价值密度低,商业价值高

处理速度快

大数据特征

全样而非抽样

效率而非精确

相关而非因果

大数据的5个基础方面

可视化分析

数据挖掘算法

预测性分析能力

语义引擎

数据质量和数据管理

十大最热门的大数据技术

预测分析

NoSQL数据库

搜索和认知商业

流式分析

内存数据结构

分布式存储系统

数据可视化

数据整合

数据预处理

数据校验

中国大数据产业生态的总体状况概览

产业生态日趋成熟

大数据的产品和服务

数据分析挖掘

场景化解决方案

数据采集和预处理

数据可视化

数据的实际应用案例集中领域

金融

政府

电信

教育

医疗

商业交易营收低迷

大数据盈利最主要的三类模式

数据产品的直接销售

提供数据采集和预处理服务

构建平台撮合交易

数据价值落地仍需时间

大数据建设水平

互联网和金融行业持续领跑，大数据理念渗透和应用项目落地实施的程度最高

交通运输、医疗健康、公共管理、能源、制造和科教等行业的大数据应用处于中端

宿餐饮和农业等行业处于低端

企业形成对大数据项目费用的敏感性

一方面是由于项目实施成本高，这与自行建设分析平台和自行组织并培养数据分析团队有直接的关系

另一方面则是由于企业战略的模糊和企业组织结构变革滞后等原因的掣肘

大数据应用

案例分析

尿布与啤酒

淘宝促销时间

公交一人一座

行业应用

金融

本质是信用，评估贷款风险

电信

客户生命周期管理，客户关系化管理

健康

可穿戴设备，健康云帮助智能设备，帮助人们健康预测，打通数据，快速响应

媒体广告

更科学的媒介选择，效果评估服务等

零售服务

店址选择，天气数据加入物流模式

交通

交通管理，为保险公司提供风险评估

政府

自然源分析，舆情检测服务

智慧城市

智慧交通、智慧医疗、平安城市等

房地产

通过大数据平台挖掘潜在客户，精准营销服务

家居家电

智能摄像头家里发生的各种情况、食品购需，家里情况了解

技术体系

大数据生命周期

文件系统

HDFS（Hadoop）

Linux Ext4/NFS

数据管理

数据仓库（InfoBright）

Cassandra

PostGreSQL/Mysql

分结构化数据全文检索

Elastic Search

业务计算

分布式技术（Spark）

机器学习

类sql检索

NLP处理API

数据订阅

ELK Lettle

业务规则引擎

流式实时计算（Storm）

分析工具

统计性分析

SPSS

SAS

数据挖掘

SPSS Modeler

Weka

可视化分析

TableAU

在线可视化

ECharts

工具/语言

JAVA

Python

大数据技术生态

Hadoop生态体系

Ambari

Zookeeper

Hbase

Oozie

Hive

Pig

Mahout

MapReduce

HDFS

Sqoop

Flume

Spark生态体系

Spark提供强大的内存计算引擎

迭代计算

批处理计算

内存计算

流式计算(Spark Streaming)

数据查询分析计算(Shark)

图计算(GraphX)

应用框架

Scala

基于性能、兼容性、数据类型的研究

Shark

Phoenix

Apache Accumulo

Apache Drill

Apache Giraph

Apache Hama

Apache Tez

Apache Ambari

Apache Mesos

Apache 的YARN

Google 的Borg

腾讯搜搜的Torca

Facebook Corona

大数据采集与预处理

大数据采集来源

管理信息系统

Web信息系统

物理信息系统

科学实验系统

技术领域

管理信息系统中异构数据库集成技术

Web信息系统中的实体识别技术和DeepWeb集成技术

传感器网络数据融合技术

数据清洗和质量控制工具

Data Flux

Data Stage

Informatica Power Center

大数据存储与管理

按数据类型的不同，大数据的存储和管理采用不同的技术路线

大规模的结构化数据

半结构化和非结构化数据

结构化和非结构化混合的大数据

大数据计算模式与系统

典型大数据计算模式

大数据查询分析计算

批处理计算

流式计算

迭代计算

图计算

内存计算

大数据分析与可视化

因而与传统的OLAP相比较，基于机器学习的大数据分析具有自己独特的特点

迭代性

容错性

参数收敛的非均匀性

演变过程

传统的分布式计算框架MPI(message passing interface，信息传递接口)

MapReduce

Spark

参数服务器

可视化

大数据平台架构技术选型与场景运用

大数据平台内容

数据采集

数据存储

数据分析

数据源的特点

内部数据

外部数据

非结构化数据&结构化数据

不变可添加

可修改可删除

大数据量

数据存储的技术选型

舆情分析

商业智能产品

Airbnb的大数据平台

数据处理的分类

业务角度

查询检索

数据挖掘

统计分析

深度分析

技术角度

batch MapReduce

SQL

流式处理

Machine Learning

DeepLearning

编程模型

离线编程模型

内存编程模型

实时编程模型

大数据技术点

云计算

云服务

PaaS

SaaS

IaaS

Openstack

Docker

人工智能

机器学习

聚类

时间序列

推荐系统

回归分析

文本挖掘

决策树

支持向量机

贝叶斯分类

神经网络

大数据处理框架

Spark

RDD

Spark SQL

Spark Streaming

MLLib

Hadoop

用户命令

Archive

创建一个Hadoop档案文件

distcp

能从hadoop文件系统并行复制大量数据，一般用于在两个HDFS集群中传输数据

fsck

运行HDFS文件系统检查工具

jar

运行jar文件，向Hadoop提交作业

特点

Scalable

Economical

Efficient

Reliable

HDFS（分布式文件系统）

分布式文件系统

NameNode

主节点

只有一个

接受用户操作请求

维护文件系统的目录结构

管理文件与block之间的关系，block与DataNode之间的关系

DataNode

从节点

有很多个

存储文件

文件被分成block存储在磁盘上

文件有多个副本

MapReduce（计算框架）

分布式计算框架

JobTracker

主节点

只有一个

接受呼呼提交的技术按任务

把计算任务分配给TaskTrackers执行

监控TaskTrackers的执行情况

TaskTracker

从节点

有很多个

执行JobTracker分配的计算任务

MR任务调度

FIFO批处理队列调度器

Capacity Scheduler 多用户容量调度器

FairScheduler 多用户公平调度器

Yarn（资源管理平台）

Pig（Piglatin 语句到 MapReduce 的映射）

Hive（数据仓库、提供SQL）

Mahout（机器学习算法的 MapReduce 实现库）

其他

Hbase

列式交互式数据库

Hive

MapReduce 的SQL工具

Mahout

数据挖掘工具

包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘’

Zookeeper

集群管理

Redis

分布式缓存

Flume

高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统

Sqoop

与关系数据库交换数据

Kettle

ELK工具

ELK

ElasticSearch

Logstash

Kibana

Kafka

实时消息队列

Lucene

搜索引擎

Storm

实时计算系统

监控

grafana

influx

prometheus

数据分析挖掘

MATLAB

SPSS

SAS

数据可视化

D3.js

ECharts

Excle

zeppelin

hue

数据库

SQL Server

MySQL

MongoDB

Cassandra

Redis

SQLite

bsddb

HBase

编程语言

Python

Ruby

算法

一致性

paxos

raft

gossip

数据结构

栈、队列、链表

散列表

二叉树、红黑树、B树

图

常用算法

排序

插入排序

桶排序

堆排序

快速排序

最大字数组

最长公共子序列

最小生成树

最短路径

矩阵的存储和运算

 收藏

立即使用

教育平台

 收藏

立即使用

运营

 收藏

立即使用

CPA财务成本管理框架

 收藏

立即使用

《疯传》思维导图

银发书生

职业：本科

去主页





0 条评论

下一页

为你推荐

查看更多

