Hadoop核心知识思维导图模板_ProcessOn思维导图、流程图

算法

概述

指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制

程序 = 算法 + 数据结构

算法复杂度

概述

时间和空间都是计算机资源的重要体现

算法的复杂性体现在运行该算法时的计算机所需的资源

分类

空间复杂度

运行完一个程序所需内存的大小

程序执行时所需存储空间包括

固定部分

指令空间

代码

数据空间

常量、简单变量

可变空间

动态分配的空间

递归栈所需的空间

时间复杂度

执行这个算法所需要的计算时间，记作O(...)

一个算法执行所耗费的时间，从理论上是不能算出来的，必须上机运行测试才能知道

一个算法花费的时间与算法中语句的执行次数成正比例，哪个算法中语句执行次数多，它花费时间就多

时间频度

也称语句频度，一个算法中语句执行次数

记作T(n)

时间复杂度计算规则

1）不要常数项

2）只要高阶项，不要低阶项

3）不要高阶项系数

时间频度不同，但时间复杂度可能相同

例： T(n)=n^2+3n+4-->n^2+3n-->n^2 T(n)=4n^2+2n+1-->4n^2+2n-->4n^2-->n^2 时间复杂度都为O(n^2)

常见的时间复杂度

常数阶O(1)

对数阶O(logN)

线性阶O(n)

线性对数阶O(nlogN)

K次方阶O(n^k)

指数阶O(2^n)

阶乘O(n!)

指数阶O(n^n)

从上至下依次的时间复杂度越来越大，执行的效率越来越低 O(1)<O(logN)<O(n)<O(nlogN)<O(n^k)<O(2^n)<O(n!)<O(n^n)

时间复杂度去估算算法优劣的时候注重的是算法的潜力

时间和空间的取舍

注重时间复杂度

空间可以花钱解决

五大算法基本思想

分治

回溯

动态规划

分支

贪心

十大排序算法

比较类

交换排序

冒泡

描述

从位置0开始，当前位置数字和后面位置的数字进行比较如果前面的大于后面，数据交换将位置向后移动一位，重复第一个过程，直到最后一个重复刚才的过程

时间复杂度

O=n^2

快排

描述

选择一个数字作为参照物（基准数字）5 然后和另一个的进行比较如果是右边的小于5就交换，5左面的大于5就交换整体排序之后，5的位置是正确的，左右两个是无序将左右两个都当做一个新序列进行排序基准数

时间复杂度

O=nlogn

插入排序

插入

描述

假设原始数列是有序的每次向数列中插入一个数字，从右向左依次比较，找到合适的位置数列重新变为有序数列在向数列插入一个数字

时间复杂度 O=n^2

希尔

描述

将数据递归分组，首先分为长度/2组然后将第一个数字与1+zu进行插入排序经过第一次在整体排序后，小的数字很快会被移动到前面重新将数据分组，原来组/2 小的数字很快就会被移动到前面

时间复杂度O=nlogn

选择排序

选择

描述

假设第一个数字就是最大数字，记录他的索引然后和后面的数字进行比较如果后面的数字大于最大数字，重新记录新数字的索引直到最后一个数字，然后将最大数字索引与最后一个数字进行交换

时间复杂度 O=n^2

堆排

描述

任意节点最多有两个子节点左面的节点都小于父节点右面的节点都大于父节点

时间复杂度 O=nlogn

归并

描述

让两个有序队列进行比较，然后每个队列依次取出1个数字比较然后小的数字被去除依次将数列二等分，二等分之后的子序列继续二等分直到每个子序列只有一个数字，停止分割按照分割的顺序进行合并

时间复杂度 O= nlogn

非比较类

分桶

描述

设置一个定量的数组当作空桶子寻访序列，并且把项目一个一个放到对应的桶子去对每个不是空的桶子进行排序从不是空的桶子里把项目再放回原来的序列中

时间复杂度 O=n

基数

描述

按照低位先排序，然后收集再按照高位排序，然后再收集依次类推，直到最高位

时间复杂度 O=n

计数

描述

找出待排序的数组中最大和最小的元素统计数组中每个值为i的元素出现的次数，存入数组C的第i项对所有的计数累加（从C中的第一个元素开始，每一项和前一项相加）将每个元素i放在新数组的第C(i)项，每放一个元素就将C(i)减去1

时间复杂度 O=n

数据倾斜

有一些数据节点的数据比另外的节点大很多

大数据思想

查重

排序

Hadoop介绍

Hadoop最早起源于Nutch

狭义上来说，hadoop就是单独指代hadoop这个软件

广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件

核心Model

Common

HDFS（Hadoop Distributed File System）分布式文件系统

YARN（Yet Another Resource Negotiator）另一种资源协调者

MapReduce