云服务技术知识框架总结分享
2022-10-19 18:20:52 0 举报
AI智能生成
云服务技术知识框架总结分享
作者其他创作
大纲/内容
一
云架构属性
性能
负载均衡
自动伸缩
可用性
管理人员必须假设错误随时发生
开发人员必须安排错误时的处理方案
利用冗余保证出错后的恢复
安全性
Inadvertent information sharing
virtual machine escape
denial of service attacks
基础设施
虚拟机
相关技术
虚拟机的创建(Consolidation)
虚拟机迁移(migration)
startup storm(启动风暴)
Hypervisor(管理程序)
文件系统
Hadoop Distribute File System
写入过程
错误处理
交付模式
Infrastructure as a service(Iaas)
Platform as a Service(PaaS)
Software as a Service(SaaS)
基本概念与术语
可扩展性
云服务
云服务用户
定义
云计算是以最小的管理成本提供快速的,随时可访问的系统资源。这些资源都是系统内共享的
基本属性
On-demand(按需的)
Resource Pooling(集中资源)
Ubiquitous network access(通过网络随时访问)
Location independence(地点无关)
Rapid elasticity(弹性性能)
Pay-as-you-go(使用时收费)
Multi-tenancy(多租户)
经济合理性(Economic Justification)
规模经济
设备利用率
多租户
四: 调度问题与机制
调度算法类型
real time v.s. non-real time
静态 v.s. 动态
离线 v.s. 在线
Determinist v.s. Stochastic
常见调度问题
单个处理器上调度B.O.T.s
多个相同的处理器上调度B.O.T.s
多个不同的处理器上调度B.O.T.s
Job shop scheduling
Periodic tasks scheduling 周期性任务调度
列调度方法
五: 数据中心网络
设计目标/需求
运行的应用类型
面向用户的服务
大规模的,多设备的协同计算
支持多变的负载
意味着必须支持快速扩张
容忍少量服务器故障,且视为常态
成本
服务器设备(CPU, 内存, 磁盘)
电力设备
电能
网络带宽
网络中心(DCN)网络拓扑结构分类
固定拓扑(Fixed Topology)
Tree-based
Basic tree
Fat tree
结构
特点
一个交换机下的各个链路拥有相同的带宽
可以使用相同“容量”的交换机构建,成本低
Clos network
Recursive
DCell
BCube
MDCube
FiConn
灵活拓扑(Flexible Topology)
Fully Optical
OSA
Hybrid
c-Through
Helios
二
并发控制
锁协议
时间戳协议
分布式文件系统
基本特征
基本需求
基本架构
NoSQL特点
优势
无关系,无需schema
数据可以分块,拷贝到多个节点,避免单点失效
水平扩展
容易实现
大规模写入性能高
快速键值对访问
劣势
没有join, group by等关系数据库的操作
没有统一的访问语言
更宽松(弱)的保障
难与关系数据库集成
MapReduce
局部性问题
容错
Worker失效
心跳包监控
由Master创建新的worker重新执行其任务
Master失效
Master记录检查点
切换Master从检查点开始重新执行任务
主动容错
对处理极慢的节点,安排其它空闲节点执行相同任务,取最快输出的结果
其它内容
map完成前reduce不能启动
master知悉中间处理结果所在位置
任务调度需要结合数据所在位置
一旦map失效,该任务需要完全重新执行
三: 云计算架构中的辅助部件
Cloud Usage Monitor
Monitor Agent
处在云服务和用户连接之间,收集用户对云服务的使用情况
Resource Agent
监控虚拟服务器产生的一些预定义事件,包括启动,暂停,恢复,垂直扩展等,并记录下来
Polling Agent
周期性地向某个虚拟服务器上托管地程序发送请求,并在接收到系列响应后将这些响应记录到数据库中
自动伸缩监听器(automated scaling listener mechanism)
定义: 一个部署在云服务设备和用户之间,监听两者通讯情况的软件。通常部署在云服务的防火墙后
作用
根据用户预定义的策略,在不同负载情况下调整云服务的资源用量
当遇到用户缺省定义的情况时,及时通知管理员当前负载情况,由管理员决定资源用量
负载均衡器(load balancer)
定义: 根据当前的负载情况水平扩展IT资源,将负载尽可能合理地分配到不同IT资源上,从而获得单台机器所无法提供的性能与容量
负载分配方式
Asymmetric distribution(非对称分配)
Workload prioritization(负载优先)
Content-aware distribution(按内容分配)
实现方式
通常被部署在产生负载和负载处理单元的通讯路径上
1. 多层的网络路由: 负载均衡器被部署在链路设备上
2. 特定的硬件: 部署特定的负载均衡服务器复杂完成均衡分配算法
3. 特定的软件: 在多台机器上安装负载均衡软件完成负载分配
调度方式
负载均衡算法: 轮询法,随机法,最小连接
数据局部性: 同一用户/租户的请求集中在相同服务器上(加快负载处理效率)
SLA监控器
pay-per-use monitor(按使用付费监控器)
定义: 用于监控计价参数并存储起来的软件
典型参数
请求/响应次数
传送数据量
带宽消耗
实现方式
监听IT资源使用事件,包括启动,撤销,记录相关操作与时间用于计费
监听云服务的请求情况
故障转移(failover system)
定义: 利用冗余的方式保证某些IT资源失效时可以有其它备用资源替补,提高整体的可靠性和可用性
配置形式
主动-主动(active-active)
主动-被动(active-passive)
虚拟机监控器(hypervisor)
定义: 用于在物理设备上创建和管理虚拟服务器实例及其资源的软件<br>VIM目前可以远程管理多个hypervisor
虚拟机迁移
资源集群(resource cluster)
定义: 将多个独立的物理设备看作一个虚拟的IT资源(通过高速带宽连接),从而提高整体的计算能力,负载均衡,可用性等
簇类型
服务器簇
构建多台物理设备集群,在此之上部署可集群的hypervisor,物理设备间共享状态,而hypervisor可以在这些物理设备上创建多个虚拟服务器,虚拟服务器可以在多个物理设备上在线迁移,从而提高服务的性能和可用性
数据库簇
提高数据的可用性,需要各个高可用的设备之间维持数据的一致性以及同步
大数据集簇
通过将数据分块,分布式地存储,从而实现既不损伤数据的完整性,同时保证计算的准确性,各个计算节点见只需读取本地数据,减少节点间的交互
实现方式
1. 计算资源和存储资源之间相互隔离,两者使用网络进行连接。该方式使得计算资源共享存储资源,方便完成数据的冗余
2. 计算资源间不共享存储资源,集群内数据的冗余通过集群管理软件在设备之间进行传输拷贝
多设备代理(multiple-device broker)
定义:一种用于请求格式转换的软件。将来自不同设备,不同格式的请求转换成相同的请求格式,从而让云服务应用与设备,网络类型解耦
状态管理数据库(state management database)
定义: 用于存储云服务应用的运行时状态的数据库,相当于虚拟内存,降低应用对内存的消耗
六: 云架构
服务负载均衡架构
冗余的服务instance
使用负载均衡器分配负载到各个服务上
外置: 额外的负载均衡器负责分配负载
内置: 负载均衡器设置在某个提供服务的设备上,该设备既提供服务由负责转发负载
动态可扩展架构
核心: 自动扩展监听器
水平扩展
垂直扩展
动态重定位
将IT资源重新定位到容量更大/更小的主机上
弹性资源容量架构(Elastic Resource Capacity Architecture)
根据负载(自动扩展监听器)动态更改CPU和内存资源的大小(垂直扩展)
由自动扩展监听器负责监听负载大小以及发出扩展请求
由智能自动化引擎根据预定义的扩展脚本执行扩展逻辑
由hypervisor或者VIM(hypervisor管理器)接收扩展逻辑,并向资源池请求资源完成扩展
云爆发架构(Cloud Bursting Architecture)
利用云部署冗余的服务instance
当负载突然增加时,将本地请求重定向到云,暂时性增加负载上限
弹性磁盘供给架构(Elastic Disk Provisioning Architecture )
根据用户实际磁盘使用量衡量收费
Thin-provisioning software(自动精简供给软件)负责完成动态分配存储空间任务
辅助机制
虚拟机用量监控器(pay-per-use monitor / usage monitor)
Resource Replication
虚拟机
迁移
由VIM主导,通过检测剩余物理设备的容量,选出合适的宿主机,将宕机的虚拟机数据迁移到新的宿主机,重启虚拟机
在线迁移
pre-copy
分部拷贝当前内存页中的所有内容
同时还要重新拷贝在这个阶段中被修改的内容
假如剩余的修改内容不多,停机,拷贝剩余内容,恢复
post-copy
这种方式应该是先停机,拷贝CPU状态和必要内存页
马上恢复,同时拷贝剩余的内存页
非在线迁移
待迁移虚拟机停机,拷贝数据至新宿主机,重启虚拟机
评估
迁移时间
停机时间
迁移过程中某个时间窗口的服务率
衡量服务质量
容错
错误检测
ping
heartbeat
timestamp
用来检查错误发生的时间顺序
condition monitor
检查数据完整性??
故障恢复
Active Redundancy(热备份)
受保护内容的备份始终在前且与主体保持同步状态
冷备份
受保护内容的备份在故障发生前一直离线,可以立即恢复服务,但之前的状态丢失
消极冗余
受保护内容仅当主体主动发起备份时,才备份当前状态
重试
忽略错误信息
当且仅当该错误信息被认为是虚假时执行
服务迁移
不中断,重定位服务架构(No-disruptive service relocation architecture)
自动伸缩监听器通知VIM进行虚拟机迁移
拷贝当前服务及其状态至新虚拟机
将服务请求导向新的虚拟机
动态错误检测与恢复架构(Dynamic failure detection and recvory architecture)
智能看门狗监听到有服务故障,通知弹性看门狗按照预定义规则重启服务
零宕机架构
多个服务器共享存储,共享状态
由统一的容错系统管理错误与恢复
由于共享存储,一旦故障发生,容错系统可以轻松完成故障服务的迁移以及重启
移动云计算
三个视角
AI
智能感知
移动设备作为传感器提供数据
云计算训练识别模型
移动计算
将复杂计算任务交给云设备计算
云计算
增加了移动设备的传感器数据
性能建模
指标
本地计算时间
云计算时间
数据传输时间
影响因素
设备性能
带宽
网络状态
部署情况
优化技术
计算切分
数据流类型应用的计算切分
通过将部分任务交由云设备计算,获得最大的数据吞吐量
动态环境(断网)计算切分
通过将部分任务交由云计算,使得用户计算过程
多用户计算切分
数据存放和负载分配
平衡数据的存储成本以及访问的延迟
Question
基于时间戳协议
虚拟机迁移的服务率以及迁移时间的计算
运行内容的计算切分
BSPP??
0 条评论
下一页