3数据库系统
2021-04-22 11:54:11 1 举报
AI智能生成
系统架构师考试时整理的数据库系统部分内容
作者其他创作
大纲/内容
数据库模式与范式
数据库的结构与模式
三级抽象
(1)用户级数据库 :用户级数据库对应于外模式,是最接近用户的一级数据库,是用户可以看到和使用的数据库,又称用户视图。用户级数据库主要由外部记录组成,不同的用户视图可以互相重叠,用户的所有操作都是针对用户视图进行的
(2)概念级数据库:概念级数据库对应于概念模式,介于用户级和物理级之间,是所有用户视图的最小并集,是数据库管理员可看到和使用的数据库,又称 DBA(DataBaseAdministrator,数据库管理员)视图
(3)物理级数据库:物理级数据库对应于内模式,是数据库的低层表示,它描述数据的实际存储组织,是最接近于物理存储的级,又称内部视图
三级模式
(1)概念模式
(2)外模式
(3)内模式
两级独立性
(1)物理独立性
(2)逻辑独立性
数据模型
概念数据模型:按照用户的观点来对数据和信息建模,主要用于数据库设计。概念模型主要用实体—联系方法(Entity-Relationship Approach)表示,所以也称 E-R 模型
基本数据模型
层次模型
网状模型
关系模型
面向对象模型
关系代数
(1)并
(2)差
(3)交
(4)笛卡尔积
(5)投影:从一个关系中抽取指明的属性(列)
(6)选择:从关系R中抽取出满足给定限制条件的记录
(7)连接。θ连接从两个关系的笛卡儿积中选取属性之间满足一定条件的元组
(8)除
数据的规范化
分解准则
(1)无损连接性:信息不失真(不增减信息)
(2)函数依赖保持性:不破坏属性间存在的依赖关系
数据库逻辑设计的指南和工具
(1)用数据依赖的概念分析和表示各数据项之间的关系
(2)消除 E-R 图中的冗余联系
函数依赖
第一范式:1NF 是最低的规范化要求。如果关系 R 中所有属性的值域都是简单域,其元素(即属性)不可再分,是属性项而不是属性组,那么关系模型 R 是第一范式的,记作 RÎ1NF
第二范式:如果一个关系 R 属于 1NF,且所有的非主属性都完全依赖于主属性,则称之为第二范式,记作 RÎ2NF
第三范式:如果一个关系 R 属于 2NF,且每个非主属性不传递依赖于主属性,这种关系是 3NF,记作 RÎ3NF
BC 范式:如果关系模型 R∈1NF,且 R 中每一个函数依赖关系中的决定因素都
包含码,则 R 是满足 BC 范式的关系,记作 RÎBCNF
反规范化
增加冗余列:增加冗余列是指在多个表中具有相同的列,它常用来在查询时避免连接操作
增加派生列:增加派生列指增加的列可以通过表中其他数据计算生成
重新组表
分割表
水平分割:根据一列或多列数据的值把数据行放到两个独立的表中。
垂直分割:把主码和一些列放到一个表,然后把主码和另外的列放到另一个表中
数据库设计
数据库设计的方法
3NF 的设计方法
(1)设计企业模式
(2)设计数据库逻辑模式
(3)设计数据库物理模式(存储模式)
(4)评价物理模式
(5)数据库实现
数据库设计的基本步骤
需求分析
1.确认需求、确定设计目标
2.分析和收集数据
3.整理文档
概念结构设计
1.视图设计
(1)确定局部视图的范围
(2)识别实体及其标识
(3)确定实体间的联系
(4)分配实体及联系的属性
2.视图集成
① 同名异义
② 异名同义
③ 同名不同层次
④ 虽同名同义,但对象联系测度不同
逻辑结构设计
(1)将概念结构向一般关系模型转化。
(2)将第一步得到的结构向特定的 DBMS 支持下的数据模型转换。
(3)依据应用的需求和具体的 DBMS 的特征进行调整与完善。
1.基本 E-R 模型向关系模型的转换
(1)一对一联系
(2)一对多联系
(3)多对多联系
(4)多元联系
(5)自联系
(6)弱实体类的转换
2.数据模型的优化
(1)改善数据库性能的考虑
① 减少连接运算
② 减小关系大小及数据量
③ 尽量使用快照
(2)节省存储空间的一些考虑
① 缩小每个属性占用的空间
② 采用假属性
物理结构设计
(1)了解并熟悉应用要求,包括各个用户对应的数据视图,即数据库的外模式(子模式),分清哪些是主要的应用,了解各个应用的使用方式、数据量和处理频率等,以便对时间和空间进行平衡,并保证优先满足应用的时间要求
(2)熟悉使用的 DBMS 的性能,包括 DBMS 的功能,提供的物理环境、存储结构、存取方法和可利用的工具
(3)了解存放数据的外存设备的特性,如物理存储区域的划分原则,物理块的大小等有关规定及 I/O 特性等
事务管理
特性
(1)原子性(Atomicity):数据库的逻辑工作单位。
(2)一致性(Consistency):使数据库从一个一致性状态变到另一个一致性状态。
3)隔离性(Isolation):不能被其他事务干扰。
(4)持续性(永久性)(Durability):一旦提交,改变就是永久性的。
并发控制
并发操作带来的问题:丢失更新问题、不一致分析问题(读过时的数据)、依赖
于未提交更新的问题(读了“脏”数据)
封锁技术
排他型封锁(X 封锁)
享型封锁(S 封锁)
封锁协议
(1)一级封锁协议
(2)二级封锁协议
(3)三级封锁协议
(4)两段锁协议
死锁是避免
(1)预防法
(2)死锁的解除法
故障与恢复
故障
(1)事务故障
(2)系统故障
(3)介质故障
(4)计算机病毒
故障的恢复
(1)事务故障的恢复
(2)系统故障的恢复
(3)介质故障与病毒破坏的恢复
(4)具有检查点的恢复技术
备份与恢复
原则
(1)保证数据丢失的情况尽量少或完全不丢失,因为性价比的要求,这要取决于现实系统的具体要求
(2)备份和恢复时间尽量短,保证系统最大的可用性
备份内容
物理备份
冷备份
热备份
备份方式
完全备份是将数据库的内容全部备份,作为增量、累积的基础
增量备份是只备份上次完全、增量或累积备份以来修改的数据
累积备份是备份自上次完全或累积备份以来修改过的数据
步骤
(1)首先从完全备份恢复数据库
(2)然后按照时间顺序从早到晚依次导入多个增量和累积备份文件
逻辑备份
大数据
特点
Volume:指的是数据体量巨大
Variety:指的是数据类型繁多
Value:指的是价值密度低
Velocity:指的是处理速度快
分支主题
关键技术
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
大数据应用
大数据可以在各行各业得以应用,如金融服务、医疗保健、零售业、制造业、政府机构等。
NoSQL
优点
1.易扩展
2.大数据量,高性能
3.灵活的数据模型
4.高可用
缺点,例如,并未形成一定标准,各种产品层出不穷,内部
混乱,各种项目还需时间来检验,缺乏相关专家技术的支持等。
数据挖掘
概念
数据挖掘(Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。
功能
常用技术
1.关联分析
2.序列分析
3.分类分析
4.聚类分析
5.预测
6.时间序列
流程
1.问题定义在开始数据挖掘之前,最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求。
2.建立数据挖掘库
3.分析数据
4.调整数据
5.模型化
6.评价和解释
数据仓库
概念
数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策
结构
实现方法
1.自顶向下法
2.自底向上法
3.联合方法
分布式数据库系统
概念
特点
(1)数据的分布性
(2)统一性
(3)透明性
优点
(1)坚固性好
(2)可扩充性好
(3)可改善性能
(4)自治性好
分类
(1)按 DDBMS 软件同构度来分
(2)按局部自治度来分
(3)按分布透明度来分
目标
(1)局部结点自治性
(2)不依赖中心结点
(3)能连续操作
(4)具有位置独立性(或称位置透明性)
(5)分片独立性(或称分片透明性)
(6)数据复制独立性
(7)支持分布式查询处理
(8)支持分布事务管理
(9)具有硬件独立性。希望在不同硬件系统上运行同样的 DBMS。
(10)具有操作系统独立性。希望在不同的操作系统上运行 DBMS。
(11)具有网络独立性。如果系统能够支持多个不同的场地,每个场地有不同的硬件和不同的操作系统,则要求该系统能支持各种不同的通信网络
(12)具有 DBMS 独立性。实现对异构型分布式系统的支持。理想的分布式系统应该提供 DBMS 独立性。
架构
模式结构
(1)全局外模式
(2)全局概念模式
(3)分片模式
(4)分布模式
(5)局部概念模式
(6)局部内模式
特征
与并行数据库系统的区别
(1)应用目标不同
(2)实现方式不同
(3)各结点的地位不同
数据分片和透明性
分片的方式
水平分片
垂直分片
分布透明性
分片透明性
位置透明性
局部数据模型透明性
分布式数据库管理系统
组成
(1)LDBMS(局部 DBMS)
(2)GDBMS(全局 DBMS)
(3)全局数据字典
(4)CM(Communication Management,通信管理)
架构
(1)全局控制集中的 DDBMS
(2)全局控制分散的 DDBMS
(3)全局控制部分分散的 DDBMS
0 条评论
下一页