2章数据库系统
2021-09-08 14:33:09 4 举报
AI智能生成
数据库系统
作者其他创作
大纲/内容
数据库管理系统类型
数据库模式与范式
数据库的结构与模式
三级抽象
用户级(用户可以看到的表)
概念级(DBA可以看到的表)
物理级(最接近物理存储)
两级独立性
物理独立性
逻辑独立性
数据模型
概念数据模型(E-R)
用户的观点,主要用于设计
属性冲突
即属性值的类型、取值范围或取值集合不同
命名冲突
同名异义、异名同义
结构冲突
基本数据模型
计算机系统的观点,主要用于实现DBMS
数据结构
数据模型中的数据结构主要描述数据的类型、内容、性质以及数据间的联系等
数据操作
数据模型中数据操作主要描述在相应的数据结构上的操作类型和操作方式
数据的约束条件
实体完整性
ID不能为空
参照完整性
在关系数据库中主要是值得外键参照的完整性
自定义完整性
用户定义完整性是针对某一个具体关系的约束条件
常用的模型
层次模型
网状模型
关系模型
面向对象模型
数据的规范化(5NF)
1NF:属性不可分
2NF:符合1NF,并且,非主属性完全依赖于码
3NF:符合2NF,并且,消除传递依赖(至少3个属性才可能传递)
BCNF:符合3NF,并且,主属性不依赖于主属性
4NF
反规范化:为了提高查询或应用的性能而破坏NF
增加冗余列
增加派生列
重新组表
分割表
水平分割
垂直分割
关系代数
∪
关系R与S的并是由属于R或属于S的元组构成的集合
-
关系R与S的差是由属于R但不属于S的元组构成的集合
∩
关系R与S的交是由属于R同时又属于S的元组构成的集合
×
两个元组分别为n目和m目的关系R和S的笛卡尔积是一个(n+m)列的元组的集合。元组的前n列是关系R的一个元组,后m列是关系S的一个元组
σ
取得关系R中符合条件的行
π
取得关系R中符合条件的列
⋈
关系数据库规范化
函数依赖
学号→姓名
完全函数依赖
对于(Sno,Cno)中的任何一个真子集Sno或Cno都不能决定G,所以,G完全依赖于Sno、Cno
部分函数依赖
如果X→Y,但Y不完全函数依赖于X,则称Y对于X部分函数依赖
传递依赖
在R(U,F)中,如果X→Y,Y∉X,Y→Z,则称Z对X传递依赖
Armstrong公理
超键
在关系中能唯一标识元组的属性集称为关系模式的超键
候选键
不含有多余属性的超键称为候选键
主键
用户选作元组标识的一个候选键称为主键
外键
如果关系模式R中的某些属性集不是R的候选键,而是关系模式S的候选键,则这个属性集对模式R而言是外键
主属性和非主属性
包含在任何一个候选键中的属性称为主属性,否则称为非主属性
闭包
数据操纵和使用
sql
数据库设计
数据库设计的过程是将数据库系统与现实世界密切、有机地、协调一至地结合起来的过程
数据库设计的特点
从数据结构即数据模型开始
静态结构设计与动态行为设计分离(表结构或视图)
试探性(方案很多找到合适的)
反复性(非一气呵成)
多步性(直观或单步)
数据库设计的方法
基于3NF
面向对象(一对多,多对一,多对多)
数据库设计的基本步骤
需求分析
数据流图
数据字典
概念结构
面向现实世界的、极易为 用户所理解的数据模型
E-R
视图设计
逻辑结构设计
DBMS
E-R
数据库物理设计
文件结构、索引设计等,即设计数据库的内模式或存储模式
事务管理(相当于进程)
特征
原子性
数据库的逻辑工作单位
一致性
使数据库从一个一致性状态变到另一个一致性状态
隔离性
不能被其他事务干扰
持续性
一旦提交,改变就是永久性的
并发控制
x封锁
一个事务独占
S封锁
其他的事务可看不可改
故障与恢复
事务故障
反向扫描文件日志
系统故障
正向扫描日志文件
介质故障
装入最新的数据库后备副本,使数据库恢复到最近一次转储时的一致性状态
计算机病毒
装入最新的数据库后备副本,使数据库恢复到最近一次转储时的一致性状态
并行数据库系统
数据仓库
数据仓库体系结构
数据源
数据的存储与管理
OLAP(联机分析处理)
前端工具
数据仓库的开发与实施
业务需求分析
逻辑模型设计
物理模型设计(转表)
数据仓库生成
数据仓库的实现方法
自顶向下:以业务需求为首
自底向上:实验和基于技术原型入手
联合法
数据仓库相关的数据存储技术
多介质存储设备的管理技术
数据存储的控制
数据的并行存储与管理
可变长技术
锁切换技术
数据仓库技术的发展趋势
数据抽取
存储管理
数据表现
方法论
数据挖掘
数据挖掘的功能
自动预测趋势和行为(市场趋势)
关联分析
聚类(聚类与分类的不同在于,聚类所要求划分的类是未知的)
概念描述(决策树方法、遗传算法)
偏差检测
数据挖掘常用技术
关联分析(如常买尿布的可能也是买奶粉)
序列分析
分类分析(可根据房屋的地理位置决定房屋的档次)
统计学
贝叶斯方法
神经网络方法
决策树方法
向量机
聚类分析
预测(预测常用的技术回归分析)
时间序列分析(趋势和季节性)
数据挖掘的流程
问题定义
建立数据挖掘库
分析数据
调整数据
模型化
评价和解释
NoSQL
易扩展
大数据量,高性能(无关系性,数据库的结构简单)
灵活的数据模型
高可用
常用的nosql数据库
Redis
常用指令
Redis持久化
RDB
优点
缺点
AOF
优点
缺点
容灾备份
在 Redis 中,常用的 5 种数据类型和应用场景如下
String: 缓存、计数器、分布式锁等。
List: 链表、队列、微博关注人时间轴列表等。
Hash: 用户信息、Hash 表等。
Set: 去重、赞、踩、共同好友等。
Zset: 访问量排行榜、点击量排行榜等。
问题画像
大数据
大数据的特点(4v)
大量
高速
多样
价值
备份与恢复
备份
物理备份
冷备份
冷备份是将数据库正常关闭,在停止状态下
热备份
不关闭数据库
逻辑备份
分布式数据库系统(DDB)
分布式数据库的特点
数据的分布性
统一性
透明性
分片透明性
位置透明性
局部数据模型(逻辑透明性)
分布式数据库的分类
按DDBMS软件同构度来分
按局部自治度来分
按分布透明度来分
分布式数据库的目标
局部结点自治
不依赖中心结点
能连续操作
具有位置独立性(位置透明性)
分片独立性(分片透明性)
数据复制独立性
支持分布式查询处理
支持分布事务管理
具有硬件独立性
具有网络独立性
具有DBMS独立性
与集中式数据库相比
坚固性好
系统的可靠性和可用性好
可扩充性好
增减节点
可改善性能
就近访问
自治性好
高度自制
0 条评论
下一页