1.7**关系数据库规范化理论 **
为了使数据库设计的方法走向完备,人们研究了规范化理论,指导我们设计规范的数据库模式。按属性间依赖情况来区分,关系规范化的程度为第一范式、第二范式、第三范式、BCNF范式和第四范式等。
函数依赖
数据依赖是现实世界中属性间联系和约束的抽象,是数据的内在性质。
函数依赖(functional dependency,FD )是一种最重要、最基本的数据依赖。其具体定义如下:
设有关系模式R(U),X和Y是属性集U的子集,FD是行为X→Y的一个命题,只要r是R的关系,对r中任意两个元组都有“X值相等蕴涵Y值相等”,那么函数依赖X→Y在关系模式R(U)中成立。
FD与侯选键之间的关系:若存在X->U,并且不存在X的任意真子集X1,使得X1->U成立,那么就称X为关系的一个侯选键。
函数依赖还有几条推理规则:
自反性;增广性;传递性;并规则;分解规则;伪传递规则;
◆模式分解:目的是消除冗余和操作异常问题
模式分解的三个定义:
分解具有“无损连接性”
分解要“保持函数依赖”
分解既要“保持函数依赖”,又要具有“无损连接性”。
关系模式分解的两个特性实际涉及到两个数据库模式的等价性问题。包括数据等价和依赖等价两个方面:
数据等价:两个数据库实例应表示同样的信息内容,用“无损联接”衡量。
依赖等价:两个数据库模式应有相互逻辑关系的函数依赖集,此时数据的语义是不会出现差错的。
例:关系模式 S-L-C(SNO,SDEPT,SLOC,CNO,G)中,SLOC为学生的住处,并且每个系的学生住在同一个地方。
这里码为(SNO,CNO)。函数依赖有:
(SNO,CNO) G
SNO→SDEPT,
(SNO,CNO) SDEPT SNO→SLOC,
(SNO,CNO) SLOC
SDEPT→SLOC
用投影分解把关系模式S-L-C分解为3NF范式,且保持函数依赖。
解法:
⑴ 对R〈U,F〉中的函数依赖集F进行“极小化处理”。
F= { SNO,CNO→G,SNO→SDEPT,SDEPT→SLOC }。
⑵ R中没有不在F中出现的属性。
⑶ 不存在X→AÎF,且XA=U,接着做第 = 4 * GB2 ⑷步。
⑷ 对F按具有相同左部的原则分组。
r={SC{ SNO,CNO,G },SNO,CNO→G},S-D〈{ SNO,SDEPT }, SNO→SDEPT〉,
D-L〈{ SDEPT,SLOC }, SDEPT→SLOC〉}
◆范式
范式(normal form,NF)是衡量关系模式的优劣的标准。范式有很多种,与数据依赖有着直接的联系。
第一范式1NF
如果关系模式R中,每个分量是不可分的数据项,就称R属于第一范式。
第二范式2NF
若关系模式R属于1NF,且每个非主属性完全函数依赖于候选关键字,则称R属于第二范式。
第三范式3NF
若关系模式R属于1NF,且每个非主属性都不传递依赖于R的候选关键字,则称R属于第三范式。
这里的主属性是指键的属性,而不是任何键的属性就是非主属性
BC范式BCNF
若关系模式R属于1NF,且每个属性都不传递依赖于R的候选关键字,则称R属于BC范式。
由上可知,4种范式之间的关系:BCNF<3NF<2NF<1NF
2.3 关系运算 **
用例子说明前面的概念
设关系R: ——————————-
A B C
——————————-
a b c
d a f
c b d
关系S: ———————————-
A B C
———————————-
b g a
d a f
则R∪S为: ——————————
A B C
——————————
a b c
d a f
c d b
b g a
R-S为: —————————–
A B C
——————————-
a b c
c b d
R×S为:——————————————————————–
R.A R.B R.C S.A S.B S.C
———————————————————————-
a b c b g a
a b c d a f
d a f b g a
d a f d a f
c b d b g a
c b d d a f
(R)为: ———————-
A C
———————-
a c
d f
c d
(R)为: ————————–
A B C
————————-
a b c
c b d
关系R: ————————— 关系S为:———————
A B C D E
—————————– ———————-
1 2 3 3 1
4 5 6 6 2
7 8 9
则:小于联接R│×│S为:———————————
2<1 A B C D E
———————————-
1 2 3 3 1
1 2 3 6 2
4 5 6 6 2
若关系R为:—————— 关系S为:—————–
A B C B C D
——————- ——————-
a b c b c d
d b c b c e
b b f a d f
c a d
则:自然联接R×S为: —————————-
A B C D
————————–
a b c d
a b c e
d b c d
d b c e
c a d f
若关系R为: ————————– 关系S为:—————
A B C D C D
————————– —————
a b c d c d
a b e f e f
` b c e f
e d c d
e d e f
a b d e
则R÷S为: ————–
A B
—————
a b
e d
例题:
若有关系模式R(A,B,C)和S(C,D,E),对于如下的关系代数表达式:(数据库)
E=∏A,D(σB<‘2003’∧R.C=S.C∧E=’80′(R×S))
E=∏A,D(σR.C=S.C(σB<‘2003′(R)×σE=’80′(S)))
E=∏A,D(σB<‘2003′(R)σE=’80′(S))
E=∏A,D(σB<‘2003’∧E=’80′(RS))
正确的结论是__A__ ,表达式 __C__ 的查询效率最高。
(20) A. E1≡E2≡E3≡E4 | B. E3≡E4但E1≠E2 | ||
C. E1≡E2但E3≠E4 | D. E3≠E4但E2≡E4 | ||
(21) A. E1 | C. E3 | B. E2 | D. E4 |
例关系范式:
设有以图书管理数据库,其关系模式是R(L#,B#,BNAME,BPRICE,BPUB),其属性分别表示个人借书证号、书号、书名、书价、图书出版社。该关系模式A。它的主要问题是数据冗余。如把R分解成两个关系模式R1B和R2C,则可以部分的解决这一问题。R1和R2是规范化程度较差的范式D。另外一种分解方法可以得到3个模式R3(L#,B#),R4(B#,BNAME),R5(BNAME,BPRICE,BPUB),则R3、R4和R5都E。
A、D、E: ①属于第一范式但不属于第二范式
②属于第二范式但不属于第三范式
③属于第三范式
④不是范式
⑤属于第二范式但不属于第一范式
⑥属于第三范式但不属于第二范式
B、C: ①(L#,B#,BPRICE) ②(L#,B#)
③(B#,BNAME) ④(B#,BNAME,BPRICE,BPUB)
⑤(BNAME,BPRICE,BPUB) ⑥(L#,BNAME,BPRICE)
A:① B:② C:④ D:② E:③
**
**