精华内容
下载资源
问答
  • 数据库 - 关系数据库

    千次阅读 2015-05-03 13:13:04
    关系数据库提出关系模型的是美国IBM公司的E.F.Codd (Edgar Frank Codd,1923-2003) , “关系数据库之父” 1970年提出关系数据模型 E.F.Codd, “A Relational Model of Data for Large Shared Data Banks”, ...

    关系数据库

    提出关系模型的是美国IBM公司的E.F.Codd (Edgar Frank Codd,19232003) , “关系数据库之父”
    1970年提出关系数据模型
    E.F.Codd, “A Relational Model of Data for Large 
    Shared Data Banks”, 《Communication of the 
    ACM》,1970
    E.F.Codd 1923年出生在英格兰多塞特郡波特兰市的一个大家庭中。他曾经就读于牛津大学,主修数学,获得学士与硕士学位。第二次世界大战期间曾在皇家空军服役。第二次世界大战后,动身前往美国成为IBM的一名程序员。
    在40岁的时候,重返校园,在密歇根大学主修计算机与通信专业,于1965年获得博士学位。
    因为在数据库管理系统的理论和实践方面的杰出贡献于1981年获图灵奖。
     1984年从IBM退休, 于2003年谢世。
    

    关系

    单一的数据结构—-关系
    现实世界的实体以及实体间的各种联系均用关系来表示
    逻辑结构—-二维表
    从用户角度,关系模型中数据的逻辑结构是一张二维表
    关系模型建立在集合代数的基础上,这里从集合论的角度给出关系数据结构的形式化定义

    ⒈ 域(Domain)

    域是一组具有相同数据类型的值的集合。例:
    整数
    实数
    介于某个取值范围的整数
    长度小于25字节的字符串集合
    {‘男’,‘女’}
    ……………..
    
    1. 笛卡尔积(Cartesian Product)
    笛卡尔积
       给定一组域D1,D2,…,Dn,这些域中可以有相同的。
        D1,D2,…,Dn的笛卡尔积为:
        D1×D2×…×Dn =
                 {(d1,d2,…,dn)|diDi,i=12,…,n}
    所有域的所有取值的一个组合
     元组(Tuple)
    笛卡尔积中每一个元素(d1,d2,…,dn)叫作一个n元组(n-tuple)或简称元组(Tuple)
    (张清玫,计算机专业,李勇)、(张清玫,计算机专业,刘晨)等都是元组 
    
    分量(Component)
    笛卡尔积元素(d1,d2,…,dn)中的每一个值di叫作一个分量
    张清玫、计算机专业、李勇、刘晨等都是分量 
    基数(Cardinal number)
    
    笛卡尔积的表示方法
    笛卡尔积可表示为一个二维表
    表中的每行对应一个元组,表中的每列对应一个域
    
    1. 关系(Relation)
    1) 关系
    D1×D2×…×Dn的子集叫作在域D1,D2,…,Dn上的
    关系,表示为
    
             R(D1,D2,…,Dn)
    
    R:关系名
    n:关系的元,或目或度(Degree)
    2) 元组
    关系中的每个元素是关系中的元组,通常用t表示。
    3) 单元关系与二元关系
    当n=1时,称该关系为单元关系(Unary relation)
                                   或一元关系                             
    当n=2时,称该关系为二元关系(Binary relation)
    4) 关系的表示
    关系也是一个二维表,表的每行对应一个元组,表的每
    列对应一个域
    
    5)属性
    关系中不同列可以对应相同的域
    为了加以区分,必须对每列起一个名字,称为属性(Attribute)
    n目(元)关系必有n个属性
    6) 码
    候选码(Candidate key)
        若关系中的某一属性组的值能唯一地标识一个元组,则称该属性组为候选码 (教材上给出的此定义是否严谨?)
        简单的情况:候选码只包含一个属性
    全码(All-key)
        最极端的情况:关系模式的所有属性组是这个关系模式的候选码,称为全码(All-key6) 码
    候选码(Candidate key)
        若关系中的某一属性组的值能唯一地标识一个元组,则称该属性组为候选码 (教材上给出的此定义是否严谨?)
        简单的情况:候选码只包含一个属性
    全码(All-key)
        最极端的情况:关系模式的所有属性组是这个关系模式的候选码,称为全码(All-key)
    D1,D2,…,Dn的笛卡尔积的某个子集才有实际含义
    例:表2.1 的笛卡尔积没有实际意义
          取出有实际意义的元组来构造关系
    关系:SAP(SUPERVISOR,SPECIALITY,POSTGRADUATE)
    假设:导师与专业:1:1,   导师与研究生:1:n
    主码:POSTGRADUATE(假设研究生不会重名) 
          SAP关系可以包含三个元组
         { (张清玫,计算机专业,李勇),
        (张清玫,计算机专业,刘晨),
        (刘逸,信息专业,王敏)  }
    7) 三类关系
    基本关系(基本表或基表)
    实际存在的表,是实际存储数据的逻辑表示
    查询表
    查询结果对应的表
    视图表
    由基本表或其他视图表导出的表,是虚表,不对
    应实际存储的数据
    8)基本关系的性质
    ① 列是同质的(Homogeneous)
    ② 不同的列可出自同一个域
    其中的每一列称为一个属性
    不同的属性要给予不同的属性名
    ③ 列的顺序无所谓,列的次序可以任意交换
    ④ 任意两个元组的候选码不能相同
    ⑤ 行的顺序无所谓,行的次序可以任意交换
    

    关系模式

    关系模式(Relation Schema)是型
    关系是值
    关系模式是对关系的描述
    元组集合的结构
    属性构成
    属性来自的域
    属性与域之间的映象关系
    元组语义以及完整性约束条件
    属性间的数据依赖关系集合

    关系模式可以形式化地表示为:
    R(U,D,DOM,F)
    R 关系名
    U 组成该关系的属性名集合
    D 属性组U中属性所来自的域
    DOM 属性向域的映象集合
    F 属性间的数据依赖关系集合
    例:
    导师和研究生出自同一个域——人,
    取不同的属性名,并在模式中定义属性向域
    的映象,即说明它们分别出自哪个域:

       DOM(SUPERVISOR-PERSON)
    = DOM(POSTGRADUATE-PERSON)
    =PERSON

    关系模式通常可以简记为
    R (U) 或 R (A1,A2,…,An)
    R: 关系名
    A1,A2,…,An : 属性名
    注:域名及属性向域的映象常常直接说明为
    属性的类型、长度

    关系数据结构

    关系数据库的型: 关系数据库模式
    对关系数据库的描述。
    关系数据库模式包括
    若干域的定义
    在这些域上定义的若干关系模式
    关系数据库的值: 关系模式在某一时刻对应的关系的集合,简称为关系数据库
    常用的关系操作
    查询:选择、投影、连接、除、并、交、差、笛卡尔积
    数据更新:插入、删除、修改
    查询的表达能力是其中最主要的部分
    选择、投影、并、差、笛卡尔积是5种基本操作,其他操作可以由基本操作导出
    关系操作的特点
    集合操作方式:操作的对象和结果都是集合,一次一集合的方式
    关系代数语言
    用对关系的运算来表达查询要求
    代表:ISBL
    关系演算语言:用谓词来表达查询要求
    元组关系演算语言
    谓词变元的基本对象是元组变量
    代表:APLHA, QUEL
    域关系演算语言
    谓词变元的基本对象是域变量
    代表:QBE
    具有关系代数和关系演算双重特点的语言
    代表:SQL(Structured Query Language)

    关系的三类完整性约束

    实体完整性和参照完整性:
    关系模型必须满足的完整性约束条件
    称为关系的两个不变性,应该由关系系统自动支持
    用户定义的完整性:
    应用领域需要遵循的约束条件,体现了具体领域中的语义约束

    实体完整性

    规则2.1 实体完整性规则(Entity Integrity)
    若属性A是基本关系R的主属性,则属性A不能取空值
    例:
    SAP(SUPERVISOR,SPECIALITY,POSTGRADUATE)
    POSTGRADUATE:
    主码(假设研究生不会重名)
    不能取空值

    实体完整性规则的说明
    (1)实体完整性规则是针对基本关系而言的。一个基本表通常对应现实 世界的一个实体集。
    (2) 现实世界中的实体是可区分的,即它们具有某种唯一性标识。
    (3) 关系模型中以主码作为唯一性标识。
    (4) 主码中的属性即主属性不能取空值。

    参照完整性

    例2 学生、课程、学生与课程之间的多对多联系
    学生(学号,姓名,性别,专业号,年龄)
    课程(课程号,课程名,学分)
    选修(学号,课程号,成绩)
    设F是基本关系R的一个或一组属性,但不是关系R的码。如果F与基本关系S的主码Ks相对应,则称F是基本关系R的外码
    基本关系R称为参照关系(Referencing Relation)
    基本关系S称为被参照关系(Referenced Relation)
    或目标关系(Target Relation)
    参照完整性规则
    若属性(或属性组)F是基本关系R的外码它与基本关系S的主码Ks相对应(基本关系R和S不一定是不同的关系),则对于R中每个元组在F上的值必须为:
    或者取空值(F的每个属性值均为空值)
    或者等于S中某个元组的主码值

    
    [例1]:
    学生关系中每个元组的“专业号”属性只取两类值:
    (1)空值,表示尚未给该学生分配专业
    (2)非空值,这时该值必须是专业关系中某个元组的“专业号”值,表示该学生不可能分配一个不存在的专业
    
    〔例2〕 :
    选修(学号,课程号,成绩)
    “学号”和“课程号”可能的取值 :
     (1)选修关系中的主属性,不能取空值
     (2)只能取相应被参照关系中已经存在的主码值
    
    〔例3〕:
    学生(学号,姓名,性别,专业号,年龄,班长)
    “班长”属性值可以取两类值:
    (1)空值,表示该学生所在班级尚未选出班长
    (2)非空值,该值必须是本关系中某个元组的学号值
    

    用户定义的完整性

    针对某一具体关系数据库的约束条件,反映某一具体应用所涉及的数据必须满足的语义要求
    关系模型应提供定义和检验这类完整性的机制,以便用统一的系统的方法处理它们,而不要由应用程序承担这一功能

    例:
         课程(课程号,课程名,学分)
    “课程号”属性必须取唯一值
    非主属性“课程名”也不能取空值
    “学分”属性只能取值{1,2,3,4}
    
    展开全文
  • 关系数据库的代数性质(一)

    千次阅读 2008-05-17 12:48:00
    关系数据库的代数性质 前言 本文只是尝试利用代数的方法推倒关系数据库的一些性质。下面简要回顾一下关系数据库的发

     

                                                                      关系数据库的代数性质
                                                                      前言
           本文只是尝试利用代数的方法推倒关系数据库的一些性质。下面简要回顾一下关系数据库的发展:
    1) CODASYL于1962发表“信息代数”一文。
    2) E.F.Codd从1970起发表了序列的论文。
    3) 20世纪70年代末的实验系统System R 和Ingres。
    4) 从20世纪80年代逐步走向成熟。
           本文的一些想法是受关系数据库代数性质的启发,同时也避免抄袭前人的成果,写本文纯属回顾大学接受的代数知识。
                               一 基本定义
          从数学的角度来讲,一个关系数据库表是一个向量的集合。为了研究关系数据库的代数性质,有必要先做一些基本的定义。
          定义(1):
                  S = {x| x D1X D2…X…DN} Di(1<=i <=N)是x第i分量的值域。称这样的 S是一个 N元关系集合。即若 x S,则 x=(d1,…,di,…, dN),其中 di Di
            定义(2):
           称 0iDi(1<=i <=N)NULL值。
           定义(3):
                  对于 x=(d1,…,di,…, dN),称 x δ (i) =( 01,…, 0i-1, di, 0i+1,…0N)xDi(1<=i <=N)上的投影,其中 di=0i
                  称 x δ (i)… δ (j)xDix…Dj上的投影,其中 x的分量 di 0i,…, dj 0j,
                  并且 1<=i<=j<=N
          定义(4):
           定义映射 FF满足以下的关系,即:
            F(x)= x δ (i)… δ (j)x δ (i)… δ (j)xDix…xDj上的投影, x S
          由于 x δ (i)… δ (j)xDix…xDj上的投影是惟一的,所以很容易验证 F是一个映射。
        定义(5)
       对于任意的投影域 D= Dkx…xDp,构造集合 S(D)={ Dk,…, Dp},称投影域 Dkx…xDp < Dix…xDj ,如果 S(Dkx…xDp)< S(Dix…xDj)。其中集合的 <是真子集关系。
       定义(6)
       对于投影域 Dkx…xDp,称这样的运算 τ
       τ (x) Dkx…xDpx S
       为 SDkx…xDp的投影运算。
    接着,先利用定义(4)来构造一个集合 J
        J={ x S | φ(F(x))=xτ (F(x)) Dix…Dj}, φF的反函数。
       现在,将对 J的各种情况解释。
    1)若投影域是 Dix…xDj,如果 J=Φ,且 S的个数大于1,那么 S的元素在 Dix…xDj的投影重复。如果 i=1j=N那么的 S元素是重复的。
    2)若投影域是 Dix…xDj,如果 J< S(真子集关系 ),且 S的个数大于1,那么 S的元素在 Dix…xDj的投影部分重复。如果 i=1j=N那么的 S元素部分重复。
    3)若投影域是 Dix…xDj,如果 J= S,那么 S的元素在 Dix…xDj的投影不重复。如果 i=1j=N那么的 S元素不重复。
    4)在3)的基础上,称 Dix…xDj是关键投影域。
    定义(7)
    极小关键投影域:
    Dix…xDj是极小关键投影域,对于任意的投影域 D,根据定义(5)有:
    D<Dix…xDj,且
    (1)J={ x S | φ(F(x))=xτ (F(x)) D}
    (2)J< S
    称极小关键投影域是 S的关键字域,称其他不存在极小关键投影域的投影域为非关键字域。
    由极小关键投影域的定义,很显然可以知道对于任何的关键投影域必存在极小关键投影域。
    思路受到阻塞,并且在思考写下去的意义!如果要写下去,必须写什么方面的内容?
    待续......!!!!!!!!!!!!!!!!!!!!!!!
    展开全文
  • 数据库通常分为层次式数据库、网络式数据库关系数据库三种。而不同的数据库是按不同的数据结构来联系和组织的。  1.数据结构模型  (1)数据结构  所谓数据结构是指数据的组织形式或数据之间的联系。...

    数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。而不同的数据库是按不同的数据结构来联系和组织的。

      1.数据结构模型

      (1)数据结构

      所谓数据结构是指数据的组织形式或数据之间的联系。如果用D表示数据,用R表示数据对象之间存在的关系集合,则将DS=(D,R)称为数据结构。例如,设有一个电话号码簿,它记录了n个人的名字和相应的电话号码。为了方便地查找某人的电话号码,将人名和号码按字典顺序排列,并在名字的后面跟随着对应的电话号码。这样,若要查找某人的电话号码(假定他的名字的第一个字母是Y),那么只须查找以Y开头的那些名字就可以了。该例中,数据的集合D就是人名和电话号码,它们之间的联系R就是按字典顺序的排列,其相应的数据结构就是DS=(D,R),即一个数组

      (2)数据结构种类

      数据结构又分为数据的逻辑结构和数据的物理结构。数据的逻辑结构是从逻辑的角度(即数据间的联系和组织方式)来观察数据,分析数据,与数据的存储位置无关。数据的物理结构是指数据在计算机中存放的结构,即数据的逻辑结构在计算机中的实现形式,所以物理结构也被称为存储结构。这里只研究数据的逻辑结构,并将反映和实现数据联系的方法称为数据模型。

      目前,比较流行的数据模型有三种,即按图论理论建立的层次结构模型和网状结构模型以及按关系理论建立的关系结构模型。

      2.层次、网状和关系数据库系统

      (1)层次结构模型

      层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。下图是一个高等学校的组织结构图。这个组织结构图像一棵树,校部就是树根(称为根结点),各系、专业、教师、学生等为枝点(称为结点),树根与枝点之间的联系称为边,树根与边之比为1:N,即树根只有一个,树枝有N个。

      按照层次模型建立的数据库系统称为层次模型数据库系统。IMS(Information Manage-mentSystem)是其典型代表。

      (2)网状结构模型

      按照网状数据结构建立的数据库系统称为网状数据库系统,其典型代表是DBTG(Data Base Task Group)。用数学方法可将网状数据结构转化为层次数据结构。

      (3)关系结构模型

      关系式数据结构把一些复杂的数据结构归结为简单的二元关系(即二维表格形式)。例如某单位的职工关系就是一个二元关系。

      由关系数据结构组成的数据库系统被称为关系数据库系统。

      在关系数据库中,对数据的操作几乎全部建立在一个或多个关系表格上,通过对这些关系表格的分类、合并、连接或选取等运算来实现数据的管理。dBASEII就是这类数据库管理系统的典型代表。对于一个实际的应用问题(如人事管理问题),有时需要多个关系才能实现。用dBASEII建立起来的一个关系称为一个数据库(或称数据库文件),而把对应多个关系建立起来的多个数据库称为数据库系统。dBASEII的另一个重要功能是通过建立命令文件来实现对数据库的使用和管理,对于一个数据库系统相应的命令序列文件,称为该数据库的应用系统。因此,可以概括地说,一个关系称为一个数据库,若干个数据库可以构成一个数据库系统。数据库系统可以派生出各种不同类型的辅助文件和建立它的应用系统。


    在上面提到的“三高”需求面前,关系数据库遇到了难以克服的障碍,而对于web2.0网站来说,关系数据库的很多主要特性却往往无用武之地,例如: 

    1、数据库事务一致性需求 
    很多web实时系统并不要求严格的数据库事务,对读一致性的要求很低,有些场合对写一致性要求也不高。因此数据库事务管理成了数据库高负载下一个沉重的负担。 

    2、数据库的写实时性和读实时性需求 
    对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出来这条数据的,但是对于很多web应用来说,并不要求这么高的实时性,比方说我(JavaEye的robbin)发一条消息之后,过几秒乃至十几秒之后,我的订阅者才看到这条动态是完全可以接受的。 

    3、对复杂的SQL查询,特别是多表关联查询的需求 
    任何大数据量的web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的复杂SQL报表查询,特别是SNS类型的网站,从需求以及产品设计角度,就避免了这种情况的产生。往往更多的只是单表的主键查询,以及单表的简单条件分页查询,SQL的功能被极大的弱化了。 


    关系数据库的特点:
    特点
    数据库管理系统将具有一定结构的数据组成一个集合,它主要具有以下几个特点:
    1. 数据的结构化 数据库中的数据并不是杂乱无章、毫不相干的,它们具有一定的组织结构,属于同一集合的数据具有相似的特征。
    2. 数据的共享性 在一个单位的各个部门之间,存在着大量的重复信息。使用数据库的目的就是要统一管理这些信息,减少冗余度,使各个部门共同享有相同的数据。
    3. 数据的独立性 数据的独立性是指数据记录和数据管理软件之间的独立。数据及其结构应具有独立性,而不应该去改变应用程序。
    4. 数据的完整性 数据的完整性是指保证数据库中数据的正确性。可能造成数据不正确的原因很多,数据库管理系统通过对数据性质进行检查而管理它们。
    5. 数据的灵活性 数据库管理系统不是把数据简单堆积,它在记录数据信息的基础上具有很多的管理功能,如输入、输出、查询、编辑修改等。
    6. 数据的安全性 根据用户的职责,不同级别的人对数据库具有不同的权限,数据库管理系统应该确保数据的安全性。

    简单言之,关系数据库就是,数据库表跟表之间需要存在一定的关系。比如,你系跟学生的一对多关系之类。
    而非关系数据库,就是表跟表之间不存在关系

    关系型数据库的特点

    关系型数据库最大特点就是事务的一致性:传统的关系型数据库读写操作都是事务的,具有ACID(原子性Atomicity、一致性Consistency、隔离性Isolation、持久性Durability)的特点,C就是一致性(Consistency),这个特点是关系型数据库的灵魂(其他三个AID都是为其服务的),这个特性使得关系型数据库可以用于几乎所有对一致性有要求的系统中,如典型的银行系统。

    但是,在网页应用中,尤其是SNS应用中,一致性却不是显得那么重要,用户A看到的内容和用户B看到同一用户C内容更新不一致是可以容忍的,或者说,两个人看到同一好友的数据更新的时间差那么几秒是可以容忍的,因此,关系型数据库的最大特点在这里已经无用武之地,起码不是那么重要了。

    相反的,关系型数据库为了维护一致性所付出的巨大代价就是其读写性能比较差,而像微博,facebook这类SNS的应用,对并发读写能力要求极高,关系型数据库已经无法应付(在读方面,传统上为了克服关系型数据库缺陷,提高性能,都是增加一级memcache来静态化网页,而在SNS中,变化太快,memcache已经无能为力),因此,必须用新的一种数据结构化存储来来代替关系数据库。

    关系数据库的另一个特点就是其具有固定的表结构,因此,其扩展性极差,而在SNS中,系统的升级,功能的增加,往往意味着数据结构巨大改动,这一点关系型数据库也难以应付,需要新的结构化数据存储。

    于是,非关系数据库(NoSQL)应运而生,由于不可能用一种数据结构化存储方式应付所有的新的需求,因此,非关系型数据库严格上不是一种数据库,应该是一种数据结构化存储方法的集合。

    必须强调的是,数据的持久存储,尤其是海量数据的持久存储,还是需要关系数据库这员老将。

    非关系型数据库分类

    由于关系型数据库本身天然的多样性,以及出现的时间较短,因此,不像关系型数据库,有几种数据库能够一统江山,关系型数据库的非常多,并且大部分都是开源的,这里列出一些:Redis,Tokyo Cabinet,Cassandra,Voldemort,MongoDB,Dynomite,HBase,CouchDB,Hypertable,Riak,Tin, Flare,Lightcloud,KiokuDB,Scalaris,Kai,ThruDB…

    这些数据库中,其实实现大部分都比较简单,除了一些共性外,很大一部分都是针对某些特定的应用需求出现的,因此,对于该类应用,具有极高的性能。依据结构化方法以及应用场合的不同,主要分为以下几类:

    1. 面向高性能并发读写的Key-Value数据库:Key-Value数据库的主要特点就是具有极高的并发读写性能,Redis,Tokyo Cabinet,Flare就是这类的代表。
    2. 面向海量数据访问的面向文档数据库(Document store):这类数据库的特点是,可以在海量的数据中快速的查询数据。典型代表为MongoDB以及CouchDB。
    3. 面向可扩展性的分布式数据库(Object Store):这类数据库想解决的问题就是传统数据库在可扩展性上的缺陷,这类数据库可以适应数据量的增加以及数据结构的变化,Google Appengine的Big Table就是这类的典型代表,并且,BigTable特别适用于Map Reduce处理。

    这里只对这几类数据库简要的介绍,需要详情可以看:http://en.wikipedia.org/wiki/NoSQL

    有空的话,以后也扯扯各类的具体差别,另外,个人感觉RAM Database挺有前途的,果如此,memcache就几乎不用了。



    1. 关系型数据库

    关系型数据库,是指采用了关系模型来组织数据的数据库。

    关系模型是在1970年由IBM的研究员E.F.Codd博士首先提出的,在之后的几十年中,关系模型的概念得到了充分的发展并逐渐成为主流数据库结构的主流模型。

    简单来说,关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织

    关系模型中常用的概念:

    • 关系:可以理解为一张二维表,每个关系都具有一个关系名,就是通常说的表名
    • 元组:可以理解为二维表中的一行,在数据库中经常被称为记录
    • 属性:可以理解为二维表中的一列,在数据库中经常被称为字段
    • :属性的取值范围,也就是数据库中某一列的取值限制
    • 关键字:一组可以唯一标识元组的属性,数据库中常称为主键,由一个或多个列组成
    • 关系模式:指对关系的描述。其格式为:关系名(属性1,属性2, ... ... ,属性N),在数据库中成为表结构

    关系型数据库的优点:

    • 容易理解:二维表结构是非常贴近逻辑世界的一个概念,关系模型相对网状、层次等其他模型来说更容易理解
    • 使用方便:通用的SQL语言使得操作关系型数据库非常方便
    • 易于维护:丰富的完整性(实体完整性、参照完整性和用户定义的完整性)大大减低了数据冗余和数据不一致的概率

    2. 关系型数据库瓶颈

    • 高并发读写需求

    网站的用户并发性非常高,往往达到每秒上万次读写请求,对于传统关系型数据库来说,硬盘I/O是一个很大的瓶颈

    • 海量数据的高效率读写

    网站每天产生的数据量是巨大的,对于关系型数据库来说,在一张包含海量数据的表中查询,效率是非常低的

    • 高扩展性和可用性

    在基于web的结构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移。


    对网站来说,关系型数据库的很多特性不再需要了:

    • 事务一致性

    关系型数据库在对事物一致性的维护中有很大的开销,而现在很多web2.0系统对事物的读写一致性都不高

    • 读写实时性

    对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出这条数据的,但是对于很多web应用来说,并不要求这么高的实时性,比如发一条消息之后,过几秒乃至十几秒之后才看到这条动态是完全可以接受的

    • 复杂SQL,特别是多表关联查询

    任何大数据量的web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的复杂SQL报表查询,特别是SNS类型的网站,从需求以及产品阶级角度,就避免了这种情况的产生。往往更多的只是单表的主键查询,以及单表的简单条件分页查询,SQL的功能极大的弱化了


    在关系型数据库中,导致性能欠佳的最主要原因是多表的关联查询,以及复杂的数据分析类型的复杂SQL报表查询。为了保证数据库的ACID特性,我们必须尽量按照其要求的范式进行设计,关系型数据库中的表都是存储一个格式化的数据结构。每个元组字段的组成都是一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段,这样的结构可以便于标语表之间进行链接等操作,但从另一个角度来说它也是关系型数据库性能瓶颈的一个因素。

    3. NoSQL

    NoSQL一词首先是Carlo Strozzi在1998年提出来的,指的是他开发的一个没有SQL功能,轻量级的,开源的关系型数据库。这个定义跟我们现在对NoSQL的定义有很大的区别,它确确实实字如其名,指的就是“没有SQL”的数据库。但是NoSQL的发展慢慢偏离了初衷,我们要的不是“no sql”,而是“no relational”,也就是我们现在常说的非关系型数据库了。

    2009年初,Johan Oskarsson举办了一场关于开源分布式数据库的讨论,Eric Evans在这次讨论中再次提出了NoSQL一词,用于指代那些非关系型的,分布式的,且一般不保证遵循ACID原则的数据存储系统。Eric Evans使用NoSQL这个词,并不是因为字面上的“没有SQL”的意思,他只是觉得很多经典的关系型数据库名字都叫“**SQL”,所以为了表示跟这些关系型数据库在定位上的截然不同,就是用了“NoSQL“一词。

    注:数据库事务必须具备ACID特性,ACID是Atomic原子性,Consistency一致性,Isolation隔离性,Durability持久性。


    非关系型数据库提出另一种理念,例如,以键值对存储,且结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。使用这种方式,用户可以根据需要去添加自己需要的字段,这样,为了获取用户的不同信息,不需要像关系型数据库中,要对多表进行关联查询。仅需要根据id取出相应的value就可以完成查询。但非关系型数据库由于很少的约束,他也不能够提供像SQL所提供的where这种对于字段属性值情况的查询。并且难以体现设计的完整性。他只适合存储一些较为简单的数据,对于需要进行较复杂查询的数据,SQL数据库显的更为合适。


    4. 关系型数据库  V.S.  非关系型数据库

    关系型数据库的最大特点就是事务的一致性:传统的关系型数据库读写操作都是事务的,具有ACID的特点,这个特性使得关系型数据库可以用于几乎所有对一致性有要求的系统中,如典型的银行系统。

    但是,在网页应用中,尤其是SNS应用中,一致性却不是显得那么重要,用户A看到的内容和用户B看到同一用户C内容更新不一致是可以容忍的,或者说,两个人看到同一好友的数据更新的时间差那么几秒是可以容忍的,因此,关系型数据库的最大特点在这里已经无用武之地,起码不是那么重要了。

    相反地,关系型数据库为了维护一致性所付出的巨大代价就是其读写性能比较差,而像微博、facebook这类SNS的应用,对并发读写能力要求极高,关系型数据库已经无法应付(在读方面,传统上为了克服关系型数据库缺陷,提高性能,都是增加一级memcache来静态化网页,而在SNS中,变化太快,memchache已经无能为力了),因此,必须用新的一种数据结构存储来代替关系数据库。

    关系数据库的另一个特点就是其具有固定的表结构,因此,其扩展性极差,而在SNS中,系统的升级,功能的增加,往往意味着数据结构巨大变动,这一点关系型数据库也难以应付,需要新的结构化数据存储。

    于是,非关系型数据库应运而生,由于不可能用一种数据结构化存储应付所有的新的需求,因此,非关系型数据库严格上不是一种数据库,应该是一种数据结构化存储方法的集合

    必须强调的是,数据的持久存储,尤其是海量数据的持久存储,还是需要一种关系数据库这员老将


    5. 非关系型数据库分类

    由于非关系型数据库本身天然的多样性,以及出现的时间较短,因此,不想关系型数据库,有几种数据库能够一统江山,非关系型数据库非常多,并且大部分都是开源的。

    这些数据库中,其实实现大部分都比较简单,除了一些共性外,很大一部分都是针对某些特定的应用需求出现的,因此,对于该类应用,具有极高的性能。依据结构化方法以及应用场合的不同,主要分为以下几类:

    • 面向高性能并发读写的key-value数据库:

    key-value数据库的主要特点即使具有极高的并发读写性能,Redis,Tokyo Cabinet,Flare就是这类的代表

    • 面向海量数据访问的面向文档数据库:

    这类数据库的特点是,可以在海量的数据中快速的查询数据,典型代表为MongoDB以及CouchDB

    • 面向可扩展性的分布式数据库:

    这类数据库想解决的问题就是传统数据库存在可扩展性上的缺陷,这类数据库可以适应数据量的增加以及数据结构的变化







    展开全文
  • 数据库原理与应用(5)——关系、关系模式、关系数据库关系数据库模式 一、关系的形式化定义和概念 1、关系上域的定义 域(Domain):一组具有相同数据类型的值的集合,又称为值域(用D表示) 整数、实数、和字符...

    数据库原理与应用(5)——关系、关系模式、关系数据库与关系数据库模式

    一、关系的形式化定义和概念

    1、关系上域的定义

    • 域(Domain):一组具有相同数据类型的值的集合,又称为值域(用D表示)
    • 整数、实数、和字符串的集合都是域
    • 域中所包含的值的个数称为域的基数(用m表示)。在关系中用域表示属性的取值范围

    2、笛卡尔积(Cartesian Product)

    给定一组域D1、D2…Dn,它们可以包含相同的元素,即可以完全不同,也可以部分或全部相同。
    D1、D2…Dn的笛卡尔积为
    D1 × D2 × Dn = {(d1,d2,…,dn)|di∈Di,i=1,2,…,n}

    • 每一个元素(d1,d2,…,dn)中的每一个值di叫做一个分量(Component),di∈Di
    • 每一个元素(d1,d2,…,dn)叫做一个n元组,简称元组(Tuple)
    • 笛卡尔积D1 × D2 ×… ×Dn的基数M(即元组(d1,d2,…,dn)的个数)为所有域的基数的累乘之积,即M=m1+m2+…+mi

    3、关系

    笛卡尔积D1 × D2 ×… ×Dn的任意子集称为定义在域D1、D2…Dn上的n 元关系

    R(D1、D2…Dn

    二、关系的相关概念

    • 在关系R中,当n=1时,称为单元关系。当n=2 时,称为二元关系,以此类推
    • 关系中的每个元素是关系中的元组,通常用t表示,关系中元组个数是关系的基数
    • 由于关系是笛卡尔积的子集,因此,也可以把关系看成一个二维表
    • 具有相同关系框架的关系称为同类关系

    三、关系的性质

    一种规范化了的二维表中行的集合

    • 每一列中的分量必须来自同一个域,必须是同一类型的数据
    • 不同的列可来自同一个域,每一列成为属性,不同的属性必须有不同的名字
    • 列的顺序可以任意交换,名字同时换
    • 关系中元组的顺序(即行序)可任意
    • 关系中每一分量必须是不可分的数据项

    四、关系模式

    • 关系是笛卡尔积的子集,子集由元组构成,关系模式需要指出元组的结构胶,即由哪些属性构成,属性取自哪一个域,属性与域之间的映射关系
    • 现实世界不断变化,关系模式的关系也不断变化,但是关系模式限定了关系的变化可能性,即关系的变化必须满足约束条件

    关系模式是对关系的描述

    R(U,D,DOM,F) 简记为:R(U)或R(A1,A2,…,An)

    • R——关系名
    • U——属性集合名
    • D——属性所来自的域
    • DOM——属性向域的映像集合
    • F——属性间数据的依赖关系集合

    关系模式和关系的比较

    关系模式关系
    关系的框架关系的值
    关系表框架关系表数据
    对关系结构的描述关系模式在某一时刻的状态或内容
    静态的、稳定的动态的

    五、关系数据库与关系数据库模式

    1、关系数据库

    • 型:关系数据库模式
    • 值:关系数据库值

    在给定领域中,所有实体以及实体之间的联系所对应的关系集合构成一个关系数据库

    在某一状态下对应的关系集合、描述了关系模式的内容、也成关系数据库实例

    2、关系数据库模式

    • 对关系数据库的描述,由若干域的定义以及在这些域上定义的若干关系模式构成
    • 描述了关系数据库的结构和框架
    展开全文
  • 关系数据库设计理论

    千次阅读 2018-07-11 18:32:27
    关系数据库设计理论 设计一个好的关系数据库系统,关键是要设计一个好的数据库模式(数据库逻辑设计问题) 数据库逻辑设计主要解决的问题 关系数据库应该组织成几个关系模式 关系模式中包括哪些属性 ...
  • 关系数据库理论

    2016-10-25 00:35:52
    数据库应用系统开发的核心问题之一是数据库模式设计 在关系模型提出之前 数据库模式的设计缺乏系统的方法 ...我们将研究好的关系模式的一些期望的性质,并提供一些算法,用于得到具有期望性质数据库模式
  • Oracle 关系数据库

    2016-06-05 22:38:45
    一、 Oracle 关系数据库关系模型是关系数据库的基础,它利用关系来描述显示世界。以用户的观点来看,一个关系就是一张二维。 关系数据模型是由关系数据结构、关系操作和关系的完整性约束三部分组成。 1、数据结构...
  • 数据库笔记2————关系数据库(关系代数) 一.主要内容/知识框架 二.关系数据结构 按照数据模式的三个要素,关系数据模型由关系数据结构,关系数据操作,和关系完整性约束3部分组成。
  • 关系数据库关系数据模型关系是一个数学概念。 当把关系的概念引入到数据库系统作为数据模型的数据结构时,既有所限定和也有所扩充。 关系的数学定义例: 课程={离散,C语言…..},学生={张三,李四…..} 笛卡儿积...
  • 4.1 数据依赖 4.1.1 关系模式中的数据依赖 概念回顾 关系模式的形式化定义 4.1.2 数据依赖对关系模式的影响 ...多值依赖的性质 二、第四范式(4NF) 4.3 关系范式的规范化 4.3.1 关系范式规范化的步骤
  • 数据库的基本关系(基本

    千次阅读 2019-02-24 22:19:06
    数据库中有三种关系,分别是:基本关系(又称基本或基表),查询,视图表 基本是实际存在的,查询是查询结果对应的,视图表是由基本和其他视图表导出的,是虚,不对应实际存储的数据。 下面我们来...
  • 关系数据库系统(数据库原理)

    千次阅读 多人点赞 2019-06-12 22:15:51
    关系数据库系统(数据库原理) 目录 一、关系数据结构 二、关系的完整性 三、关系运算 四、关系的规范化 一、关系数据结构 1、关系的定义和性质 (1)、 关系的数学定义: 域:一组有相同数据类型的值得...
  • 关系数据库模型设计

    千次阅读 2020-05-19 17:13:17
    本文从现实世界-概念世界(信息世界)-机器世界(数据世界)逐级抽象,旨在以浅显易懂的语言描述关系数据库应该如何建模,最后用简单名了的描述给出关系模型的设计范式的含义。
  • 数据库原理—关系数据库

    千次阅读 2020-09-05 19:58:37
    1、关系数据库结构 (1)域:一组具有相同数据类型的值的集合(如整数、实数、指定长度的字符串集合) (2)笛卡尔积运算:假设两个集合D1和D2,其中D1={2,4},D2={1,3,5},这两个集合的笛卡尔积D1×D2={(2,1)...
  • 在用户看来,关系模型中数据的逻辑结构是一张扁平的二维。 1.1域 域是一组具有相同数据类型值的集合。 1.2笛卡儿积 笛卡儿积是域上的一种集合运算。 定义:给定一组域D1,D2,...,Dn,允许其中某些域是...
  • 数据库表的三种关系

    千次阅读 2011-03-23 18:53:00
    一对一的关系(1:1): 在一中有一条记录,则在另一张中有一条记录相匹配。一般是看主每一个字段对应另一张的匹配记录条数。    上图中学生实体与政治面貌实体是1:1的关系,一个学生只有一个...
  • 关系模型的数据结构
  • 关系数据库

    2010-02-03 16:55:00
    1.数据库的出现的必要性和对数据库的要求尽管文件系统可以解决不少问题,但是下面的问题是文件系统所无法解决的,如果给文件系统加上这些特性,那么文件系统也就成为了一个数据库(有点裸设备的味道)。数据的冗余和...
  • 关系数据库采用二维表格来存储数据,是一种按行与列排列的具有相关信息的逻辑组,它类似于Excel工作。一个数据库可以包含任意多个数据。 在用户看来,一个关系模型的逻辑结构是一张二维,由行和列组成。...
  • 当时SQL server数据库准备考试了,我花了两个星期把整本书看了,这些是...1.关系的基本概念和性质关系就是一张特定的()二维。 -|关系的数学定义:域(同类型值集合)、由笛卡儿积(任意域各自相乘)推出关...
  • 国家电网招聘考试 关系数据库模型和关系代数重点 师说教育考试教学团队编录 一考点要 1关系关系性质候选键外部键主属性非主属性关系模型完整性关 系模式关系数据库等基本概念 2关系代数及其运算并差交笛卡尔积投影...
  • A有个字段为水果,A有三条记录,存了苹果、香蕉、榴莲;...苹果 需访问到B的颜色、性质; 香蕉 需访问到C的长度; 榴莲 需访问到D的厚度、硬度; 怎样通过A更合理地关联BCD?
  • 关系数据库2.1关系数据结构及形式化定义2.1.1关系2.1.2关系模式2.1.3关系数据库2.1.4关系模型的存储结构2.2关系操作2.2.1 基本的关系操作2.2.2 关系数据语言的分类2.3关系的完整性2.3.1 实体完整性2.3.2参照完整性...
  • 关系数据库基础

    千次阅读 2016-11-26 15:38:58
    数据库是按照数据结构来组织、存储和管理数据的仓库(图书馆),数据库技术产生于20世纪60年代末70年代初,其发展阶段为:人工管理阶段,文件系统阶段,数据库系统阶段。 人工管理阶段 20世纪50年代中期之前,计算机...
  • 第八章 关系数据库设计 8.1 好的关系设计的特点 数据库逻辑设计主要解决的问题: –关系数据库应该组织成几个关系模式 –关系模式中有包括哪些属性 从不良的设计模式到良好的设计模式的过程 不良的设计...
  • 【数据库系统】数据库系统概论====第二章 关系数据库 关系数据库简介 1970年IBM公司的E.F.Codd提出关系数据模型 1972年提出了关系的第一、第二、第三范式 1974年提出了关系的BC范式 80年代后,关系数据库系统成为最...
  • 关系数据库——关系的完整性约束

    千次阅读 2019-04-09 08:38:38
    介绍关系数据库完整性约束——实体完整性,参照完整性、用户自定义完整性
  • 文章目录0.思维导图1. 关系(1)域(Domain)(2)...关系数据库 0.思维导图 1. 关系 什么是关系? 单一的数据结构----关系 现实世界的实体以及实体间的各种联系均用关系来表示 逻辑结构----二维 从用户角度,...
  • 数据库考点之关系代数表达

    千次阅读 2020-10-06 16:46:58
    关系代数这部分虽然在2019年10月14日《软考考点之数据库关系运算符含义的理解》中有所涉及,但是相当的不全面的,也很不系统。 1、关系代数的存在的意义: 关系代数(代数方式)、元组关系演算与域关系演算(逻辑...
  • 数据库复习——2、关系数据库

    千次阅读 2018-12-29 18:49:52
    关系数据库由关系数据结构、关系操作集合和完整性约束组成。 1、 关系模型的数据结构只包含关系。 域: 具有相同数据类型值的集合 笛卡尔积: 集合运算 关系: 关系是笛卡尔积的有限子集,关系也是一个二维。 属性...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 59,959
精华内容 23,983
关键字:

关系数据库表的性质