精华内容
下载资源
问答
  • python缺失处理一般情况下有三种方法:(1)删掉缺失值数据删除法是对缺失值进行处理最原始方法。它将存在缺失值个案删除。如果数据缺失问题可以通过简单删除小部分样本来达到目标,那么这个方法是最有效。...

    缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。

    python缺失的处理一般情况下有三种方法:

    (1)删掉缺失值数据

    删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。

    (2)不对其进行处理

    在实际应用中,一些模型无法应对具有缺失值的数据,因此要对缺失值进行处理。然而还有一些模型本身就可以应对具有缺失值的数据,此时无需对数据进行处理,比如Xgboost,rfr等高级模型。

    (3)利用插补法对数据进行补充

    A.均值插补

    属于单值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就用该属性的众数来补齐缺失的值。

    B.利用同类均值插补

    属于单值插补。用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。

    C.热卡填补

    热卡填充法是在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。通常会找到超出一个的相似对象,在所有匹配对象中没有最好的,而是从中随机的挑选一个作为填充值。这个问题关键是不同的问题可能会选用不同的标准来对相似进行判定,以及如何制定这个判定标准。该方法概念上很简单,且利用了数据间的关系来进行空值估计,但缺点在于难以定义相似标准,主观因素较多。

    D.多重插补

    多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。

    E.极大似然估计(Max Likelihood ,ML)

    在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization,EM)。

    F.建模预测

    将缺失的属性作为预测目标来预测,将数据集按照是否含有特定属性的缺失值分为两类,利用现有的机器学习算法对待预测数据集的缺失值进行预测。

    该方法的根本的缺陷是如果其他属性和缺失属性无关,则预测的结果毫无意义;但是若预测结果相当准确,则说明这个缺失属性是没必要纳入数据集中的;一般的情况是介于两者之间。

    以上就是小编整理的python缺失值处理的几种常用方法,希望对大家有所帮助。

    完 谢谢观看

    展开全文
  • 可以带着下面问题来阅读: 1.Hive用户接口主要几个?分别是什么?常用几个? 2.能否通过界面操作HIVE?...6.Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库? 分别几种? 7.Hive数据模型
    可以带着下面问题来阅读:
    1.Hive用户接口主要有几个?分别是什么?常用几个?
    2.能否通过界面操作HIVE?
    3.Hive元数据通常存储在什么地方?
    4.HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成靠什么完成?
    5.生成的查询计划存储在什么位置?
    6.Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库?
    分别哪几种?
    7.Hive数据模型都包含什么?
    8.External Table的指向什么数据?





    同时阅读本文需要了解的概念
    1.什么元数据?
    主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件纪录等功能。

    2.Partition是指分区的意思




    Hive 的结构如图所示,



    主要分为以下几个部分:

    • 用户接口,包括 CLI,Client,WUI
    • 元数据存储,通常是存储在关系数据库如 mysql, derby 中。
    • 解释器、编译器、优化器、执行器。
    • Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。



    用户接口主要有三个:CLI,Client 和 WUI
    其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 副本。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。

    Hive 将元数据存储在数据库中
    如 mysql、derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

    解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。
    Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。


    ----------------------------------------------------------------------------------------------------------------------------------------------

    Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库:

    Single User Mode: 此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。



    Multi User Mode:通过网络连接到一个数据库中,是最经常使用到的模式。




    Remote Server Mode:用于非 Java 客户端访问元数据库,在服务器端启动一个 MetaStoreServer,客户端利用 Thrift 协议通过 MetaStoreServer 访问元数据库。




    Hive 的数据存储

    首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。

    其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,External Table,Partition,Bucket。

    Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。

    Partition 对应于数据库中的 Partition 列的密集索引,但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/ctry=US;对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为;/wh/pvs/ds=20090801/ctry=CA
    Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,对应 hash 值为 0 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00020

    External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition。它和 Table 在元数据的组织上是相同的,而实际数据的存储则有较大的差异。
    Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。

    External Table 只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。
    展开全文
  • 它们变得流行起来托了管理系统福,关系模型被实现得相当好,并且被证明是操作数据的好方法(特别是事务性强应用)。 在这篇DigitalOcean文章中,我们将尝试理解一些最常用、最流行关系型数据库管理系统...

    关系型数据库的使用已经有相当长的时间了。它们变得流行起来托了管理系统的福,关系模型被实现得相当的好,并且被证明是操作数据的好方法(特别是事务性强的应用)。

    在这篇DigitalOcean文章中,我们将尝试理解一些最常用、最流行的关系型数据库管理系统(RDBMS)的内核区别。我们将会探索最底层的区别——特性与功能,它们如何工作,在哪方面更出色,以帮助程序员选择合适的RDBMS。


    目录:

    一、数据库管理系统
    1、关系型数据库管理系统
    2、关系与数据类型
    3、重要的和流行的关系型数据库

    二、SQLite
    1、SQLite支持的数据类型
    2、SQLite的优势
    3、SQLite的劣势
    4、何时使用SQLite
    5、何时不用SQLite

    三、MySQL
    1、MySQL支持的数据类型
    2、MySQL的优势
    3、MySQL的劣势
    4、何时使用MySQL
    5、何时不用MySQL

    四、PostgreSQL
    1、PostgreSQL支持的数据类型
    2、PostgreSQL的优势
    3、PostgreSQL的劣势
    4、何时使用PostgreSQL
    5、何时不用PostgreSQL

     

    一、数据库管理系统
    数据库是有组织地存储模型数据的空间,存储各种类型的信息(数据)。每个数据库,除了无模式型的,都有一个模型,提供数据的结构描述。数据库管理系统是管理数据库结构、大小和排序的应用(或库)。

    1、关系型数据库管理系统
    关系型数据库系统实现了关系模型,并用它来处理数据。关系模型在表中将信息与字段关联起来(也就是schemas),从而存储数据。

    这种数据库管理系统需要结构(例如表)在存储数据之前被定义出来。有了表,每一列(字段)都存储一个不同类型(数据类型)的信息。数据库中的每个记录,都有自己唯一的key,作为属于某一表的一行,行中的每一个信息都对应了表中的一列——所有的关系一起,构成了关系模型。

    2、关系和数据类型
    关系可以被看做是包含一系列共同表示被保持数据库以及相关信息的属性的数学集合. 这种类型的识别和采集方法可以让关系型数据库以它们自己的方式运作.

    在定义一个可以向其中插入数据的表时,每一个形成一条记录的元素(例如: 属性)都必须同定义的数据类型相匹配(例如:一个integer, 一个date 等等.). 不同的关系型数据库管理系统实现了不同的数据类型 -- 它们不总是能直接互相转换的.

    与限制的协作,就像我们之前已经介绍过的,在关系数据库的使用中是很普遍的。事实上,限制形成了关系的核心.

    3、重要和流行的关系型数据库
    本文中,我们将会介绍三种主要而且重要的开源关系型数据库管理系统,是他们影响了应用开发世界。

    SQLite 一个强大的嵌入式关系型数据库管理系统
    MySQL 最流行的RDBMS
    PostgreSQL 最先进SQL型开源objective-RDBMS

     

    注: 开源应用总是可以自由使用的。大多数时候,复制工程(利用代码)创建新应用也是被允许的。如果你对DBMS感兴趣,你可以看看一些基于这些工程的分支项目,例如MariaDB。

     

    二、SQLite
    SQLite是非凡的数据库,他可以进程在使用它的应用中。作为一个自包含、基于文件的数据库,SQLite提供了出色的工具集,可以处理所有类型的数据,没有什么限制,而且比起服务器运行的进程型服务器使用起来轻松许多。

    一个应用使用SQLite时,它的功能直接被集成在其中,应用会直接访问包含数据的文件(即SQLite数据库),而不是通过一些端口(port, socket)来交互。感谢这种底层技术,这使SQLite变得非常快速和高效,并且十分强大。

    1、SQLite支持的数据类型

    NULL NULL值
    INTEGER 有符号整数,按照设置用1、2、3、4、6或8字节存储
    REAL 浮点数,使用8字节IEEE浮点数方式存储
    TEXT 文本字符串,使用数据库编码存储(UTF-8, UTF-16BE 或 UTF-16LE)
    BLOB 二进制大对象,怎么输入就怎么存储

     

    2、SQLite 的优点

    基于文件 整个数据库都包含在磁盘上的一个文件中,因此它有很好的迁移性
    标准化 尽管它看起来像个“简化版”的数据库,SQLite 确实支持 SQL。它略去了一些功能(RIGHT OUTER JOIN 和 FOR EACH STATEMENT),但是,又同时增加了一些其他功能
    对开发乃至测试都很棒 在绝大多数应用的开发阶段中,大部分人都非常需要解决方案能有并发的灵活性。SQLite 含有丰富功能基础,所能提供的超乎开发所需,并且简洁到只需一个文件和一个 C 链接库

     

    3、SQLite的缺点

    没有用户管理 高级数据库都能支持用户系统,例如,能管理数据库连接对数据库和表的访问权限。但由于 SQLite 产生的目的和本身性质(没有多用户并发的高层设计),它没有这个功能
    缺乏额外优化性能的灵活性 仍然是从设计之初,SQLite 就不支持使用各种技巧来进行额外的性能优化。这个库容易配置,容易使用。既然它并不复杂,理论上就无法让它比现在更快,其实现在它已经很快了

     

    4、什么时候要用 SQLite

    嵌入式应用 所有需要迁移性,不需要扩展的应用,例如,单用户的本地应用,移动应用和游戏
    代替磁盘访问 在很多情况下,需要频繁直接读/写磁盘文件的应用,都很适合转为使用 SQLite ,可以得益于 SQLite 使用 SQL 带来的功能性和简洁性
    测试 它能秒杀大部分专门针对应用业务逻辑(也就是应用的主要目的:能完成功能)的测试

     

    5、什么时候不要用SQLite

    多用户应用 如果你在开发的应用需要被多用户访问,而且这些用户都用同一个数据库,那么相比 SQLite 最好还是选择一个功能完整的关系型数据库(例如 MySQL)
    需要大面积写入数据的应用 SQLite 的缺陷之一是它的写入操作。这个数据库同一时间只允许一个写操作,因此吞吐量有限

     

     

    三、MySQL
    MySQL 在所有大型数据库服务器中最流行的一个. 它的特性丰富,产品的开源性质使得其驱动了线上大量的网站和应用程序. 要入手 MySQL 相对简单,开发人员可以在互联网上面访问到大量有关这个数据库的信息.

    注意: 由于这个产品的普及性,大量的第三方应用、工具和集成库对于操作这个RDBCMS的方方面面大有帮助.

    Mysql没有尝试去实现SQL标准的全部,而是为用户提供了很多有用的功能. 作为一个独立的数据库服务器,应用程序同Mysql守护进程的交互,告诉它去访问数据库自身 -- 这一点不像 SQLite.

    1、MySQL支持的数据类型

    TINYINT 一个非常小的整数
    SMALLINT 一个小整数
    MEDIUMINT 一个中间大小的整数
    INT or INTEGER 一个正常大小的整数
    BIGINT 一个大的整数
    FLOAT 一个小的 (单精度) 浮点数,不能是无符号的那种
    DOUBLE, DOUBLE PRECISION, REAL 一个正常大小 (双精度) 的浮点数,不能使无符号的那种
    DECIMAL, NUMERIC 没有被包装的浮点数。不能使无符号的那种
    DATE 一个日期
    DATETIME 一个日期和时间的组合
    TIMESTAMP 一个时间戳
    TIME 一个时间
    YEAR 一个用两位或者4位数字格式表示的年份(默认是4位)
    CHAR 一个固定长度的字符串,存储时总是在其固定长度的空间里右对齐
    VARCHAR 一个可变长度的字符串
    TINYBLOB, TINYTEXT 一个BLOB或者TEXT列,最大长度255 (2^8 - 1)个字符
    BLOB, TEXT 一个BLOB或者TEXT列,最大长度 65535 (2^16 - 1)个字符
    MEDIUMBLOB, MEDIUMTEXT 一个BLOB或者TEXT列,最大长度 16777215 (2^24 - 1)个字符
    LONGBLOB, LONGTEXT 一个BLOB或者TEXT列,最大长度4294967295 (2^32 - 1) 个字符
    ENUM 一个枚举类型
    SET 一个集合

     

    2、MySQL的优点

    容易使用 安装MySQL非常容易。第三方库,包括可视化(也就是有GUI)的库让上手使用数据库非常简单
    功能丰富 MySQL 支持大部分关系型数据库应该有的 SQL 功能——有些直接支持,有些间接支持
    安全 MYSQL 有很多安全特性,其中有些相当高级
    灵活而强大 MySQL 能处理很多数据,此外如有需要,它还能“适应”各种规模的数据
    快速 放弃支持某些标准,让 MySQL 效率更高并能使用捷径,因此带来速度的提升

     

    3、MySQL的缺点

    已知的局限 从设计之初,MySQL 就没打算做到全知全能,因此它有一些功能局限,无法满足某些顶尖水平应用的需求
    可靠性问题 MySQL 对于某些功能的实现方式(例如,引用,事务,数据审核等) 使得它比其他一些关系型数据库略少了一些可靠性
    开发停滞 尽管 MySQL 理论上仍是开源产品,也有人抱怨它诞生之后更新缓慢。然而,应该注意到有一些基于 MySQL 并完整集成的数据库(如 MariaDB),在标准的 MySQL 基础上带来了额外价值

     

    4、何时使用 MySQL?

    分布式操作 当你需要的比SQLite可以提供的更多时,把MySQL包括进你的部署栈,就像任何一个独立的数据库服务器,会带来大量的操作自由和一些先进的功能
    高安全性 MySQL的安全功能,用一种简单的方式为数据访问(和使用)提供了可靠的保护
    Web网站 和 Web应用 绝大多数的网站(和Web应用程序)可以忽视约束性地简单工作在MySQL上。这种灵活的和可扩展的工具是易于使用和易于管理的——这被证明非常有助于长期运行
    定制解决方案 如果你工作在一个高度量身定制的解决方案上,MySQL能够很容易地尾随和执行你的规则,这要感谢其丰富的配置设置和操作模式

     

    5、何时不用 MySQL?

    SQL 服从性 因为 MySQL 没有[想要]实现 SQL 的全部标准,所以这个工具不完全符合SQL。如果你需要对这样的关系数据库管理系统进行整合,从MySQL进行切换是不容易的
    并发 即使MySQL和一些存储引擎能够真地很好执行读取操作,但并发读写还是有问题的
    缺乏特色 再次提及,根据数据库引擎的选择标准,MySQL会缺乏一定的特性,如全文搜索

     

     

    四、PostgreSQL
    PostgreSQL 是一个先进的,开放源代码的[对象]-关系型数据库管理系统,它的主要目标是实现标准和可扩展性. PostgreSQL, 或者说是 Postgres, 试图把对 ANSI/ISO SQL标准的采用与修正结合起来.

    对比其他的RDBMS, PostgreSQL以它对于对象-关系和或关系型数据库功能,比如对于可靠事务,例如原子性,一致性,隔离性和持久性(ACID)的完全支持,这些东西的高度需求和集合的支持,以示其独特性.

    由于强大的底层技术, Postgres对于高效的完成许多处理任务很有一手. 得益于其多版本并发控制 (MVCC)的实现,在没有读取锁的前提下也能达成并发, 这也同样确保了ACID的实施.

    PostgreSQL是高度可编程的, 因而可以使用被称作“存储过程”的自定义程序进行扩展. 这些功能可以被创建用来简化一个写重复、复杂并且常常需要数据库操作的任务的执行.

    虽然特性强大,但这个 DBMS并没有MySQL那么流行, 可还是有许多迷人的第三方工具和库被设计出来用于使得对PostgreSQL的操作简化. 如今通过许多操作系统默认的包管理器轻松的获取PostgreSQL已成为可能.

    1、PostgreSQL支持的数据类型

    bigint 有符号的八位整数
    bigserial 自增长的八位整数
    bit [(n)] 固定长度的位串
    bit varying [(n)] 可变长度的位串
    boolean 逻辑布尔值(true/false)
    box 在一个平面上的矩形框
    bytea 二进制数据("位数组")
    character varying [(n)] 可变长度的字符串
    character [(n)] 固定长度的字符串
    cidr IPv4 或者 IPv6 网络地址
    circle 平面上的一个圆
    date 日历日期 ( 年月日)
    double precision 双精度浮点数(8位)
    inet IPv4 或者 IPv6 主机地址
    integer 有符号的四位整数
    interval [fields] [(p)] 时间跨度
    line 平面上的一个无限长的直线
    lseg 平面上的一个线段
    macaddr MAC (媒体访问控制)地址
    money 货币金额
    numeric [(p, s)] 可选精度的精确数字
    path 一个平面上的几何路径
    point 一个平面上的几何点
    polygon 一个平面上的闭合的几何路径
    real 单精度浮点数(4 位)
    smallint 有符号的两位整数
    serial 自增长4位整数
    text 可变长度字符创
    time [(p)] [without time zone] 一天中的时间(无时区)
    time [(p)] with time zone 一天中的时间,包含时区
    timestamp [(p)] [without time zone] 日期和时间(没有时区)
    timestamp [(p)] with time zone 日期和时间,包含时区
    tsquery 文本搜索查询
    tsvector 文本搜索文档
    txid_snapshot 用户级事务ID快照
    uuid 通用的唯一标识符
    xml XML 数据

     

    2、PostgreSQL的优点

    标准支持 SQL 的开源关系型数据库 PostgreSQL 是一个开源的,免费的,同时非常强大的关系型数据管理系统
    强大的社区 PostgreSQL 背后有热忱而经验丰富的社区,可以通过知识库和问答网站获取支持,全天候免费
    强大的第三方支持 即使其本身功能十分强大,PostgreSQL 仍附带有许多强大的开源第三方工具来辅助系统的设计、管理和使用
    可扩展性 可以用预先存储的流程来程序性扩展 PostgreSQL ,一个高级的关系型数据库理应如此
    面向对象 PostgreSQL 不只是一个关系型数据库,还是一个面向对象数据库——支持嵌套,及一些其他功能

    3、PostgreSQL的缺点:

    性能 对于简单而繁重的读取操作, 超过了 PostgreSQL 的杀伤力,可能会出现比同行(如MySQL)更低的性能
    普及 按给出的该工具的性质,从普及度来说它还缺乏足够后台支撑,尽管有大量的部署——这可能会影响能够获得支持的容易程度
    托管 由于上述因素的影响,要让主机或服务提供商提出使用PostgreSQL实例是很难的

     

    4、何时使用PostgreSQL?

    数据完整性 当可靠性和数据完整性是绝对必要而无需理由时,PostgreSQL是更好的选择
    复杂的自定义过程 如果你需要你的数据库执行自定义过程,可扩展的PostgreSQL是更好的选择
    整合 在将来,如果可能要把整个数据库系统迁移到另一个适当的解决方案(例如Oracle)中,PostgreSQL对于这种切换将是最兼容和易于操作的
    复杂的设计 相比其他的开源和免费的 RDBMS(关系数据库管理系统)实现来说,对于复杂的数据库设计,PostgreSQL提供了大部分的功能和可能性,同时并没放弃其他有价值的地方

     

    5、何时不用 PostgreSQL?

    速度 如果你需要的只是快速的读取操作, PostgreSQL 不是为此而准备的工具
    简化体制 除非你需要绝对的数据完整性,原子性,一致性,隔离性,耐久性,或复杂的设计,PostgreSQL 对简化体制来说是杀手
    复制 除非你愿意花不少时间,精力和资源,否则对于那些缺乏数据库和系统管理经验的人来说,实现与MySQL的(主从)复制可能不容易

     

    转载至:https://blog.csdn.net/u014805066/article/details/56675470
    展开全文
  • 它们变得流行起来托了管理系统福,关系模型被实现得相当好,并且被证明是操作数据的好方法(特别是事务性强应用)。 在这篇DigitalOcean文章中,我们将尝试理解一些最常用、最流行关系型数据库管理系统...

    关系型数据库的使用已经有相当长的时间了。它们变得流行起来托了管理系统的福,关系模型被实现得相当的好,并且被证明是操作数据的好方法(特别是事务性强的应用)。

    在这篇DigitalOcean文章中,我们将尝试理解一些最常用、最流行的关系型数据库管理系统(RDBMS)的内核区别。我们将会探索最底层的区别——特性与功能,它们如何工作,在哪方面更出色,以帮助程序员选择合适的RDBMS。


    目录:

    一、数据库管理系统
    1、关系型数据库管理系统
    2、关系与数据类型
    3、重要的和流行的关系型数据库

    二、SQLite
    1、SQLite支持的数据类型
    2、SQLite的优势
    3、SQLite的劣势
    4、何时使用SQLite
    5、何时不用SQLite

    三、MySQL
    1、MySQL支持的数据类型
    2、MySQL的优势
    3、MySQL的劣势
    4、何时使用MySQL
    5、何时不用MySQL

    四、PostgreSQL
    1、PostgreSQL支持的数据类型
    2、PostgreSQL的优势
    3、PostgreSQL的劣势
    4、何时使用PostgreSQL
    5、何时不用PostgreSQL

     

    一、数据库管理系统

    数据库是有组织地存储模型数据的空间,存储各种类型的信息(数据)。每个数据库,除了无模式型的,都有一个模型,提供数据的结构描述。数据库管理系统是管理数据库结构、大小和排序的应用(或库)。

    1、关系型数据库管理系统

    关系型数据库系统实现了关系模型,并用它来处理数据。关系模型在表中将信息与字段关联起来(也就是schemas),从而存储数据。

    这种数据库管理系统需要结构(例如表)在存储数据之前被定义出来。有了表,每一列(字段)都存储一个不同类型(数据类型)的信息。数据库中的每个记录,都有自己唯一的key,作为属于某一表的一行,行中的每一个信息都对应了表中的一列——所有的关系一起,构成了关系模型。

    2、关系和数据类型

    关系可以被看做是包含一系列共同表示被保持数据库以及相关信息的属性的数学集合. 这种类型的识别和采集方法可以让关系型数据库以它们自己的方式运作.

    在定义一个可以向其中插入数据的表时,每一个形成一条记录的元素(例如: 属性)都必须同定义的数据类型相匹配(例如:一个integer, 一个date 等等.). 不同的关系型数据库管理系统实现了不同的数据类型 -- 它们不总是能直接互相转换的.

    与限制的协作,就像我们之前已经介绍过的,在关系数据库的使用中是很普遍的。事实上,限制形成了关系的核心.

    3、重要和流行的关系型数据库

    本文中,我们将会介绍三种主要而且重要的开源关系型数据库管理系统,是他们影响了应用开发世界。

    SQLite 一个强大的嵌入式关系型数据库管理系统
    MySQL 最流行的RDBMS
    PostgreSQL 最先进SQL型开源objective-RDBMS

     

    注: 开源应用总是可以自由使用的。大多数时候,复制工程(利用代码)创建新应用也是被允许的。如果你对DBMS感兴趣,你可以看看一些基于这些工程的分支项目,例如MariaDB。

     

    二、SQLite

    SQLite是非凡的数据库,他可以进程在使用它的应用中。作为一个自包含、基于文件的数据库,SQLite提供了出色的工具集,可以处理所有类型的数据,没有什么限制,而且比起服务器运行的进程型服务器使用起来轻松许多。

    一个应用使用SQLite时,它的功能直接被集成在其中,应用会直接访问包含数据的文件(即SQLite数据库),而不是通过一些端口(port, socket)来交互。感谢这种底层技术,这使SQLite变得非常快速和高效,并且十分强大。

    1、SQLite支持的数据类型

    NULL NULL值
    INTEGER 有符号整数,按照设置用1、2、3、4、6或8字节存储
    REAL 浮点数,使用8字节IEEE浮点数方式存储
    TEXT 文本字符串,使用数据库编码存储(UTF-8, UTF-16BE 或 UTF-16LE)
    BLOB 二进制大对象,怎么输入就怎么存储

     

    2、SQLite 的优点

    基于文件 整个数据库都包含在磁盘上的一个文件中,因此它有很好的迁移性
    标准化 尽管它看起来像个“简化版”的数据库,SQLite 确实支持 SQL。它略去了一些功能(RIGHT OUTER JOIN 和 FOR EACH STATEMENT),但是,又同时增加了一些其他功能
    对开发乃至测试都很棒 在绝大多数应用的开发阶段中,大部分人都非常需要解决方案能有并发的灵活性。SQLite 含有丰富功能基础,所能提供的超乎开发所需,并且简洁到只需一个文件和一个 C 链接库

     

    3、SQLite的缺点

    没有用户管理 高级数据库都能支持用户系统,例如,能管理数据库连接对数据库和表的访问权限。但由于 SQLite 产生的目的和本身性质(没有多用户并发的高层设计),它没有这个功能
    缺乏额外优化性能的灵活性 仍然是从设计之初,SQLite 就不支持使用各种技巧来进行额外的性能优化。这个库容易配置,容易使用。既然它并不复杂,理论上就无法让它比现在更快,其实现在它已经很快了

     

    4、什么时候要用 SQLite

    嵌入式应用 所有需要迁移性,不需要扩展的应用,例如,单用户的本地应用,移动应用和游戏
    代替磁盘访问 在很多情况下,需要频繁直接读/写磁盘文件的应用,都很适合转为使用 SQLite ,可以得益于 SQLite 使用 SQL 带来的功能性和简洁性
    测试 它能秒杀大部分专门针对应用业务逻辑(也就是应用的主要目的:能完成功能)的测试

     

    5、什么时候不要用SQLite

    多用户应用 如果你在开发的应用需要被多用户访问,而且这些用户都用同一个数据库,那么相比 SQLite 最好还是选择一个功能完整的关系型数据库(例如 MySQL)
    需要大面积写入数据的应用 SQLite 的缺陷之一是它的写入操作。这个数据库同一时间只允许一个写操作,因此吞吐量有限

     

     

    三、MySQL

    MySQL 在所有大型数据库服务器中最流行的一个. 它的特性丰富,产品的开源性质使得其驱动了线上大量的网站和应用程序. 要入手 MySQL 相对简单,开发人员可以在互联网上面访问到大量有关这个数据库的信息.

    注意: 由于这个产品的普及性,大量的第三方应用、工具和集成库对于操作这个RDBCMS的方方面面大有帮助.

    Mysql没有尝试去实现SQL标准的全部,而是为用户提供了很多有用的功能. 作为一个独立的数据库服务器,应用程序同Mysql守护进程的交互,告诉它去访问数据库自身 -- 这一点不像 SQLite.

    1、MySQL支持的数据类型

    TINYINT 一个非常小的整数
    SMALLINT 一个小整数
    MEDIUMINT 一个中间大小的整数
    INT or INTEGER 一个正常大小的整数
    BIGINT 一个大的整数
    FLOAT 一个小的 (单精度) 浮点数,不能是无符号的那种
    DOUBLE, DOUBLE PRECISION, REAL 一个正常大小 (双精度) 的浮点数,不能使无符号的那种
    DECIMAL, NUMERIC 没有被包装的浮点数。不能使无符号的那种
    DATE 一个日期
    DATETIME 一个日期和时间的组合
    TIMESTAMP 一个时间戳
    TIME 一个时间
    YEAR 一个用两位或者4位数字格式表示的年份(默认是4位)
    CHAR 一个固定长度的字符串,存储时总是在其固定长度的空间里右对齐
    VARCHAR 一个可变长度的字符串
    TINYBLOB, TINYTEXT 一个BLOB或者TEXT列,最大长度255 (2^8 - 1)个字符
    BLOB, TEXT 一个BLOB或者TEXT列,最大长度 65535 (2^16 - 1)个字符
    MEDIUMBLOB, MEDIUMTEXT 一个BLOB或者TEXT列,最大长度 16777215 (2^24 - 1)个字符
    LONGBLOB, LONGTEXT 一个BLOB或者TEXT列,最大长度4294967295 (2^32 - 1) 个字符
    ENUM 一个枚举类型
    SET 一个集合

     

    2、MySQL的优点

    容易使用 安装MySQL非常容易。第三方库,包括可视化(也就是有GUI)的库让上手使用数据库非常简单
    功能丰富 MySQL 支持大部分关系型数据库应该有的 SQL 功能——有些直接支持,有些间接支持
    安全 MYSQL 有很多安全特性,其中有些相当高级
    灵活而强大 MySQL 能处理很多数据,此外如有需要,它还能“适应”各种规模的数据
    快速 放弃支持某些标准,让 MySQL 效率更高并能使用捷径,因此带来速度的提升

     

    3、MySQL的缺点

    已知的局限 从设计之初,MySQL 就没打算做到全知全能,因此它有一些功能局限,无法满足某些顶尖水平应用的需求
    可靠性问题 MySQL 对于某些功能的实现方式(例如,引用,事务,数据审核等) 使得它比其他一些关系型数据库略少了一些可靠性
    开发停滞 尽管 MySQL 理论上仍是开源产品,也有人抱怨它诞生之后更新缓慢。然而,应该注意到有一些基于 MySQL 并完整集成的数据库(如 MariaDB),在标准的 MySQL 基础上带来了额外价值

     

    4、何时使用 MySQL?

    分布式操作 当你需要的比SQLite可以提供的更多时,把MySQL包括进你的部署栈,就像任何一个独立的数据库服务器,会带来大量的操作自由和一些先进的功能
    高安全性 MySQL的安全功能,用一种简单的方式为数据访问(和使用)提供了可靠的保护
    Web网站 和 Web应用 绝大多数的网站(和Web应用程序)可以忽视约束性地简单工作在MySQL上。这种灵活的和可扩展的工具是易于使用和易于管理的——这被证明非常有助于长期运行
    定制解决方案 如果你工作在一个高度量身定制的解决方案上,MySQL能够很容易地尾随和执行你的规则,这要感谢其丰富的配置设置和操作模式

     

    5、何时不用 MySQL?

    SQL 服从性 因为 MySQL 没有[想要]实现 SQL 的全部标准,所以这个工具不完全符合SQL。如果你需要对这样的关系数据库管理系统进行整合,从MySQL进行切换是不容易的
    并发 即使MySQL和一些存储引擎能够真地很好执行读取操作,但并发读写还是有问题的
    缺乏特色 再次提及,根据数据库引擎的选择标准,MySQL会缺乏一定的特性,如全文搜索

     

     

    四、PostgreSQL

    PostgreSQL 是一个先进的,开放源代码的[对象]-关系型数据库管理系统,它的主要目标是实现标准和可扩展性. PostgreSQL, 或者说是 Postgres, 试图把对 ANSI/ISO SQL标准的采用与修正结合起来.

    对比其他的RDBMS, PostgreSQL以它对于对象-关系和或关系型数据库功能,比如对于可靠事务,例如原子性,一致性,隔离性和持久性(ACID)的完全支持,这些东西的高度需求和集合的支持,以示其独特性.

    由于强大的底层技术, Postgres对于高效的完成许多处理任务很有一手. 得益于其多版本并发控制 (MVCC)的实现,在没有读取锁的前提下也能达成并发, 这也同样确保了ACID的实施.

    PostgreSQL是高度可编程的, 因而可以使用被称作“存储过程”的自定义程序进行扩展. 这些功能可以被创建用来简化一个写重复、复杂并且常常需要数据库操作的任务的执行.

    虽然特性强大,但这个 DBMS并没有MySQL那么流行, 可还是有许多迷人的第三方工具和库被设计出来用于使得对PostgreSQL的操作简化. 如今通过许多操作系统默认的包管理器轻松的获取PostgreSQL已成为可能.

    1、PostgreSQL支持的数据类型

    bigint 有符号的八位整数
    bigserial 自增长的八位整数
    bit [(n)] 固定长度的位串
    bit varying [(n)] 可变长度的位串
    boolean 逻辑布尔值(true/false)
    box 在一个平面上的矩形框
    bytea 二进制数据("位数组")
    character varying [(n)] 可变长度的字符串
    character [(n)] 固定长度的字符串
    cidr IPv4 或者 IPv6 网络地址
    circle 平面上的一个圆
    date 日历日期 ( 年月日)
    double precision 双精度浮点数(8位)
    inet IPv4 或者 IPv6 主机地址
    integer 有符号的四位整数
    interval [fields] [(p)] 时间跨度
    line 平面上的一个无限长的直线
    lseg 平面上的一个线段
    macaddr MAC (媒体访问控制)地址
    money 货币金额
    numeric [(p, s)] 可选精度的精确数字
    path 一个平面上的几何路径
    point 一个平面上的几何点
    polygon 一个平面上的闭合的几何路径
    real 单精度浮点数(4 位)
    smallint 有符号的两位整数
    serial 自增长4位整数
    text 可变长度字符创
    time [(p)] [without time zone] 一天中的时间(无时区)
    time [(p)] with time zone 一天中的时间,包含时区
    timestamp [(p)] [without time zone] 日期和时间(没有时区)
    timestamp [(p)] with time zone 日期和时间,包含时区
    tsquery 文本搜索查询
    tsvector 文本搜索文档
    txid_snapshot 用户级事务ID快照
    uuid 通用的唯一标识符
    xml XML 数据

     

    2、PostgreSQL的优点

    标准支持 SQL 的开源关系型数据库 PostgreSQL 是一个开源的,免费的,同时非常强大的关系型数据管理系统
    强大的社区 PostgreSQL 背后有热忱而经验丰富的社区,可以通过知识库和问答网站获取支持,全天候免费
    强大的第三方支持 即使其本身功能十分强大,PostgreSQL 仍附带有许多强大的开源第三方工具来辅助系统的设计、管理和使用
    可扩展性 可以用预先存储的流程来程序性扩展 PostgreSQL ,一个高级的关系型数据库理应如此
    面向对象 PostgreSQL 不只是一个关系型数据库,还是一个面向对象数据库——支持嵌套,及一些其他功能

    3、PostgreSQL的缺点:

    性能 对于简单而繁重的读取操作, 超过了 PostgreSQL 的杀伤力,可能会出现比同行(如MySQL)更低的性能
    普及 按给出的该工具的性质,从普及度来说它还缺乏足够后台支撑,尽管有大量的部署——这可能会影响能够获得支持的容易程度
    托管 由于上述因素的影响,要让主机或服务提供商提出使用PostgreSQL实例是很难的

     

    4、何时使用PostgreSQL?

    数据完整性 当可靠性和数据完整性是绝对必要而无需理由时,PostgreSQL是更好的选择
    复杂的自定义过程 如果你需要你的数据库执行自定义过程,可扩展的PostgreSQL是更好的选择
    整合 在将来,如果可能要把整个数据库系统迁移到另一个适当的解决方案(例如Oracle)中,PostgreSQL对于这种切换将是最兼容和易于操作的
    复杂的设计 相比其他的开源和免费的 RDBMS(关系数据库管理系统)实现来说,对于复杂的数据库设计,PostgreSQL提供了大部分的功能和可能性,同时并没放弃其他有价值的地方

     

    5、何时不用 PostgreSQL?

    速度 如果你需要的只是快速的读取操作, PostgreSQL 不是为此而准备的工具
    简化体制 除非你需要绝对的数据完整性,原子性,一致性,隔离性,耐久性,或复杂的设计,PostgreSQL 对简化体制来说是杀手
    复制 除非你愿意花不少时间,精力和资源,否则对于那些缺乏数据库和系统管理经验的人来说,实现与MySQL的(主从)复制可能不容易

     所以总结一下大致是:
    小打小闹、本地测试、自己用:SQLite
    一般向,满足 90% 人的需求:MySQL
    高级应用、大型项目:PostgreSQL

    展开全文
  • 1,机器学习是用怎样的思路解决问题的?我们在机器学习中面临的任务最典型的是:很多数据,怎样从现有数据建立一个模型,通过这个模型来...常用的模型决策树、线性回归、逻辑回归、SVM等等,这么多模型哪...
  • C#数据结构

    2013-12-10 11:49:54
    第一个是讲授常用的数据结构,这些 数据结构形成了程序员基本数据结构工具箱(toolkit)。对于许多常见的问题,工 具箱里的数据结构是理想的选择。就像.NET Framework 中Windows应用程序开 发中的工具箱,程序员可以...
  • Java虚拟机第

    2020-08-25 19:11:27
    文章目录1.知识点汇总2.知识点详解 1.知识点汇总 GC 类加载 编译器优化 内存模型 性能调优 ...其中内存模型,类加载机制,GC...性能调优常JVM优化参数作用,参数调优的依据,常用的JVM分析工具能分析哪些问题以及使用方法.
  • 引用类型和原始类型具有不同的特征和用法,它们包括:大小和速度问题,这种类型以哪种类型的数据结构存储,当引用类型和原始类型用作某个类的实例数据时所指定的缺省值。对象引用实例变量的缺省值为 null,而原始...
  • 前端考试题

    2020-12-26 14:49:05
    3.使用CSS有哪三种方式,它们优先级是如何排列 4.CSS中长度单位有哪些 5.相对定位、绝对定位和固定定位区别 6.JavaScript有几种数据类型 7.let、var、const区别 8.null和undefined区别 9.JavaScript中if...
  • 2、目前的常用的IO复用模型有三种:select,poll,epoll (1)select时间复杂度O(n) 他仅仅知道有I/O事件发生了,却不知道是那几个流(可能有一个,多个,甚至全部),我们只能无差别轮询所有的流,找出能读出数据,...
  • AVR,PIC 等常用的MCU 及其外围电路(如LCD,RAM,ROM,键盘,马 达,LED,AD/DA,部分SPI 器件,部分IIC 器件,...) 其实proteus 与 multisim 比较类似,只不过它可以仿真MCU!唯一的缺点,软件仿真精度 限,...
  • 需求模型的表现形式自然语言、半形式化(如图、表、结构化英语等)和形式化表示等三种。需求概念模型的要求包括实现独立性:不模拟数据的表示和内部组织等;需求模拟技术又分为企业模拟、功能需求模拟和非功能需求...
  • XX软件工程师笔试试题 注:1、请参考人员将答案写在答题纸上,勿将答案写在此卷上。 2、请参考人员将编号与...47、Flex与数据库连接的三种方式? 我答案: 自己编 ---------------------------------...
  • (50) 数据库概念设计过程中,视图设计一般有三种设计次序,以下各项中不对是(D) 注:P127,要牢记 A. 自顶向下 B. 由底向上 C. 由内向外 D. 由整体到局部 (51) 在计算机中,算法是指(C) A. 查询方法 B. 加工方法...
  • 4.2.0 IO模型有哪些,讲讲你理解nio ,他和bio,aio区别是啥,谈谈reactor模型。 4.2.1 反射原理,反射创建类实例的三种方式是什么。 4.2.2 反射中,Class.forName和ClassLoader区别 。 4.2.3 描述动态代理...
  • 《你必须知道495个C语言问题》

    热门讨论 2010-03-20 16:41:18
    2.22 没有一自动方法来跟踪联合哪个域在使用? 30 枚举 31 2.23 枚举和一组预处理#define什么不同? 31 2.24 枚举可移植吗? 31 2.25 什么显示枚举值符号容易方法吗? 31 位域 31 2.26 ...
  • 决策树

    2018-03-30 11:59:03
    决策树的学习通常包括个步骤:特征选择、决策树生成和决策树剪枝,常用的决策树算法ID3, C4.5 和 CART,下面一一介绍。 二、ID3算法 1、特征选择 特征选择在于选取对训练数据具有分类能力的特征,直观地讲...
  • (40) 数据库管理系统常见的数据模型有层次模型、网状模型和______三种。 答:关系模型 (1) 下面叙述正确的是______。(C) A. 算法的执行效率与数据的存储结构无关 B. 算法的空间复杂度是指算法程序中指令(或语句)...
  • 4.4.2 加权向图的数据结构 4.4.3 最短路径算法的理论基础 4.4.4 Dijkstra算法 4.4.5 无环加权向图中的最短路径算法 4.4.6 一般加权向图中的最短路径问题 4.4.7 展望 第5章 字符串 5.1 字符串排序 ...
  • 上一篇:Java面试备战篇——基础篇() ...类加载双亲委派加载机制,常用加载器分别加载哪种类型类. GC分代回收思想和依据以及不同垃圾回收算法回收思路和适合场景. 性能调优常JVM优化参数作用,参数调
  • 2.22 没有一自动方法来跟踪联合哪个域在使用? 枚举 2.23 枚举和一组预处理#define什么不同? 2.24 枚举可移植吗? 2.25 什么显示枚举值符号容易方法吗? 位域 2.26 一些结构声明中这些冒号和...
  • 2.22 没有一自动方法来跟踪联合哪个域在使用? 30 枚举 31 2.23 枚举和一组预处理#define什么不同? 31 2.24 枚举可移植吗? 31 2.25 什么显示枚举值符号容易方法吗? 31 位域 31 2.26 ...
  • 107.spring boot 配置文件有哪类型?它们有什么区别? 108.spring boot 有哪些方式可以实现热部署? 109.jpa 和 hibernate 有什么区别? 110.什么是 spring cloud? 111.spring cloud 断路器作用是什么? 112....
  • 条件生成对抗网络,一带条件约束 GAN,使用额外信息对模型增加条件,可以指导数据生成过程 Mnist DCGAN 深度卷积生成对抗网络,将 GAN 和卷积网络结合起来,以解决 GAN 训练不稳定问题 Mnist Pix2Pix 图像...

空空如也

空空如也

1 2 3 4
收藏数 63
精华内容 25
关键字:

常用的数据模型有哪三种