存储_存储过程 - CSDN
存储 订阅
1、存储,把钱或物等积存起来。《清会典事例·户部·库藏》:“户部奏部库空虚,应行存储款项。”《清会典·户部仓场衙门·侍郎职掌》:“每年新漕进仓,仓场酌量旧存各色米多寡匀派分储,将某仓存储某年米色数目,造册先期咨部存案。”鲁迅《书信集·致李小峰》:“《旧时代之死》之作者之家族,现颇窘,几个友人为之集款存储,作孩子读书之用。”2、指积存的钱或物等。沙汀《医生》:“即或偶而想到自己的晚景,想到存储不多,他也能够叹口气就丢开。” 展开全文
1、存储,把钱或物等积存起来。《清会典事例·户部·库藏》:“户部奏部库空虚,应行存储款项。”《清会典·户部仓场衙门·侍郎职掌》:“每年新漕进仓,仓场酌量旧存各色米多寡匀派分储,将某仓存储某年米色数目,造册先期咨部存案。”鲁迅《书信集·致李小峰》:“《旧时代之死》之作者之家族,现颇窘,几个友人为之集款存储,作孩子读书之用。”2、指积存的钱或物等。沙汀《医生》:“即或偶而想到自己的晚景,想到存储不多,他也能够叹口气就丢开。”
信息
常见方式
DAS,NAS和SAN,分布式存储
拼    音
cún chǔ
存储媒介类型
硬盘、磁带、光盘、移动存储设备、分布式存储、企业级存储
含    义
把钱、数据或物等积存起来
中文名
存储
外文名
Storage
存储释义
1、把钱或物等积存起来。《清会典事例·户部·库藏》:“户部奏部库空虚,应行存储款项。”《清会典·户部仓场衙门·侍郎职掌》:“每年新漕进仓,仓场酌量旧存各色米多寡匀派分储,将某仓存储某年米色数目,造册先期咨部存案。”鲁迅《书信集·致李小峰》:“《旧时代之死》之作者之家族,现颇窘,几个友人为之集款存储,作孩子读书之用。”2、指积存的钱或物等。沙汀《医生》:“即或偶而想到自己的晚景,想到存储不多,他也能够叹口气就丢开。” 3、存储就是根据不同的应用环境通过采取合理、安全、有效的方式将数据保存到某些介质上并能保证有效的访问,总的来讲可以包含两个方面的含义:一方面它是数据临时或长期驻留的物理媒介;另一方面,它是保证数据完整安全存放的方式或行为。存储就是把这两个方面结合起来,向客户提供一套数据存放解决方案。
收起全文
  • 存储基础知识

    万次阅读 2020-09-17 23:59:27
    存储的发展历程 什么是存储存储:就是根据不同的应用环境通过采取合理、安全、有效的方式将数据保存到某些截止上并能保证有效的访问。 当前存储的主要体系结构有三种:DAS、NAS、SAN。 存储发展历程的两...

    存储的发展历程

    什么是存储:

    存储:就是根据不同的应用环境通过采取合理、安全、有效的方式将数据保存到某些介质上并能保证有效的访问。

    当前存储的主要体系结构有三种:DAS、NAS、SAN。

    存储发展历程的两个推动力:

    1. 业务上的需求
    2. 技术上的不断提升

    早期的存储:

    服务器与存储一体:

    1. CPU主频较低
    2. 内存比较小
    3. 硬盘容量也不大
    4. 业务要求也没那么多

    存储发展趋势:

    • 重复数据删除
    • SSD固态硬盘
    • 云存储
    • 虚拟化环境的保护
    • 一体化应用存储设备
    • 非结构化数据存储与管理
    • 备份容灾

    存储与应用环境

    主机内部存储环境:

    主机内部I/O流程各个环境共同构成了数据储存的内部应环境。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nhwFBEjP-1600358338453)(存储基础知识/内部.png)]

    图:内部存储环境流程

    主机内部存储环境的瓶颈:

    传统内置存储,有接口,CPU,内存,硬盘等。

    • 硬盘成为整个系统的瓶颈

      有限的硬盘槽数

      单个硬盘存放数据,安全性得不到保证

    • 存储空间利用率等

      本地存储,数据分散,难以共享

    • 可扩展性不够

      总线结构,而非网络结构

      可连接的设备受到限制增加容量时,需停机

    网络存储应用环境:

    网络存储系统各层构成了网络存储系统的应用环境,决定了数据存储的可靠性、性能和安全性。

    这里写图片描述

    图:网络存储结构

    存储介质

    机械硬盘:

    这里写图片描述

    图:机械硬盘结构

    机械硬盘由盘片、磁头驱动机构、接口、控制电路、磁头组件、主轴等构成。还有高速缓存芯片、主控芯片、数据传输信息。

    机械硬盘的主要参数:

    • 硬盘容量(Volume)

    • 缓存(Rotatinoal speed):磁盘转动圈数/分钟

    • 缓存

    • 平均访问时间

      平均访问时间由平均寻道时间和平均等待时间构成。

    • 数据传输率(Data Transfer Rate)

      内部传输率(Internal Transfer Rate)

      外部传输率(External Transfer Rate)

    • IOPS(Input/Output per Second)每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一。

    • Throughput吞吐量:值单位时间内可以成功传输的数据数量。对于大量数据读写的应用,如电视台的视频编辑,视频点播VOD(Video On Demand),则更关注吞吐量指标。

    SSD硬盘:

    这里写图片描述

    图:SSD架构框图
    • 无高速旋转部件,性能高,功耗低
    • 多通道并发,通道内Flash颗粒复用时序
    • 支持TCQ/NCQ,一次响应多个IO请求。
    • 典型响应时间低于0.1ms。

    SSD优势:

    1. 响应时间段

      机械硬盘的机械特性导致大部分时间浪费在寻道和机械延迟上,数据传输效率受到严重制约。

    2. 读写效率高

      机械硬盘在进行随机读写操作时,磁头不听地移动,导致读写效率底下,而SSD通过内部控制器计算出数据的存放位置,直接进行存取操作,过效率高。

    3. 设备温度低,功耗比机械硬盘低。

    4. SSD不含高速的机械结构部件,可经得住严苛的环境考验,以华为SSD硬盘为例:

      HSSD可承受整栋加速度16.4G,机械硬盘一般为0.5G以下。

      HSSD可抗冲击1500G,机械硬盘一般为70G左右。

    SSD硬盘–存储中的应用:

    这里写图片描述

    图:存储中的应用

    硬盘接口类型:

    • ATA(Advanced Technology Attachment)高级技术附加装置

      ATA硬盘以经常成为IDE Integrated Drive Electronics硬盘。

      ATA接口为并行ATA技术。

    • SCSI接口(Small Computer System Interface)小型计算机系统接口

    • SATA:Serial ATA,串型ATA。

      SATA采用串型方式进行数据传输,接口速率比IDE接口高,最低为150Mps,并且第二代(SATA II),300Mbps接口硬盘已经形成商用,规划内的最高速率可达600Mbps。

      SATA硬盘采用点对点连接方式,支持热插拔,即插即用。

      适合大数据块,业务压力不大的用户使用。如;企业备份数据,归档数据,视频图片存储。

    • SAS接口:(Serial Attached SCSI)串行连接SCSI

      SAS是一种点对点、全双工、双端口的接口。

      SAS专为满足高性能企业需求而设计,实现与SATA的互操作,为企业用户带来前所未有的灵活性和低成本。

      速率每路600M

      SAS具有高性能、高可靠性、强大的扩展性能。

      适合业务量大, 范围评率较高,以小数据块居多,数据较为离散的中/高端用户。如:企业数据库,CRM、ERP等应用。

    • FC接口:FC硬盘采用FC-AL(Fiber Channel Arbitrated Loop)光纤通道仲裁环。

      FC-AL是一种双端口的串型存储接口

      FC-AL支持全双工工作方式

      FC-AL利用类似SATA/SAS所用的4芯连接,提供一种单环拓步结构,一个控制器能够访问126个硬盘。

    • NL SAS采用SAS接口,SATA盘体,也叫近线SAS。

      原生支持SCSI,支持双端口访问,高级容错技术,大容量低功耗。

      更适合大数据块业务,压力不大的用户使用。如:;邮件服务器,文件服务器。

    展开全文
  • 储存、对象存储、文件存储的区别和联系

    万次阅读 多人点赞 2017-06-29 22:04:48
    储存、对象存储、文件存储的区别和联系 通常来讲,队友磁盘阵列都是基于Block块的存储,而所有的NAS产品都是文件级存储。 1. 块存储:DAS SAN a) DAS(Direct Attach Storage): 是直接连接于主机服务器的一种存储...

    块储存、对象存储、文件存储的区别和联系

    通常来讲,磁盘阵列都是基于Block块的存储,而所有的NAS产品都是文件级存储。

    1. 块存储:DAS   SAN

    a) DAS(Direct Attach Storage): 是直接连接于主机服务器的一种存储方式,每台服务器有独立的存储设备,每台主机服务器的存储设备无法互通,需要跨主机存取资料室,必须经过相对复杂的设定,若主机分属不同的操作系统,则更复杂。

    应用:单一网络环境下且数据交换量不大,性能要求不高的环境,技术实现较早。

    b) SAN(Storage Area Network): 是一种高速(光纤)网络联接专业主机服务器的一种存储方式,此系统会位于主机群的后端,它使用高速I/O联接方式,如:SCSI,ESCONFibre-Channels.特点是,代价高、性能好。但是由于SAN系统的价格较高,且可扩展性较差,已不能满足成千上万个CPU规模的系统。

    应用:对网速要求高、对数据可靠性和安全性要求高、对数据共享的性能要求高的应用环境中。

     

    2. 文件存储

    通常NAS产品都是文件级存储。

    NAS(Network Attached Storage):是一套网络存储设备,通常直接连在网络上并提供资料存取服务,一套NAS储存设备就如同一个提供数据文件服务的系统,特点是性价比高。

    它采用NFSCIFS命令集访问数据,以文件为传输协议,可扩展性好、价格便宜、用户易管理。目前在集群计算中应用较多的NFS文件系统,但由于NAS的协议开销高、带宽低、延迟大,不利于在高性能集群中应用。

     

    3. 对象存储:

    总体上讲,对象存储同时兼具SAN高级直接访问磁盘特点及NAS的分布式共享特点。

    核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(OSD),构建存储系统,每个对象存储设备具备一定的职能,能够自动管理其上的数据分布。

    对象储存结构组成部分(对象、对象存储设备、元数据服务器、对象存储系统的客户端)

    3.1 对象

    一个对象实际就是文件的数据和一组属性信息的组合。

    3.2 对象存储设备(OSD)

    OSD具有一定的智能,它有自己的CPU、内存、网络和磁盘系统。

    OSD提供三个主要功能:包括数据存储和安全访问

    (1)数据存储  (2)智能分布  (3)每个对象元数据的管理

    3.3 元数据服务器(Metadata Server , MDS)

    MDS控制ClientOSD对象的交互,主要提供以下几个功能:

    (1) 对象存储访问

    允许Client直接访问对象,OSD接收到请求时先验证该能力,再访问。

    (2) 文件和目录访问管理

    MDS在存储系统上构建一个文件结构,限额控制、包括目录、文件的创建、访问控制等

    (3) Client Cache 一致性

    为提高性能,在对象存储系统设计时通常支持ClientCache。因此带来了Cache一致性的问题,当Cache文件发生改变时,将通知Client刷新Cache,以防Cache不一致引发的问题。

     对象存储:

    一个文件包含了属性(术语叫matadata元数据,例如该文件的大小、修改时间、存储路径等)以及内容(简称数据)

    以往的文件系统,存储过程将文件按文件系统的最小块来打散,再写进硬盘,过程中没有区分元数据(metadata)和数据。而在每个块最后才会告知下一个块的地址,因此只能一个一个读,速度慢。

    而对象存储则将元数据独立出来,控制节点叫元数据服务器(服务器+对象存储管理软件),里面主要存储对象的属性(主要是对象的数据被打散存放到了那几台分布式服务器中的信息),而其他负责存储数据的分布式服务器叫做OSD,主要负责存储文件的数据部分。当用户访问对象时,会先访问元数据服务器,元数据服务器只负责反馈对象存储在那些OSD。假设反馈文件A存储在B,C,D三台OSD,那么用户就会再次访问三台OSD服务器去读取数据。

    这时三台OSD同时对外传输数据,因此传输的速度就加快了。OSD服务器数量越多,这种读写速度的提升就越大。

    另一方面,对象存储软件有专门的文件系统,所以OSD对外又相当于文件服务器,那么就不存在文件共享方面的困难了,也解决了文件共享方面的问题。

    因此对象存储的出现,很好的结合了块存储与文件存储的优点。

     

    为什么还要使用块存储和文件存储:

    1.有一类应用是需要存储直接裸盘映射的,比如数据库。因为数据库需要存储裸盘映射给自己后,再根据自己的数据库文件系统来对了裸盘进行格式化,因此不能采用其他已经被格式化为某种文件系统的存储。此类更适合块存储。

    2.对象存储的成本比普通的文件存储还是较高,需要购买专门的对象存储软件以及大容量硬盘。如果对数据量要求不是海量,只是为了作文件共享的时候,直接用文件存储的形式就好了,性价比高。

    展开全文
  • 三种存储类型和三种存储方式

    万次阅读 2019-07-02 15:01:24
    存储和文件存储是我们比较熟悉的两种主流的存储类型,而对象存储(Object-based Storage)是一种新的网络存储架构,基于对象存储技术的设备就是对象存储设备(Object-based Storage Device)简称OSD。 本质是一样...

    在这里插入图片描述
    三种存储方式:DAS、SAN、NAS
    三种存储类型:块存储、文件存储、对象存储

    块存储和文件存储是我们比较熟悉的两种主流的存储类型,而对象存储(Object-based Storage)是一种新的网络存储架构,基于对象存储技术的设备就是对象存储设备(Object-based Storage Device)简称OSD。

    本质是一样的,底层都是块存储,只是在对外接口上表现不一致,分别应用于不同的业务场景。

    分布式存储的应用场景相对于其存储接口,现在流行分为三种:

    对象存储: 也就是通常意义的键值存储,其接口就是简单的GET、PUT、DEL和其他扩展,如七牛、又拍、Swift、S3

    块存储: 这种接口通常以QEMU Driver或者Kernel Module的方式存在,这种接口需要实现Linux的Block Device的接口或者QEMU提供的Block Driver接口,如Sheepdog,AWS的EBS,青云的云硬盘和阿里云的盘古系统,还有Ceph的RBD(RBD是Ceph面向块存储的接口)

    文件存储: 通常意义是支持POSIX接口,它跟传统的文件系统如Ext4是一个类型的,但区别在于分布式存储提供了并行化的能力,如Ceph的CephFS(CephFS是Ceph面向文件存储的接口),但是有时候又会把GFS,HDFS这种非POSIX接口的类文件存储接口归入此类。

    块存储

    在这里插入图片描述
    以下列出的两种存储方式都是块存储类型:

    • DAS(Direct Attach STorage):是直接连接于主机服务器的一种储存方式,每一台主机服务器有独立的储存设备,每台主机服务器的储存设备无法互通,需要跨主机存取资料时,必须经过相对复杂的设定,若主机服务器分属不同的操作系统,要存取彼此的资料,更是复杂,有些系统甚至不能存取。通常用在单一网络环境下且数据交换量不大,性能要求不高的环境下,可以说是一种应用较为早的技术实现。
    • SAN(Storage Area Network):是一种用高速(光纤)网络联接专业主机服务器的一种储存方式,此系统会位于主机群的后端,它使用高速I/O 联结方式, 如 SCSI, ESCON 及 Fibre- Channels。一般而言,SAN应用在对网络速度要求高、对数据的可靠性和安全性要求高、对数据共享的性能要求高的应用环境中,特点是代价高,性能好。例如电信、银行的大数据量关键应用。它采用SCSI 块I/O的命令集,通过在磁盘或FC(Fiber Channel)级的数据访问提供高性能的随机I/O和数据吞吐率,它具有高带宽、低延迟的优势,在高性能计算中占有一席之地,但是由于SAN系统的价格较高,且可扩展性较差,已不能满足成千上万个CPU规模的系统。

    典型设备:磁盘阵列、硬盘
    块存储主要是将裸磁盘空间整个映射给主机使用的。块存储就是在物理层这个层面对外提供服务,使用它的系统,有用自己的文件系统格式化。这样一旦被一个系统使用,就独占了。
    就是说例如:磁盘阵列里面有5块硬盘,然后可以通过划逻辑盘、做Raid、或者LVM等方式逻辑划分出N个逻辑的硬盘。但是逻辑盘和物理盘是两个完全不同的概念。假设每个硬盘100G,共有5个硬盘,划分为逻辑盘也为5个,每个100G,但是这5个逻辑盘和原来的5个物理盘意义完全不同了。例如第一个逻辑盘第一个20G可能来自物理盘1,第二个20G来自物理盘2,所以逻辑盘是多个物理盘逻辑虚构出来的硬盘。
    接着块存储会采用映射的方式将这几个逻辑盘映射给主机,主机上面的操作系统会识别到有5块硬盘,但是操作系统是无法区分到底是物理盘还是逻辑盘,它一概就认为只是5块裸的物理硬盘而已,跟直接拿一块物理硬盘挂载到操作系统没区别,至少操作系统感知上没有区别的。
    在此方式下,操作系统还需要对挂载的裸硬盘进行分区、格式化后,才能使用,与平常主机内置的硬盘无差异。

    优点
    (1)这种方式的好处当然是因为通过了Raid与LVM等手段,对数据提供了保护;
    (2)可以将多块廉价的硬盘组合起来,称为一个大容量的逻辑盘对外提供服务,提高了容量;
    (3)写入数据时,由于是多块磁盘组合出来的逻辑盘,所以几块硬盘可以并行写入的,提升了读写效率;
    (4)很多时候块存储采用SAN架构组网,传输速度以及封装协议的原因,使得传输速度和读写效率得到提升

    缺点
    (1)采用SAN架构组网时,需要额外为主机购买光纤通道卡,还要购买光纤交换机,造价成本高;
    (2)主机之间数据无法共享,在服务器不做集群的情况下,块存储裸盘映射给主机,在格式化使用后,对于主机来说相当于本地盘,那么主机A的本地盘根本不能给主机B去使用,无法共享数据
    (3)不利于不同操作系统主机间的数据共享:因为操作系统使用不同的文件系统,格式化后,不同的文件系统间的数据是共享不了的。 例如一台win7,文件系统是FAT32/NTFS,而linux是EXT4,EXT4是无法识别NTFS的文件系统的

    使用场景
    docker容器、虚拟机磁盘存储分配。
    日志存储。
    文件存储。

    文件存储

    在这里插入图片描述
    通常,NAS产品都是文件级存储。
    NAS(Network Attached Storage):是一套网络储存设备,通常是直接连在网络上并提供资料存取服务,一套 NAS 储存设备就如同一个提供数据文件服务的系统,特点是性价比高。例如教育、政府、企业等数据存储应用。
    它采用NFS或CIFS命令集访问数据,以文件为传输协议,通过TCP/IP实现网络化存储,可扩展性好、价格便宜、用户易管理,如目前在集群计算中应用较多的NFS文件系统,但由于NAS的协议开销高、带宽低、延迟大,不利于在高性能集群中应用。

    典型设备:FTP、NFS服务器
    为了克服文件无法共享的问题,所以有了文件存储。
    文件存储,就是在文件系统一层对外提供服务,系统只用访问文件系统一级就可以,各个系统都可以根据接口取访问。
    文件存储也有软硬一体化的设备,但是其实一台普通的PC机,只要装上合适的操作系统和软件,就可以假设FTP与NFS服务了,架上该类服务之后的服务器,就是文件存储的一种了。
    主机A可以直接对文件存储进行文件的上传和下载,与块存储不同,主机A是不需要再对文件存储进行格式化的,因为文件管理功能已经由文件存储自己搞定了。

    优点
    (1)造价低:随便一台机器就可以,另外普通的以太网就可以,根本不需要专用的SAN网络,所以造价低
    (2)方便文件共享

    缺点
    (1)读写速率低,传输速率慢:以太网,上传下载速度较慢,另外所有读写都要1台服务器里面的硬盘来承受,相比起磁盘阵列动不动就十几上百块硬盘同时读写,速率慢了许多。

    使用场景
    日志存储。
    有目录结构的文件存储。

    对象存储

    在这里插入图片描述
    典型设备:内置大容量硬盘的分布式服务器

    对象存储最常用的方案,就是多台服务器内置大容量硬盘,再装上对象存储软件,然后再额外搞几台服务作为管理节点,安装上对象存储管理软件。管理节点可以管理其他服务器对外提供读写访问功能。

    之所以出现对象存储这种东西,是为了克服块存储与文件存储各自的缺点,发扬各自的优点。简单来说块存储读写快,不利于共享,文件存储读写慢,利于共享。能否弄一个读写块,利于共享的存储出来呢?于是就有了对象存储。

    首先,一个文件包含了属性(术语:metadata,元数据,例如该文件的大小、修改时间、存储路径等)以及内容(数据)。

    像FAT32这种文件系统,是直接将一份文件与metadata一起存储的,存储过程先将文件按照文件系统的最小块大小来打散(例如4M的文件,假设文件系统要求一个块4K,那么就将文件打散称为1000个小块),再写进硬盘里,过程中没有区分数据和metadata的。而每个块最后会告知你下一个要读取的块地址,然后一直这样顺序的按图索骥,最后完成整份文件的所有块的读取。
    这种情况下读写速率很慢,因为就算你有100个机械臂在读写,但是由于你只有读取到第一个块,才能知道下一个块在哪里,其实相当于只能有1个机械臂在实际工作。

    而对象存储则将元数据独立出来了,控制节点叫元数据服务器(服务器+对象存储管理软件),里面主要负责存储对象的属性(主要是对象的数据被打散存放到了那几台分布式服务器中的信息)而其他负责存储数据的分布式服务器叫做OSD,主要负责存储文件的数据部分。当用户访问对象,会先访问元数据服务器,元数据服务器只负责反馈对象存储在哪里OSD,假设反馈文件A存储在B、C、D三台OSD,那么用户就会再次直接访问3台OSD服务器去读取数据。
    这时候由于是3台OSD同时对外传输数据,所以传输的速度就会加快了,当OSD服务器数量越多,这种读写速度的提升就越大,通过此种方式,实现了读写快的目的。

    另一方面,对象存储软件是有专门的文件系统的,所以OSD对外又相当于文件服务器,那么就不存在共享方面的困难了,也解决了文件共享方面的问题。所以对象存储的出现,很好的结合了块存储和文件存储的优点。

    关键技术

    对象存储文件系统的关键技术是什么?
    (1)分布元数据
    (2)并发数据访问,对象存储体系结构定义了一个新的、更加智能化的磁盘接口OSD

    什么是OSD?

    存储局域网(SAN)和网络附加存储(NAS)是我们比较熟悉的两种主流网络存储架构,而对象存储是一种新的网络存储架构,基于对象存储技术的设备就是对象存储设备,简称:OSD

    在存储对象中通过什么对象方式访问对象?

    在存储设备中,所有对象都有一个对象标识,通过对象标识OSD命令访问对象

    OSD的主要功能是什么?
    (1)数据存储。OSD管理对象数据,并将它们放置在标准的磁盘系统上,OSD不提供块接口访问方式,Client请求数据时用对象ID、偏移进行数据读写;
    (2)智能分布。OSD用其自身的CPU和内存优化数据分布,并支持数据的预取。由于OSD可以智能的支持对象的预取,从而可以优化磁盘的性能
    (3)每个对象元数据的管理。OSD管理存储在其上对象的元数据,该元数据与传统的inode元数据相似,通常包括对象的数据块和对象的长度。

    优点
    具备块存储的读写高速。
    具备文件存储的共享等特性。

    使用场景: (适合更新变动较少的数据)
    图片存储。
    视频存储。

    为什么对象存储兼具块存储和文件存储的好处,还要使用块存储和文件存储呢?
    (1)有一类应用是需要存储直接裸盘映射的,例如数据库。
    因为数据需要存储裸盘映射给自己后,再根据自己的数据库文件系统来对裸盘进行格式化的,所以是不能够采用其他已经被格式化为某种文件系统的存储的。此类应用更合适使用块存储。
    (2)对象存储的成本比起普通的文件存储还要较高,需要购买专门的对象存储软件以及大容量硬盘。如果对数据量要求不是海量,只是为了做文件共享的时候,直接用文件存储的形式好了,性价比高。

    三种存储类型差异

    在这里插入图片描述

    三种存储方式差异

    在这里插入图片描述
    在这里插入图片描述
    参考资料:
    http://www.cnblogs.com/hukey/p/8323853.html
    https://mp.weixin.qq.com/s/6yQoQTrIInL2FHCu1-Okww
    https://blog.csdn.net/xiaoliuliu2050/article/details/79962841

    展开全文
  • 聊聊大数据(一)——大数据的存储

    万次阅读 多人点赞 2018-05-04 19:25:44
    “大数据”现在可谓越来越火了,不管是什么行业,也不敢是不是搞计算机的,都要赶个集,借着这股热潮,亦或炒作,亦或大干一番。尤其是从事IT行业的,不跟“大数据”沾点边,都不好意思出去说自己是干IT的。...

    “大数据”现在可谓越来越火了,不管是什么行业,也不敢是不是搞计算机的,都要赶个集,借着这股热潮,亦或炒作,亦或大干一番。尤其是从事IT行业的,不跟“大数据”沾点边,都不好意思出去说自己是干IT的。

    “大数据”一词,已无从考证具体是什么时候兴起的,只是隐约记得大概火了三四年了吧。多大的数据算“大数据”哪?麦肯锡研究中心给出的定义是“超过一般计算机处理能力”的数据。好吧,这个概念真是投机取巧,让人难以攻击。因为大数据的界限真的难以定义。只能说我们平时自己保存和处理的数据都不是大数据。有些人以为自己电脑里有个特别大的Excel文件就是大数据;还有些人觉得有个数据库装了些数据就是大数据;有些闷骚男们说了:我专门买了个盘存了好几T的片片那,看我有这么大的数据……这些都不是大数据。

    按照麦肯锡的定义,既然大数据是一般的计算机都处理不了的数据,那么肯定不是几个尺寸大点儿的文件就可以被称之为大数据。笔者斗胆总结一下大数据的几个特性:

    首先,大数据肯定是存储量很大的数据。

    这是前提条件。业界没有给出明确的数量定义,但肯定不能低于TB级。否则一般的个人电脑就可以轻松处理,就没有多大的研究价值了。

    其次,大数据一定是没有明确组织规律的。

    虽然局部可能有些规律可循,但总体上一定是没有统一的规律了。否则也没有多大的研究价值。可能兼顾了表格、图片、日志等多种类型的数据,甚至可能会有各种格式的视频和音频流。

    第三,大数据一定是不容易分析的。

    接着第二点来说,大数据肯定不会是单纯的存储和组织方式,不会像我们平时自己造的表格那样简单明了。而且,我们无法从中分析出一个简单统一的公式,使得所有数据都可以满足这个公式。即便是可以分析出某些公式来,也会形成成百上千个公式。所以,大数据的分析一定不是一蹴而就的,而是分布开展的。可能先会得到一些最原始的规律,再从这些原始规律中去分析出更高级的规律……不知会经过多少步才会得到最终有些价值的信息。

    第四、大数据一般是动态的。

    大数据一般不会是死或一成不变的数据,而是会不断追加新的数据,从而其尺寸不断变大。比如常见的就是操作日志、监测数据……等等。常见的大数据包括大型机场的订票或飞行数据、大型超市的用户购物记录、证券公司股民的股票交易记录、化工厂的设备运行监测数据、城市出租车起止位置数据、煤矿等作业区域的人员定位数据……等等。这些数据除了数据量很大外,还会实时产生海量的新数据。所以进行大数据分析时要充分考虑到数据的变化因素。

    第五、大数据一般是用于预测的。

    正如上段内容中介绍的,大数据环境一定是海量的数据环境,并且增量都有可能是海量的。大数据分析的价值就是从已有的数据中分析出固有的一些规律,从而能够与未来新产生的数据相吻合,从而可以提前预测未来会发生的一些事件,或提供一些有价值的信息,提前进行决策和处置。

    忽然想起了多年前大学期间学过一门课程,叫《数据挖掘》,里面提到了数据挖掘针对的对象是“数据仓库”,指的就是数据量很大的数据。为此还提出了钻取、抽析等多种分析方法和理论。现在看来个人感觉大数据应该就是从数据挖掘的基础上发展起来的,只不过大数据面对的数据量比数据挖掘理论盛行时还要大很多个数量级吧。

    正因为大数据的特殊性,所以已经不能用通常的理论和方法来处理了。

    首先是大数据的存储。前面说了,大数据面对的数据量异常大,不是几块几个TB的硬盘就可以随随便便容纳得了的。而且个人电脑上的存储设备一般也无法容纳如此大量的数据。为了能够提供快速、稳定地存取这些数据,至少得依赖于磁盘阵列。同时还得通过分布式存储的方式将不同区域、类别、级别的数据存放于不同的磁盘阵列中。

    以往的关系型数据库受限于设计模式的限制,一般只考虑到了单机的数据存储方式,即不管数据量大与小,一定会让一台机器存储和管理所有数据(即便是做集群,集群中的每个节点实际上也是要把所有的数据再存储一遍)。而每台机器上可以承载的存储设备是有限的,一般也不会超过几个TB。而且一旦某个数据库的数据量和文件的尺寸暴增到一定程度后,数据的检索速度就会急剧下降。

    为了应对这个问题,很多主流的数据库纷纷提出了一些解决方案。如MySQL提供了MySQL proxy组件,实现了对请求的拦截,结合分布式存储技术,从而可以将一张很大的表中的记录拆分到不同的节点上去进行查询。对于每个节点来说,数据量不会很大,从而提升了查询效率。


    而Oracle针对大数据公开可查询的资料是“大数据机X3-2+Hadoop+NoSQL”的解决方案。在这套方案中,Oracle提供了拥有288个CPU、1152G内存、648T硬盘的无比豪华的服务器配置,同时结合Hadoop和NoSQL等技术对其中存储的大数据进行分析:


    怎么说那,个人感觉Oracle完全是土豪策略:有钱你才能玩大数据,而有了钱你就买个特别牛×的机器,这样你就不怕数据大了。实际上Oracle并没有从根儿上专门为大数据而动过手术。

    而对于像MongoDB、HBase等非关系型数据库,由于摆脱了表的存储模式,再加上起步较晚,所以对大数据的响应要比关系型数据库快的多。

    MongoDB和HBase天生都支持分布式存储,即将一份大的数据分散到不同的机器上进行存储,从而降低了单个节点的存取压力。


    所以在实际应用中,如果是针对老的系统尤其是老的数据库进行大数据存储及分析,那么只能考虑横向拆分关系型数据库中的数据了;如果是准备建设新的系统,那么最好采用MongoDB,并使用分片集特性来存储大数据。HBase也可以,但入门学习成本可能稍微有一些高。

    下一篇文章,咱们来聊聊大数据的分析过程和方法。
    展开全文
  • 分布式存储与传统存储架构

    万次阅读 2019-04-10 20:34:58
    随着主机、磁盘、网络等技术的发展,对于承载大量数据存储的服务器来说,服务器内置存储空间,或者说内置磁盘往往不足以满足存储需要或者虽然能满足要求,但各个服务器之间独立,严重降低了磁盘的利用率。...
  • 首先,我说下块存储。块存储可以看作为是裸盘,最明显的特征是不能被操作系统直接访问。可以通过划分逻辑卷、做RAID、LVM(逻辑卷)等方式将它格式化,可以格式化为你所指定的文件系统(Ext3,Ext4,NTFS,FAT32等)...
  • 几种块存储简单介绍!!!

    千次阅读 2014-02-28 13:36:54
    存储,简单来说就是提供了块设备存储的接口。通过向内核注册块设备信息,在Linux中通过lsblk可以得到当前主机上块设备信息列表。 下面会先介绍常见的单机块设备工具来建立Common Base。 Contents 单机块存储 ...
  • 数据的四种基本存储方法

    万次阅读 2017-12-09 12:11:10
    数据的四种基本存储方法
  • AWS S3(对象存储)基本操作

    万次阅读 热门讨论 2019-09-26 14:20:04
    1 AWS S3对象存储 1.1 基本概念 1.1.1 存储桶(bucket) 1.1.2 对象 1.1.3 对象标签(tag) 1.2 S3存储类型 2 使用 2.1 安装AWS SDK 2.2 编写基础配置文件 3 基础功能 3.1 桶操作 3.1.1 创建桶 3.1.2 桶的生命周期...
  • 写一个简单的存储过程

    万次阅读 2017-05-02 17:36:38
    创建存储过程的一般写法为: CREATE PROCEDURE (存储过程名称) AS BEGIN (要执行的语句) END 例如: CREATE PROCEDURE sp_MyPro @uid  int AS BEGIN  SELECT * FROM Users WHERE uid = @uid END 创建...
  •    ...1、读写外置存储需要 android.permission.READ_EXTERNAL_STORAGE和android.permission.WRITE_EXTERNAL_STORAGE, 这两个权限是运行时权限,可以动态的授予和撤销, 所以主存储
  • DAS、SAN和NAS三种服务器存储方式

    万次阅读 多人点赞 2016-09-20 09:27:14
    一、存储的分类 根据服务器类型分为:封闭系统的存储和开放系统的存储, 封闭系统主要指大型机, 开放系统指基于Windows、UNIX、Linux等操作系统的服务器; 开放系统的存储分为: 内置存储 外挂存储 外挂存储...
  • 七牛云存储,图片储存

    万次阅读 2019-02-01 12:57:28
    七牛云存储,图片储存 概述 七牛云对象存储服务提供高可靠、强安全、低成本、可扩展的非结构化数据的存储服务。它提供简单的 Web 服务接口,可以通过七牛开发者平台或客户端存储和检索任意数量的数据,支持 “按...
  • 五种使用python储存数据的方式

    万次阅读 2017-10-13 23:38:29
    在python编程开发中,总是不可避免的遇到数据储存的问题,下面就介绍python与几种数据储存方式交互的方法。 json文件 json是一种轻量级的数据交换格式。采用完全独立于编程语言的文本格式来存储和表示...
  • 如何云储存服务实现视频存储

    千次阅读 2018-12-26 21:42:24
    如何云储存服务实现视频存储   为了方便直播/监控用户使用云存储产品来存储音视频数据,阿里云的云存储(简称OSS)产品近期推出了RTMP收流功能。用户可以直接用RTMP协议将音视频数据上传到云存储OSS。 云存储 ...
  • mysql存储引擎

    万次阅读 多人点赞 2019-07-31 19:28:44
    数据库存储引擎 数据库存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能,使用不同的存储引擎,还...
  • 储存管理任务。  3 2。内存划分与分配技术。  4 3。程序装入技术。  5 4。简单存储管理技术。  6 5。虚拟存储管理技术。  7  8 ==============...
  • 简单来说,云存储就是将储存资源分享到一处存储空间,使用者可以在任何时间和地点,通过任意可连网的装置访问该空间。我们日常使用Dropbox, iCloud, Googe Drive等就是中心化的云存储,用户把照片等数据存在云服务上...
  • 存储型XSS漏洞

    万次阅读 2019-05-01 23:16:13
    什么是存储型XSS: 攻击者事先将恶意代码上传或储存到漏洞服务器中,只要受害者浏览包含此恶意代码的页面就会执行恶意代码。这就意味着只要访问了这个页面的访客,都有可能会执行这段恶意脚本,因此储存型XSS的危害...
  • MySQL数据库存储过程讲解与实例

    万次阅读 多人点赞 2019-12-31 15:43:15
    SQL语句需要先编译然后执行,而存储过程(Stored Procedure)是一组为了完成特定功能的SQL语句集,经编译后存储在数据库中,用户通过指定存储过程的名字并给定参数(如果该存储过程带有参数)来调用执行它。...
1 2 3 4 5 ... 20
收藏数 4,732,092
精华内容 1,892,836
关键字:

存储