订阅云计算RSS CSDN首页> 云计算

SequoiaDB巨杉数据库 企业级分布式数据库

发表于2014-09-16 09:09| 次阅读| 来源CSDN| 0 条评论| 作者CSDN

摘要:SequoiaDB是业界领先的企业级分布式数据库产品,也是国内原厂分布式数据库领导者。SequoiaDB坚持从零开始自主研发,为用户提供安全可靠、性能卓越的海量数据存储管理、高并发实时处理。

1. SequoiaDB产品简介

SequoiaDB是业界领先的企业级分布式数据库产品,也是国内原厂分布式数据库领导者。SequoiaDB坚持从零开始自主研发,为用户提供安全可靠、性能卓越的海量数据存储管理、高并发实时处理、分布式计算以及实时流处理等企业级数据处理解决方案。

SequoiaDB目标是打造超越Oracle的分布式数据库,目前已经在金融、政府、电信多个行业得到了广泛应用,并在超过20家大中型银行的核心生产系统应用。巨杉在企业级应用场景与解决方案持续领先,中国的用户数量和收入超过硅谷分布式数据库厂商总和。巨杉公司已经得到硅谷顶级投资机构认可,目前也积极布局海外市场,将领先的技术产品和中国的应用场景推向世界。

2. SequoiaDB业务价值

  SequoiaDB是一款企业级分布式数据库,功能上包括了分布式OLTP,分布式对象存储以及分布式NoSQL实现全类型数据的覆盖。


  图:SequoiaDB产品总体架构图

  SequoiaDB为用户提供高性能、灵活存储、实时与可扩展等企业级数据库能力。主要业务价值有:

  · 海量数据存储:完全分布式架构,可以按需横向扩展,轻松实现PB级别数据管理;数据在线弹性扩展,无需终端业务,保证企业7x24连续运营,数据永远在线;生产环境实测支持超过1000个节点集群。

  · 高并发数据查询读写:分布式架构与高性能数据引擎,支持海量数据高并发读写,各业务应用可随需使用,实时快速响应。PB级别数据毫秒查询响应。

  · 多模数据管理:灵活的数据存储类型,支持非结构化、结构化和半结构化数据全覆盖,实现多模(Multi-Model)数据统一管理。

  · 高可用与灾备双活:分布式下数据数据多副本保证数据高可用,在异地灾备基础上,巨杉数据库已经实现同城“双活”,满足“两地三中心”的要求,极大提升数据安全。

  · HTAP混合事务/分析处理模式:巨杉数据库通过SQL的完全支持以及Spark的整合,实现HTAP混合事务、分析处理,快速实现业务应用的弹性开发。

  · 高效运维、运营优化:多模数据管理,数据自动切分,弹性架构扩容和兼容性,帮助有效提升运维效率,优化数据运营方法。

  · 原厂专业技术支持服务:作为第一家真正的原厂分布式数据库公司,巨杉的团队提供了源代码级别的原厂技术支持服务,帮助用户更好使用,保证系统持续在线与性能稳定高效。

  3. SequoiaDB技术特性

  分布式架构

  SequoiaDB作为典型Share-Nothing的分布式数据库,同时具备高性能与高可用的特性。SequoiaDB采用分片技术为系统提供了横向扩展机制,其分片过程对于应用程序来说完全透明。该机制解决了单台服务器硬件资源(如内存、CPU、磁盘 I/O)受限的问题,并不会增加应用程序开发的复杂性。

  SequoiaDB的整体架构图如图所示。


  图:SequoiaDB巨杉数据库整体架构

  · 协调节点:负责调度、分配、汇总,是SequoiaDB的数据分发节点,本身不存储任何数据,主要负责接收应用程序的访问请求;

  · 编目节点:负责存储整个数据库的部署结构与节点状态信息,并且记录集合空间与集合的参数信息,同时记录每个集合的数据切分状况;

  · 数据节点:承载数据存储、计算的进程,为用户提供高性能的读写服务,并且在多索引的支持下针对海量数据查询性能优越。多个数据节点可以组成一个数据节点组,采取一主多备结构。

  标准SQL支持

  SequoiaDB巨杉数据库,作为企业级分布式数据库,目前全面支持标准SQL,提供高性能的SQL引擎组件。SequoiaDB目前支持标准SQL的访问,包含了标准SQL2003引擎、深度数据压缩等多项全新功能,在100%支持和兼容原有JSON特性的基础上,提供了标准SQL2003的语法支持,能够兼容传统应用大大降低迁移成本,做到学习成本最小化,并最大程度满足传统应用开发人员对于数据库SQL访问方式的需求。

  灵活的数据类型定义

  SequoiaDB采用JSON文档类型定义数据存储模型(类对象存储)。JSON作为当今应用设计中主流的存储与通讯协议格式,使用的数据模型与平台、语言无关,从而为企业内异构数据的整合提供了标准方式。传统企业内存在大量的结构化数据资产需要用分布式大数据的手段处理,同时又希望尽量保留其关系型结构,JSON数据模型则恰好满足这些需求。

  Multi-Model数据双引擎

  单一数据类型已经无法满足许多综合性业务平台的需求,例如,许多企业应用需要处理图表以及关系数据,这些平台需要能支撑Multi-Model多模数据管理的产品。如金融企业在互联网金融等等新需求下,随着银行远程开户、柜面无纸化、面部识别等系统的建立和升级正在面临大量不同类型的非结构化数据(如图片,视频和文件)带来的挑战。

  除了JSON存储引擎以外,为了提高非结构化文件的读写性能,SequoiaDB核心引擎提供了分布式块存储模式,可以将非结构化大文件按照固定大小的数据块进行切分并存放于不同分区。当用户需要管理海量的小文件(例如照片、音视频、文档、图片等)时,SequoiaDB的双存储引擎特性能够帮助用户快速搭建一个高性能、高可用的内容管理与影像平台系统。使用SequoiaDB搭建的影像平台系统架构相对简单,元数据与内容数据均可使用SequoiaDB服务器的本地磁盘存放,不再需要额外购买昂贵的外部存储设备,节省企业的开发和运维成本。

  数据库层面的Multi-Model和非结构化数据管理,将能实现结构化、半结构化和非结构化数据的统一管理,实现非结构化数据的实时访问,大大降低了运维和应用的成本。当前,在业界新一代分布式数据库中,SequoiaDB是唯一拥有引擎的产品。

  HTAP混合事务/分析处理

  新的业务需求下,数据库除了应对操作型业务,还会在业务实时数据监控,数据报告和决策辅助方面有许多数据实时应用的场景。因此,HTAP混合事务/分析处理模式成为数据库发展的一个新要求。

  SequoiaDB的企业版本全面整合多种大数据架构。企业版本除了为客户提供一个高性能的分布式数据库,还向客户提供Spark运行平台以及完善的SQL解决方案。用户可以根据不同的场景,选择不同的组件快速构建属于自己的分布式数据库平台。


  图:SequoiaDB整体平台整合框架

  从图可以看到,用户可以使用SequoiaDB作为底层数据库。在应用开发上,根据不同的场景,例如对海量数据分析,用户可以选择Spark RDD或Spark SQL来完成;如果是数据实时检索类型的业务,用户可以选择使用SequoiaSQL或者原生API来进行实时数据检索。此外,SequoiaDB对于一些特定类型的业务还提供经过更高层封装的接口,例如针对企业内容管理(ECM)业务,SequoiaDB还提供了影像的批次管理、版本管理、流程控制等相应接口函数。

  容灾与双活

  双活容灾即灾备系统中使主生产端数据库和备机端数据库同时在线运行,处于可读可查询的状态的技术。这不仅保证数据不丢失,也能保证所有系统在遭遇事故时更短时间内重新上线。一个中心宕机,所有前端应用可以立刻切换至双活中心继续使用。

  大多数银行数据中心还需要“双活”容灾的能力,即在两个数据中心实时进行备份,一旦失去一个中心,所有业务可以及时切换中心继续运行。同时,通过数据中心“双活”,在保证数据安全下,也将数据存储,数据处理的高可用性和灾难恢复相结合,这样数据管理可以以更低的成本实现连续的可用性,并以最少的努力最大限度地利用“双活”的数据中心。


  图:同城双活架构示意图

  SequoiaDB已经在内部实现了容灾备份以及“双活”的机制,主要特点包括:

  · 异地容灾:异地的容灾和备份,保证数据安全,中心间距离超过1000km以上。满足金融机构“两地三中心”的监管需求。

  · 同城双活:同城双中心的数据准实时同步,保证数据一致;双中心数据可以实现同时读写,大大提升读写效率;中心切换RTO 小于 10分钟。

  · 数据压缩机制:节约带宽资源,加快同步和备份过程。

  · 更便捷的灾备管理:系统集群中统一管理灾备中心,简化了维护成本,也帮助使用者更快上手。

  企业级工具

  SequoiaDB除了提供企业级管理工具包、高速数据装载工具、加密工具包、容灾备份工具包和高效压缩之外,还为用户的企业集成提供了丰富的第三方插件,例如目前包括Spark框架连接器、Hadoop适配器、ETL 工具的插件、与BI工具的插件等。

  · 运维:SequoiaDB企业版为用户提供完善的运维工具。例如sdbtop工具,方便用户实时追踪集群运行状况。而日志追踪工具、多级别日志选择功能等都为企业后续的运维减轻压力;

  · 集群管理和数据操作:SequoiaDB为用户提供一套可视化的管理工具,用户可以通过页面部署来管理SequoiaDB集群,操作数据记录;

  · 监控:SequoiaDB提供实时监控工具,帮助用户实时监控数据库各个部分的性能,大大减轻企业用户的学习成本,运维成本。

  性能领先的分布式数据库

  SequoiaDB巨杉数据库的技术在业界领先,更是在各项企业级功能上超越了硅谷同类产品。同时,对比众多硅谷的同类产品,SequoiaDB巨杉数据库在各项性能指标都保持绝对领先。

  此前,知名独立基准评测机构bankmark,针对SequoiaDB、MongoDB以及Cassandra三款分布式数据库产品做了性能对比测试。在所有的测试中,SequoiaDB的性能在主要的几个关键场景下都优于其余两个在海外更加著名的数据库产品。

  Bankmark是一家北美独立基准评测机构,也是一个业内著名的数据库性能测试团队。图7是一些性能测试的简要报告。


  图: 部分性能对比指标

  SequoiaDB企业版功能


  表:SequoiaDB企业版功能列表 

4. 行业应用案例

  海量数据管理平台

  随着大数据技术的普及,银行对全量历史数据有的认识有了颠覆性的变化。如何从历史数据中挖掘其潜在价值,如何将离线数据在线化以满足监管部门的需求,是很多银行开始利用大数据技术解决的首要问题。

  SequoiaDB利用其横向扩展、支持标准SQL以及双引擎的机制,能够在存储海量历史数据的同时对外提供在线查询与分析能力,这就使得银行能将传统的离线数据做到近线化,将冷数据有效地使用起来。

  巨杉数据库的多家银行客户使用SequoiaDB提供高并发的数据查询和访问功能,使银行客户能够在柜台、网银、手机银行上随时随地查询开户以来所有的交易历史。同时,该平台可以提供司法查询的能力,使银行IT部门不需要为了复杂多变的查询请求,在历史带库与数据库之间疲于奔命。


  图:海量近线数据平台架构

  在多种海量数据管理的应用场景中,近线数据平台是最为典型的应用场景。传统的银行IT架构分为在线系统、近线系统与离线系统。其中在线系统主要处理面向最终用户的交易请求;近线系统则针对一段时间内的历史数据进行存放和进行溯源查询;离线系统则对若干年前的数据进行统一归档,仅在特殊情况下会被恢复进行使用。

  如图,一个典型的海量数据管理/查询平台,可以划分为归档区、固定查询区、自由查询区以及沙盒区等多个区域。其中,归档区负责对原始数据从ODS进行抽取并归档;固定查询区负责从归档区抽取数据并进行加工与索引,以满足固定类型高并发对外交互式业务;而自由查询业务则使用沙盒区作为预览与SQL验证区域,对用户自定义的查询进行初步验证,验证成功的查询会被异步提交至自由查询区以批处理的方式生成报表。

  企业内容管理平台

  随着网络技术的渐渐普及,越来越多的银行开始将传统渠道向互联网与移动端靠拢。随之而来的,是更多监管业务的需要,例如针对直销银行的远程开户等业务,银行需要开始对用户的音频与视频数据进行存储。传统EMC、IBM提供的企业内容管理系统以小机加高端存储硬件为基础,对于仅存票据证照等相对小量的图片存储还可以勉强满足需要,但是当存储类型扩展到音视频等领域性能并不出色,同时开销还会指数级增加。


  图:SequoiaDB内容管理平台架构图

  SequoiaDB提供的分布式、双引擎以及对象存储的功能,天然为海量的音视频、影像、证照等内容提供了分布式存储的能力。SequoiaDB可以使用高存储密度的PC服务器替代传统的小机加高端存储的配置,能够使用户以1/5的拥有成本,提供更多的存储空间与更高的吞吐能力。在SequoiaDB内容管理解决方案中,数据库除了提供基本的记录与文件的读写操作外,还提供了内容管理平台的批次管理、版本管理、流程控制等一系列后台管控能力,为与用户中间件对接提供了最大便利。目前SequoiaDB在非结构化管理和内容管理领域,已经拥有过大量银行、政府等行业的成功案例。

  海量数据超高并发访问查询

  随着移动应用的普及,企业的信息系统也在海量的用户使用下面临越来越大的业务压力。一方面,业务压力带来了用户产生的海量数据,另一方面,用户的访问请求对于底层数据平台的并发性、高性能要求也达到了一个新的高度。

  SequoiaDB企业级分布式数据库,为企业提供了海量数据的超高并发访问查询支持,保证应用系统在高并发的读写、访问压力下保持稳定的性能。

  某证券监管机构的股票交易信息管理系统,存储全国交易所每天上传的所有的股票交易信息。如今通过APP,网页端等,开放给股民用户进行实时的查询。该证券监管机构,通过搭建基于SequoiaDB的数据库存储,该机构将所有历史数据实现在线化,同时保证每天增量的及时写入。

  · 平均每日超过2亿条记录写入

  · 高峰时段,同时有超过百亿级别的数据需要被检索、调用

  · 系统保存3年内所有交易和持有数据

  · 峰值并发量超过10000

  · 高峰时段,查询返回时间小于100ms

  · 实际测试性能10倍于原有MySQL方案

  · 操作涉及3张数据表的关联,总量超过3000亿条数据

  大数据湖

  各行各业如今都在尝试使用大数据加速企业转型,但是大数据的核心:数据湖,却主要以传统大数据分析框架为基础,仅能提供基本的批处理分析功能,无法在其上提供灵活的查询、交易以及复杂的数据管理机制。

  如图所示,一个标准的数据湖从功能区上被分为分析域与操作域,分别对应着传统数仓类批处理业务,与OLTP等高并发、实时性要求高的操作类业务。


  图:数据湖分析域与操作域

  在数据湖规划中,传统大数据分析框架以批处理为中心,对存储在HDFS上的文件进行批处理扫描,具有高吞吐量、高延迟、低并发等特性,专门为数据仓库类型的业务而设计。而SequoiaDB作为分时数据库,尽管同样使用分布式框架,但是所有的设计原则均以提升并发量、降低延迟为核心,支持事务的提交与回滚,专门为操作类应用所优化。

  在SequoiaDB与Spark/Hadoop等大数据分析框架共同构建大数据平台的架构中,用户可以结合HDFS与SequoiaDB各自对批处理以及在线业务的优化特点,将不同类型的业务系统存放在不同的存储中,同时以Spark或SequoiaSQL作为数据访问接口,进行应用程序的开发。最终平台通过分布式灵活存储,实现全量数据的统一管理,挖掘企业全量数据价值.,巨杉数据湖,统一管理结构化,非结构化,半结构化数据。

  政府行业统一数据平台解决方案

  如今,大数据成为政府提升效率,服务百姓,建设科技领先政府的重要组成。SequoiaDB巨杉企业级分布式数据库,为政府提供分布式、高性能的统一数据平台解决方案,帮助政府行业实现海量数据的统一管理,助力政府跨部门的数据整合,消除各级政府部门间的数据孤岛。


  图:某市政府市民数据统一管理平台架构图

  某市电子政务中心利用SequoiaDB巨杉数据库作为统一管理平台,将每个市民的身份证作为唯一标识,将超过40余个委办局的数据打通,做到针对市民的全维度画像。当市民在网上政务大厅接入,或各个委办局需要使用其他部门数据时,不需要像传统方式那样拿着文件满城市各个委办局盖章,而是各委办局的系统直接从数据湖中抽取该用户的全维度数据。在该系统中,SequoiaDB利用其分布式架构与对象存储能力,将每个市民的全维度数据形成一条统一的记录,不同委办局的维度在该记录中以嵌套字段的形式体现,大大方便了应用程序的开发和管理。

  实时运营监管

  流处理已经成为现今企业对实时采集数据处理的标准技术。SequoiaDB企业版中融合的Spark Streaming可以提供原生流处理机制,同时能够借助SequoiaDB分布式数据库,为实时计算过程中所需要进行的数据查询检索提供了高性能、低延迟的支持。

  例如,在一家证券行业企业中,其合规检测引擎需要为每一笔股票交易进行合规性检查,确保该交易发起的用户在一段时间内的交易模式不存在违规行为。而在其他的企业中,对于企业内部IT的监控也会存在实时告警与监察的需求。例如,当一台生产服务器连续3分钟以上CPU使用率超过90%即产生告警,并推送至系统管理员手机。这类业务不仅仅涉及到交易本身状态的判定,更需要将记录内容与一段时间内所产生的历史行为进行综合判定。因此,为了满足这类业务场景,SequoiaDB企业版提供的Spark Streaming,结合SequoiaDB自身的高性能与横向扩展能力,能够最大幅度地提升处理性能,降低数据访问所产生的开销。

  车辆轨迹跟踪

  在政府与交通行业,针对视频卡口的大数据存储、分析与应用一直以来是最受关注的主题。借助SequoiaDB半结构化对象存储、分布式横向扩展能力以及非结构化影像存储引擎,交通部门可以从卡口视频文件中提取出的车牌信息、位置信息、以及时间信息按照三个维度汇总,进行道路拥堵预测、车辆轨迹跟踪、套牌车监控、尾随车辆监控等多种安防措施。

  物联网设备监控

  如今的IT已经逐渐由“人产生数据”向“设备产生数据”过度。越来越多的智能设备开始与互联网结合,将产生的状态数据发送至云端,并从云端下载新的指令、补丁、甚至升级代码。这样一来,对于设备的制造企业来说,传统的IT主要围绕ERP、库存、上下游渠道、CRM等系统构造,而对于设备本身产生的数据则没有过多关注。但是,对于新一代物联网设备,其产生的数据具有量大、繁杂、多样等特性,使用传统数据存储与处理技术很难有效地从中挖掘出价值。

  SequoiaDB分布式数据库以其对象式数据模型、分布式存储架构、以及高性能等特性完美支持物联网设备数据的采集、监控与分析。在巨杉某运营商用户中,SequoiaDB作为智能网关的后台数据管理平台(DMP),承载智能网关设备中软件日志的采集、分析与挖掘功能,为家庭用户更安全、稳定、高效的网络环境提供了基础保障。

  5. SequoiaDB简介

  巨杉知名企业用户


  

0
0