精华内容
下载资源
问答
  • 结构化数据特征之一就是,可以现有数据结构,再有数据。比如RDBMS的二维表中的数据就是结构化的数据,二维表的结构是固定的,在数据到来之前,字段类型和长度,字段个数以及顺序都是固定的,数据结构定义在数据制造...

    结构化数据,数据结构可以固定的数据。结构化数据特征之一就是,可以现有数据结构,再有数据。比如RDBMS的二维表中的数据就是结构化的数据,二维表的结构是固定的,在数据到来之前,字段类型和长度,字段个数以及顺序都是固定的,数据结构定义在数据制造出来之前。

    非结构化数据,数据结构难以固定化的数据。比如图片、办公文档、视频数据等。

    半结构化数据,可以结构化但无法结构固定的数据。以丰富变化的json格式数据为例,单个字段的类型可以是数字型也可以是字符型等,可以嵌套多层json的伸缩性,这些都造成数据结构无法固定化。所以拥有如上特性的json数据不是结构化数据,但是它也是有结构的。可以将它划归半结构化数据。

    结构化数据与非结构化数据,同一种数据,在不同的业务角度下,这边可能作为结构化数据,那边可能作为非结构化数据。比如财务文档,如果需求仅仅是获取财务文档,那么文档本身可以作为最基本的信息项(如同RDBMS中表中的单个字段),这是多个文档组成的数据集合就是基于单个文档的结构化数据。换个角度,如果需求是统计文档中的收支情况,那么单个文档就对应多个基本信息项,这是文档集合就变成了非结构化数据。

    展开全文
  • 【总结】 数据 举例 特点 ...字段特征较固定 ...半结构化数据 XML,JSON,html 包含元数据信息 扩展性很好 易于归档 非结构化数据 word,txt,img,video 不规范的数据 格式多样...

    【总结】

    数据 举例 特点 优点 缺点 使用场景
    结构化数据 Excel,mysql 二维形式的数据 方便查询和修改 不易扩展 字段特征较固定
    半结构化数据 XML,JSON,html 包含元数据信息 扩展性很好   易于归档
    非结构化数据 word,txt,img,video 不规范的数据 格式多样   大量存储与共享

     

    一、结构化数据

    结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:

    id      name            age     gender
    1       Liu Yi          20      male
    2       Chen Er         35      female
    3       Zhang San       28      male
    

    所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。

    但是,它的扩展性不好。比如,如果字段不固定,利用关系型数据库也是比较困难的,有人会说,需要的时候加个字段就可以了,这样的方法也不是不可以,但在实际运用中每次都进行反复的表结构变更是非常痛苦的,这也容易导致后台接口从数据库取数据出错。你也可以预先设定大量的预备字段,但这样的话,时间一长很容易弄不清除字段和数据的对应状态,即哪个字段保存有哪些数据。

    二、半结构化数据

    半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。

    半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。

    常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有

    <person>
        <name>A</name>
        <age>13</age>
        <gender>female</gender>
    </person>
    

    第二个可能为:

    <person>
        <name>B</name>
        <gender>male</gender>
    </person>
    

    从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,<person>标签是树的根节点,<name>和<gender>标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。

    三、非结构化数据

    非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。

    非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

    四、应用场景

    结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

    非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。

    半结构化数据,包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档 等基本存储需求。

     

    转载于:https://www.cnblogs.com/ljt1412451704/p/11204694.html

    展开全文
  • 结构化数据、非结构化数据以及半结构化数据是对存储形式的一种数据类型分析 结构化数据、非结构化数据以及半结构化数据对比 类别 结构化数据 半结构化数据 非结构化数据 数据特征 数据结构字段含义...

    结构化数据、非结构化数据以及半结构化数据是对存储形式的一种数据类型分析

    结构化数据、非结构化数据以及半结构化数据对比
    类别 结构化数据 半结构化数据 非结构化数据
    数据特征 数据结构字段含义确定,清晰 具有一定结构,但语义不够确定;自描述,数据结构和内容混杂在一起 杂乱无章的数据,很难按照一个概念去进行抽取,无规律性
    典型例子 数据库中的表结构 邮件、HTML、报表、资源库 视频、音频、图片、图像、文档、文本等
    数据模型 二维表 树、图
    存储方案 高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求 数据存储、数据备份、数据共享以及数据归档等基本存储需求 数据存储、数据备份以及数据共享

     

    参考:http://wenku.baidu.com/link?url=KuvgoBPGRQrhfw0e-8EA999ldIGgCiL_MYyKb4KxeXYmqd_ADB8pkIkkQ2qiuqk0TMJzgR2xe4962irKAEWvVDxQkSta1TXS_xCDLgIx42O

             http://zhidao.baidu.com/link?url=q3qq6xrAam6FLDXIRZxoN5ZOyXz6O-VKpzqs9VkphzagN00bFwjjYKmnPsN6QQ6bre3ABHSklEVhgJJo9sydWK

             http://blog.sina.com.cn/s/blog_49c1385f01014bf6.html

    转载于:https://www.cnblogs.com/fengxm/p/4122625.html

    展开全文
  • 1.,所谓半结构化数据是指信息和描述信息用的模式(SCHEMA)一并出现的数据,所以很多时候也称为具有自描述特征(Self-deseribing)的数据结构。 2.是一种非完全结构化的数据,称为半结构化数据.所谓半结构化是相对于完全...
    一、半结构化数据
    
    半结构化数据有不用的定义:
    1.,所谓半结构化数据是指信息和描述信息用的模式(SCHEMA)一并出现的数据,所以很多时候也称为具有自描述特征(Self-deseribing)的数据结构。
    2.是一种非完全结构化的数据,称为半结构化数据.所谓半结构化是相对于完全结构化的传统数据库的数据而言。
    3.每个Web站点的数据都各自独立存在没有特定的模型对其进行描述数据本身存在一定的自述性、动态可变性和一定的层次性Web的这种数据特点称为半结构化数据。


    二、半结构化数据格式

    1.XML
    可扩展标记语言 (Extensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 XML是标准通用标记语言 (SGML) 的子集,非常适合 Web 传输。XML 提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。
    2.JSON
    JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。

    3.XML、JSON比较
    • 可读性
    JSON和XML的可读性可谓不相上下,一边是简易的语法,一边是规范的标签形式,很难分出胜负。
    • 可扩展性
    XML天生有很好的扩展性,JSON当然也有,没有什么是XML能扩展,JSON不能的。不过JSON在Javascript主场作战,可以存储Javascript复合对象,有着xml不可比拟的优势。
    • 编码难度
    XML有丰富的编码工具,比如Dom4j、JDom等,JSON也有提供的工具。无工具的情况下,相信熟练的开发人员一样能很快的写出想要的xml文档和JSON字符串,不过,xml文档要多很多结构上的字符。
    • 解码难度
    JSON只提供整体解析方案,而这种方法只在解析较少的数据时才能起到良好的效果;而XML提供了对大规模数据的逐步解析方案,这种方案很适合于对大量数据的处理,所以JSON比较适合于轻量级数据,XML比较适合重量级数据。
    • 安全性
    JSON本来是JavaScript的一个安全的子集,不会含有赋值和调用,因此在将JSON数据转换成为JavaScript对象的时候,我们包括许多Javascript库都使用Eval函数。这意味着获取的JSON数据将被解析并执行,注意是执行,尤其有一些数据是来自用户输入的话,可能会带来意想不到的安全性问题。攻击者也可以利用这点发送畸形、恶意的JSON数据,这样Eval函数就会执行这些恶意代码。而XML则相对来讲更安全一些。
    • 流行度
    XML已经被业界广泛的使用,而JSON才刚刚开始,但是在Ajax这个特定的领域,未来的发展一定是XML让位于JSON。

    三、半结构化数据存储

    • 化解为结构化数据
    这种方法通常是对现有的简历中的信息进行粗略的统计整理,总结出简历中信息所有的类别同时考虑系统真正关心的信息。对每一类别建立一个子表,比如上例中我们可以建立教育情况子表、工作情况子表、党籍情况子表等等,并在主表中加入一个备注字段,将其它系统不关心的信息和已开始没有考虑到的信息保存在备注中。 优点:查询统计比较方便。 缺点:不能适应数据的扩展,不能对扩展的信息进行检索,对项目设计阶段没有考虑到的同时又是系统关心的信息的存储不能很好的处理。
    • 用XML格式来组织并保存到CLOB字段中
    XML可能是最适合存储半结构化的数据了。将不同类别的信息保存在XML的不同的节点中就可以了。 优点:能够灵活的进行扩展,信息进行扩展式只要更改对应的DTD或者XSD就可以了。 缺点:查询效率比较低,要借助XPATH来完成查询统计,随着数据库对XML的支持的提升性能问题有望能够很好的解决。

    四、半结构化数据应用

    • 数据交换与信息共享
    数据交换与信息共享是半结构化数据的最重要的用途之一,半结构化数据使得不同计算机应用系统之间交换数据变得容易起来,这是因为它的可扩展特性和文档中的元数据。半结构化数据在下列领域有重要应用:EDI、Agent、软件设计元素的交换、CRM。
    • web应用
    半结构文档无疑将成为web资源的重要组成部分,而且基于半结构化数据的文档资源使web搜索引擎的只能化变得容易起来。除此之外,半结构化数据能够用来建立HTML所不能达到的多层web应用,特别的,半结构化数据在web应用中有下列用途:集成不同数据源、本地计算、数据的多种显示、支持web应用的互操作和集成、基于语义的DataMining。
    • Ajax应用
    Ajax技术的核心是XMLHttpRequest对象(简称XHR),可以通过使用XHR对象获取到服务器的数据,然后再通过DOM将数据插入到页面中呈现。虽然名字中包含XML,但Ajax通讯与数据格式无关,所以我们的数据格式可以是XML或JSON等格式。

    展开全文
  • 文章目录半结构化数据模型(Semi-structured Data Model)1. 半结构化数据几种数据模型2. 半结构化模型特征3. XML和JSON4. 树状数据结构(Tree Data Structure) (写在前面:由于之前学习过数据库相关知识,这里不再...
  • 对象—关系—属性数据模型相对传统的结构化数据模型,用更丰富的数据语义区别了对象类...从分析空间数据的半结构化特征入手,以空间数据的嵌套关系为管理对象,实现了在关系型数据库中对空间半结构化数据的存储与管理。
  • 结构化数据与非结构化...机器学习按输入数据分可以分结构化数据(表),半结构化数据(文本,日志等),非结构化数据(图片,录像),其实就是通过提取特征的方式 把半结构化数据 非结构化数据转化为结构化数据,然后进...
  • Gnutella 半结构化自适应拓扑方案 汤景新,李景涛,赵一鸣 (复旦大学软件学院,上海 200433) 摘 要:给出一种Gnutella 半结构化自适应拓扑方案——ISATS。基于“搭便车现象”的网络特征,进行拓扑结构的改进。基于...
  • 半结构化数据:介于结构化数据和半结构化数据直接,HTML文档就属于半结构化数据。它一般是自描述的,与结构化数据的最大区别之处在于,半结构化的数据模式和内容混在一起,没有明显的界限和区分。 根...
  • 传统的高光谱数据特征选择方法分为监督和无监督模式,然而在高光谱数据实际处理中,大量无标记和少量有标记数据并存.此外,传统方法忽视了真实数据嵌入在高维空间中的流形结构.本文提出一种基于流形的监督特征选择...
  • 半结构化文本数据一般不具有完整的句法结构,但具有明显的版面布局结构和特定的标签信息。常见的这类文本有科研论文的头部信息和引文信息、学术报告公告、个人简历、招聘信息、产品参数信息等。  从科研论文的头部...
  • 大数据的结构特征

    2018-06-11 17:24:00
    大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种...
  • 该算法利用保存高光谱图像空间近邻结构的空间距离, 及保持图像光谱相似性的类内判别权值和类间判别权值, 定义新的同物异谱、同谱异物像元权值计算函数, 结合LPP提取高光谱图像特征, 从而最大同类地物间的相似性和...
  • 但是,SCC是慢速预测的特征,因为需要解决I0范数最小才能为每个样本分配标签。 在本文中,我们提出了一种基于超像素结构稀疏编码的分类器(S3CC),用于图像分割。 首先使用无监督的超像素分割来得出初始的标记...
  • hadoop概念特征

    2020-06-01 20:23:33
    结构化数据、半结构化数据、非结构化数据 Value(价值密度低):需要挖掘数据价值 固有特征: 时效性 不可变性 分布式计算 分布式计算将较大的数据分成小的部分进行处理 传统分布式计算 新的分布式计算-Hadoop 计算...
  • 大数据的特征(4V+1O)

    万次阅读 2019-03-09 20:29:00
    数据量大(Volume)。...包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值密度低(Value)。第三...
  • 大数据结构

    2018-09-27 22:49:58
     大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。 据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 大数据就是互联网发展到现今阶段的...
  • 针对极合成孔径雷达(SAR)应用中存在的特征冗余问题,结合线性判别分析(LDA)和局部线性嵌入(LLE)的思想,提出一种监督降维算法:监督局部判别分析(SLDA)。该算法首先基于LLE的局部保持特性建立正则项,以避免...
  • 大数据的结构

    2018-09-27 09:22:34
    大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 [7] 大数据就是互联网发展到现今阶段的...
  • 大数据特征与作用

    千次阅读 2017-08-14 10:55:47
    大数据的特征(4V+1O): 数据量大(Volume)。第一个特征是数据量大,包括...包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出
  • 半结构化数据 使用标签来标识数据的每个元素,具有一定的层次结构。包括XML、JSON数据。 非结构化数据 包括文档、音频、图像、视频等,没有预定义数据模型的数据。 数据属性的类型 属性,也被成为维或者特征。结构...
  • 大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 大数据就是互联网发展到现今阶段的一种...
  • 作为研究的第一阶段,使用基于中止治疗和对症监测的背景而创建的访谈指南,该指南来自33个目标文献来源,对7位认证的慢性心力衰竭护士和15位认证的痴呆护士进行了半结构化访谈。 通过定性归纳分析从访谈中获得的...
  • varity(多样化):数据的来源和种类多样,数据种类包括结构化数据、半结构化数据、非结构化数据,表现为日志、音频、视频、图片,地理位置信息等 value(价值密度低):单个数据意义不大,需要大量数据进行归纳总结出...
  • 存在形式:结构化数据(数据库),非结构化数据(视频,音频,图像,文本),半结构化数据(邮件,HTML,报表) 抽样方法:简单随机抽样,系统抽样法,分层抽样法,整群抽样法,多阶段抽样法 二,数据质量分析 ...
  • 大数据的4v特征 数据量大 TB->PB->ZB HDFS分布式文件系统 ...半结构化数据 XML形式、HTML形式 HDFS、MR、Hive、Spark 速度快 数据增长速度快 TB->PB->ZB HDFS 数据处理速度快 MR...

空空如也

空空如也

1 2 3 4 5 ... 16
收藏数 318
精华内容 127
关键字:

半结构化数据特征