精华内容
参与话题
问答
  • 结构化数据、半结构化数据和非结构化数据

    万次阅读 多人点赞 2017-02-04 18:23:03
    结构化数据、半结构化数据和非结构化数据结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。...

    结构化数据、半结构化数据和非结构化数据

    结构化数据

    结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:

    id		name	age		gender
    1		lyh		12		male
    2		liangyh	13		female
    3		liang	18		male
    

    所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。但是,显然,它的扩展性不好(比如,我希望增加一个字段,怎么办?)。

    半结构化数据

    半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。

    半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。

    常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有

    <person>
    	<name>A</name>
    	<age>13</age>
      	<gender>female</gender>
    </person>
    

    第二个可能为:

    <person>
    	<name>B</name>
    	<gender>male</gender>
    </person>
    

    从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,<person>标签是树的根节点,<name><gender>标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。

    非结构化数据

    顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

    展开全文
  • 结构化数据和非结构化数据、半结构化数据的区别

    万次阅读 多人点赞 2019-03-05 22:10:06
    计算机信息化系统中的数据分为结构化数据和非结构化数据、半结构化数据。 结构化数据 结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理...

    计算机信息化系统中的数据分为结构化数据和非结构化数据、半结构化数据

     

    结构化数据

    结构化数据是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理

    也称作行数据,一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的

     比如:

    id

    name

    gender

    phone

    address

    1

    张一

    female

    3337899

    湖北省武汉市

    2

    王二

    male

    3337499

    广东省深圳市福田区

    3

    李三

    female

    3339003

    广东省深圳市南山区

     

    非结构化数据

    非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等

     

    半结构化数据

    半结构化数据,是结构化数据的一种形式,虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,也被称为自描述的结构。

    常见的半结构数据有XML和JSON,比如:

    <person>
    
        <name>A</name>
    
        <age>13</age>
    
        <gender>female</gender>
    
    </person>
    

     

    展开全文
  • 数据结构分类 结构化数据:具有域名与域值,可用二维表表示。例如关系数据库和CSV...非结构化数据:不具有域值和域名,例如文章,声音,视频 半结构化和非结构化数据只有转换成结构化数据才可以让机器学习。 ...

    数据结构分类

    1. 结构化数据:具有域名与域值,可用二维表表示。例如关系数据库和CSV文档
    2. 半结构数据:具有域值和域名,但每一笔数据的字段可能不一样。例如JSON以及XML
    3. 非结构化数据:不具有域值和域名,例如文章,声音,视频
      半结构化和非结构化数据只有转换成结构化数据才可以让机器学习。
      在这里插入图片描述
    展开全文
  • (2)非结构化数据库,其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、...

    结构化数据

    结构化数据,,可以从名称中看出,是高度组织和整齐格式化的数据。结构化数据可以轻易放入表格和电子表格中的数据类型,典型的比如使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:

    id name age gender
    1 Liu Yi 20 male
    2 Chen Er 35 female
    3 Zhang San 28 male

    结构化数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助,在计算机中可以轻松地搜索,但是在日常生活中可能不是人们最容易找到的数据类型。它的扩展性不好。比如,如果字段不固定,利用关系型数据库也是比较困难的,有人会说,需要的时候加个字段就可以了,这样的方法也不是不可以,但在实际运用中每次都进行反复的表结构变更是非常痛苦的,这也容易导致后台接口从数据库取数据出错。你也可以预先设定大量的预备字段,但这样的话,时间一长很容易弄不清除字段和数据的对应状态,即哪个字段保存有哪些数据。与非结构化数据相比,无疑是两者中人们更容易使用但是使用具有局限性的数据类型。
    另一方面,结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。在项目中,保存和管理这些的数据一般为关系数据库,当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。结构化数据具有的明确的关系使得这些数据运用起来十分方便,不过在商业上的可挖掘价值方面就比较差。

    典型的结构化数据包括:信用卡号码、日期、财务金额、电话号码、地址、产品名称等。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政
    府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

    半结构化数据

    半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。

    半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。

    常见的半结构数据有XML和JSON,对于对于两个XML文件。
    第一个可能有:

    <person>
        <name>A</name>
        <age>13</age>
        <gender>female</gender>
    </person>
    

    第二个可能为:

    <person>
        <name>B</name>
        <gender>male</gender>
    </person>
    

    从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,标签是树的根节点,和标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。

    非结构化数据库

    非结构化数据库,数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。本质上是结构化数据之外的一切数据,其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NoSQL进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。简单的说,非结构化数据就是字段可变的的数据。

    非结构化数据不是那么容易组织或格式化的。收集,处理和分析非结构化数据也是一项重大挑战。这产生了一些问题,因为非结构化数据构成了网络上绝大多数可用数据,并且它每年都在增长。随着更多信息在网络上可用,并且大部分信息都是非结构化的,找到使用它的方法已成为许多企业的重要战略。更传统的数据分析工具和方法还不足以完成工作。

    典型的人为生成的非结构化数据包括:

    • 文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。
    • 电子邮件:电子邮件由于其元数据而具有一些内部结构,我们有时将其称为半结构化。但是,消息字段是非结构化的,传统的分析工具无法解析它。
    • 社交媒体:来自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平台的数据。
    • 网站: YouTube,Instagram,照片共享网站。
    • 移动数据:短信、位置等。
    • 通讯:聊天、即时消息、电话录音、协作软件等。
    • 媒体:MP3、数码照片、音频文件、视频文件。
    • 业务应用程序:MS Office文档、生产力应用程序。

    典型的机器生成的非结构化数据包括:

    • 卫星图像:天气数据、地形、军事活动。
    • 科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据。
    • 数字监控:监控照片和视频。
    • 传感器数据:交通、天气、海洋传感器。

    结构化数据与非结构化数据:有何区别

    除了存储在关系数据库和存储非关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。

    并且非结构化数据要比结构化数据多得多。非结构化数据占企业数据的80%以上,并且以每年55%~65%的速度增长。如果没有工具来分析这些海量数据,企业数据的巨大价值都将无法发挥。

    img

    随着储存成本的下降,以及新兴技术的发展,行业对非结构化数据的重视程度得到提高。比如物联网、工业4.0、视频直播产生了更多的非结构化数据,而人工智能、机器学习、语义分析、图像识别等技术方向则更需要大量的非结构化数据来开展工作。

    总结

    (1)结构化、半结构化、非结构化其实是按照数据格式分类。

    (2)严格讲,结构化与半结构化数据都是有基本固定结构模式的数据

    (3)半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系,本质讲两者并无必然联系。

    (4)业界有将大数据认同为半结构/非结构化数据,是因为大数据技术最初是在半结构化数据领域发挥作用,其本质是将数据处理技术与数据格式混淆,是不正确的。

    应用场景

    结构化数据,关系模型数据,即以关系数据库表形式管理的数据。定义为关系模型最为妥善,因为它准确的代表了我们传统上最熟悉的企业业务数据。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

    非结构化数据,没有固定模式的数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。

    半结构化数据,非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档 等基本存储需求。

    数据清洗

    数据清洗,发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

    数据清洗原理

    数据清洗(data cleaning),简单地讲,就是从数据源中清除错误和不一致,即利用有关技术如数理统计、数据挖掘或预定义的清洗规则等,从数据中检测和消除错误数据、不完整数据和重复数据等,从而提高数据的质量。业务知识与清洗规则的制定在相当程度上取决于审计人员的积累与综合判断能力。因此,审计人员应按以下标准评价审计数据的质量。

    (一)准确性:数据值与假定正确的值的一致程度。

    (二)完整性:需要值的属性中无值缺失的程度。

    (三)一致性:数据对一组约束的满足程度。

    (四)惟一性:数据记录(及码值)的惟一性。

    (五)效性:维护的数据足够严格以满足分类准则的接受要求。

    参考

    结构化数据和非结构化数据
    结构化数据与非结构化数据有什么区别?
    结构化、半结构化和非结构化数据
    关于结构化、半结构化、非结构化数据的理解

    展开全文
  • 结构化数据 非结构化数据Unstructured data is found everywhere. In fact, most individuals and organization conduct their lives around unstructured data. Like Structured Data the unstructured may be ...
  • 一、 结构化数据 结构化数据:即以关系型数据库表形式管理的数据 二、半结构化数据 半结构化数据:非关系模型的,有基本...非结构化数据:没有固定模式的数据,如 WORD、PDF、PPT、EXL,各种格式的图片、视频等 ...
  • 计算机信息化系统中的数据分为结构化数据和非结构化数据和半结构化数据。 结构化数据 结构化数据,是指由二维表结构来表达逻辑和实现的数据,严格的遵循数据格式与长度规范,主要通过关系型数据库进行管理和存储。 ...
  • 互联网技术的发展产生的海量非结构化数据在传统关系型数据库中难以被高速有效地进行存储和处理,各类NoSQL数据库可以有效存储处理非结构化数据,但是对关系运算功能的弱化难以满足应用场景的需求。具备非结构化数据...
  • 1、结构化数据 简单说就是数据库,也称作为行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循...3、非结构化数据 不适于由二维表来表现,包含所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频等。
  • 非结构化数据 像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容,数据库只能将它们保存在一个BLOB字段中,以后很难检索其内容。 结构化数据 行数据,存储在数据库中,可以用二维表结构来逻辑表达...
  • 这些数据根据结构分类被划分为三种,它们分别是结构化数据、非结构化数据、半结构化数据。在这篇文章中我们就简单地给大家介绍一下这三种数据的相关知识。 首先我们说一下结构化数据,结构化的数据是指可以使用关系...
  • 结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子: id name age gender 1 ...

空空如也

1 2 3 4 5 ... 20
收藏数 11,363
精华内容 4,545
关键字:

非结构化数据