精华内容
下载资源
问答
  • 大数据分析和应用得到了各个行业的关注,人们试图从大量数据中发现蕴含的模式和规律,...指出非结构化数据处理是大数据分析技术的难点和重点,是提升大数据价值挖掘深度的宝剑,在大数据的教学、研究、学习和应用开...

    6770c82bce64d76f7b8258cad1884ddd.png

    大数据分析和应用得到了各个行业的关注,人们试图从大量数据中发现蕴含的模式和规律,进而产生更多的价值,“数据”作为分析对象在这个过程中所起到的作用是决定性的。本文对结构化数据、非结构化数据、数据结构、关系型数据库、实体关系图、数据模型等我们熟悉的概念进行剖析,说明它们之间的联系和区别。指出非结构化数据处理是大数据分析技术的难点和重点,是提升大数据价值挖掘深度的宝剑,在大数据的教学、研究、学习和应用开发中,围绕非结构化数据处理应当成为核心和重点。

    数据这个概念对于每个人来说,是再熟悉不过的,我们生活在数据的世界里,在将来智能发达的时代里更是一刻也离不开数据。然而在千变万化的各种数据中,是否存在一些稳定不变的本质? 在变化中寻找不变是科学探索的一条重要思维原则。

    各种形式的数据可以归结为结构化数据、半结构化数据和非结构化数据三大种类。它们的区别在于数据的表示是否存在预先定义好的数据模型,因此什么是数据模型是深入理解大数据的关键。数据模型是一种抽象模型,用于表达数据含义的构成单元及其它们之间相互关系、数据与现实世界之间的对应关系。

    数据模型包括三种相对独立的层次上的模型。

    一是物理数据模型,表示了数据在计算机中存储的物理结构,通常是数据库中的分区、表空间、段、文件等。

    二是逻辑数据模型,表示了数据在计算机中进行计算处理的逻辑结构,通常是数据表、列、对象、符号、树等。通常所说的数据结构是在计算机中高效存取和运算数据的一种表示方法,是逻辑数据模型的组织形式,选择好一个数据结构能加快计算过程。

    三是概念数据模型,表示了数据所表达的事实,即它们与现实世界的关系,通常是实体、属性、实体关系等。有时候也称为语义数据模型,是数据在现实世界的真实表示。

    例如对于计算机来说,“图书”只是一个字符串,如何让计算机知道它所代表的现实含义,这就需要数据模型要能够表达数据与现实世界的映射关系,由此,可能要告诉计算机出版社印刷的那种东西,进一步要告诉计算机什么是“出版社”。

    f86bcccf3b746feb35c812575238cefa.png

    在逻辑数据模型方面,对于数据库管理系统(SQL、NoSQL)来说,其实现的逻辑数据模型包括单表模型、层次模型、网络模型、关系模型等,后两者分别对应于我们非常熟悉的图数据库、关系型数据库。但是,不管是层次、网络、关系或其他类型的逻辑数据模型,都无法完全满足数据的概念定义要求。这是因为它所能表达的范围是有限的,并且偏向于DBMS所使用的实现策略。

    在概念数据模型方面,实体关系模型是广泛被接受的模型之一,用于软件工程中表示结构化数据。通常使用图形方式来表达,如图所示是一个实体关系模型例子。

    e53dce4c595c5c1b51a7f93c015ccf69.png

    “图书”作为一种逻辑数据模型,由“书名”、“作者”、“出版社”、“出版日期”等单元构成,“作者”、“出版社”也具有各自的实体描述。这种结构化数据形式可以转化为关系型数据库中的表,如book(name, author, publisher, publish_date),存储到该表中的图书具有统一的预先设定好的模型。不管是曾剑平编著的书,还是吴军编著的书,最后都必须结构化为如下四元组的形式。

    “图书”作为一种逻辑数据模型,由“书名”、“作者”、“出版社”、“出版日期”等单元构成,“作者”、“出版社”也具有各自的实体描述。这种结构化数据形式可以转化为关系型数据库中的表,如book(name, author, publisher, publish_date),存储到该表中的图书具有统一的预先设定好的模型。不管是曾剑平编著的书,还是吴军编著的书,最后都必须结构化为如下四元组的形式。

    结构化数据:

    (互联网大数据处理技术与应用,曾剑平,清华大学出版社,2017)

    (数学之美,吴军、人民邮电出版社,2014)

    而对于非结构化数据的表述方式,则不存在这样的结构。由于缺乏统一的结构限制,同样的含义就有不同的叙述方式,以下的文本表述就表达了同样的含义。

    非结构化数据:

    “《互联网大数据处理技术与应用》一书是由曾剑平编著,并由清华大学出版社于2017年出版。”

    “曾剑平编著了《互联网大数据处理技术与应用》一书,并于2017年由清华大学出版社出版。”

    “清华大学出版社于2017年出版了曾剑平编著的《互联网大数据处理技术与应用》一书。”

    等等。

    半结构化数据具有自描述的数据模型。

    半结构化数据:

    (书名:互联网大数据处理技术与应用;作者:曾剑平;出版社:清华大学出版社;出版日期:2017)

    这里的书名、作者、出版社、出版日期就是自描述标签。

    可见,结构化数据、半结构化数据、非结构化数据的最主要区别在于是否存在预先定义好的数据模型,更确切的说是概念数据模型。结构化数据能够用统一的某种结构加以表示,离开了这种结构,数据就没有意义;非结构化数据没有概念数据模型形式的限制,可以自由表达;而半结构化数据具有某种结构,但是数据本身带有结构的含义。

    非结构化数据包含了文本、图象、声音、影视、超媒体等典型信息,在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实施,将会有越来越多的非结构化数据产生,据预测,非结构化数据将占据所有各种数据的70-80%以上。结构化数据分析挖掘技术经过多年的发展,已经形成了相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式,表示灵活,蕴含了丰富的信息。因此,综合看来,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要的。

    其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理技术包括:

    (1)Web页面信息内容提取;

    (2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等);

    (3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等)

    (4)文本建模(含向量空间模型、主题模型等)

    (5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)

    等等。

    这些技术所涉及的技术较广,在情感分类、客户语音挖掘、法律文书分析等等许多领域都有广泛的应用价值。

    展开全文
  • 非结构化数据处理方案

    千次阅读 2015-10-05 11:10:03
    非结构化数据&...一、 非结构化数据处理需求 企业拥有的非结构化数据增长迅速。非结构化数据是计算机或人生成的信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列),若...


     非结构化数据&结构化处理方案


    一、 非结构化数据处理需求
       企业拥有的非结构化数据增长迅速。非结构化数据是计算机或人生成的信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列),若没有人或计算机的翻译,则很难理解这些数据。常见的非结构化数据有文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有 Web 内容,如 HTML。
       根据数据的创建方式和使用方式的不同,非结构化数据的管理方法大不相同。 
    1. 大量数据分布于桌面办公系统(如文档、电子表格和演示文稿)、专门的工作站和设备 (如地理空间分析系统和医学捕获和分析系统)上。
    2. 政府、学术界和企业中数 TB 的文档存档和数字库。
    3. 生命科学和制药研究中使用的影像数据银行和库。
    4. 公共部门、国防、电信、公用事业和能源地理空间数据仓库应用程序。
    5. 集成的运营系统,包括零售、保险、卫生保健、政府和公共安全系统中的业务或健康记录、位置和项目数据以及相关音频、视频和图像信息。


    二、 KingbaseES 数据库在处理非结构化数据的优势
    2.1 全文索引与检索
    虽然数据库中早已支持全文检索操作符,如LIKE操作符,但目前这类操作符很难满足现代信息系统的全文检索需求。它的不足主要体现在以下方面:
    ? 缺乏语言支撑
    例如,通过LIKE操作检索satisfy时不能把和它具有相同词根的satisfies也一并检索出来。
    ? 不支持结果集rank操作
    在实际应用中,全文检索的结果集通常很大。若不对这些结果进行rank操作,则用户很难从中快速挑选出所需的结果。
    ? 检索性能较差
    这些操作符一般缺乏有效的索引支撑,因此它的检索速度用户通常难以接受。
    针对上述情况,KingbaseES在文本类型数据上提供了高效的全文索引和检索功能。
    KingbaseES的全文检索主要具有以下特征:
    ? 支持丰富的数据类型
    支持CHAR、VARCHAR、TEXT或CLOB类型字段的全文检索。
    ? 良好的可扩展性
    允许用户依据自身应用需求,创建新的数据字典、分词器或rank函数。
    ? 内置rank函数
    除允许用户创建rank函数外,系统内部还提供基于词语相似性、共现性和重要性的通用rank函数。
    ? 检索文本预处理
    在检索前对检索文本进行了如下处理:文本的词语标注、规范化处理(如大小写转换、词根处理)、rank计算、剔除stopword等。
    ? 高效的全文索引
    为优化检索性能,在检索文本上创建了广义倒排索引。
    目前,KingbaseES提供了两种检索方式,即传统的数据库SQL检索和全新的全文检索。二者的区别是:前者获得的是精确匹配结果,而后者获得的是非精确匹配结果。因此,在实际应用中,用户可把二者配合使用,即首先可利用全文检索的模糊匹配功能,缩小检索范围,然后在该范围内再使用传统SQL检索的精确匹配功能快速获取所需结果。
    2.2 大对象类型
    通常,现代信息系统的大量数据是以半结构化或非结构化的数据形式存在。数据库系统若仅能存储和管理表等结构化信息的话,则远远不能满足如今的应用需求。因此,它还应能存储和管理图片、报表、图像、音频和视频等各种半结构化或非结构化的多媒体信息。针对这种情况,KingbaseES内部提供了专门的数据类型(即大对象类型),用于存储和管理这些多媒体数据。
    目前,KingbaseES支持两种大对象类型,即二进制大对象(BLOB)和字符大对象(CLOB)类型,单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。
    与普通字符串类型相比,KingbaseES大对象类型重点从数据存储、锁资源使用优化、事务管理和逻辑备份与还原等方面进行了特殊处理。


    三、 综上所述,根据目前所了解到的信息,我们可以将非结构化数据(文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有 Web 内容)通过KingbaseES支持的两种大对象类型,即二进制大对象(BLOB)和字符大对象(CLOB)类型,单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。


    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25714550/viewspace-1813365/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/25714550/viewspace-1813365/

    展开全文
  • 文本、电话号码、邮箱地址 正则表达式 HTML 文件 处理方法 XPath 正则表达式 CSS选择器

    文本、电话号码、邮箱地址

    • 正则表达式

    HTML 文件

    处理方法

    • XPath
    • 正则表达式
    • CSS选择器

    XPath使用方法

    将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素

    正则表达式

    详细见文章

    展开全文
  • 非结构数据到知识图谱 非结构数据-> 信息抽取(命名实体识别、关系抽取)-> 图谱构建(实体消歧、链接预测)-> 图分析算法 一、文本分析关键技术 拼写纠错 分词 词干提取 词的过滤 文本的表示 ...

    非结构话数据到知识图谱

    非结构数据-> 信息抽取(命名实体识别、关系抽取)-> 图谱构建(实体消歧、链接预测)-> 图分析算法

    一、文本分析关键技术

    • 拼写纠错
    • 分词
    • 词干提取
    • 词的过滤 
    • 文本的表示
    • 文本相似度
    • 词向量
    • 句子向量
    • 实体命名识别

    二、拼写纠错

     input -> correction

      天起 -> 天气

      theris -> theirs

      机器学系 -> 机器学习

     

    找出编辑距离最小的

    input                  candidates                  edit distance

    therr                     there                               1

                                thesis                               3

                                theirs                                2

                                 the                                   2

                                their                                   1

    计算编辑距离:

    Given str s, str t => editDist(s,t)

    算法原理:

    """代码实现"""
    
    def edit_dist(str1,str2):
    
        m,n = len(str1),len(str2)
        
        dp = [[0 for x in range(n+1)] for x in range(m+1)]
        
        for i in range(m+1):
            for j in range(n+1):
                if i == 0:  
                    dp[i][j] = j
                elif j == 0:
                    dp[i][j] = i
                elif str1[i-1] == str2[j-1]:
                    dp[i][j] = dp[i-1][j-1]
                else:
                    dp[i][j] = 1 + min(dp[i][j-1], dp[i-1,j-1], dp[i-1][j])
    
        return dp[m][n]
    
    
            

    根据之前的想法可以抽样为流程:用户输入-> 找出词典库中编辑距离最小的Top K -> 排序

    缺点:跟每一个单词都要计算编辑距离-时间复杂度太高

    改进后方案:

    用户输入->  生成编辑距离1,2的所有可能的字符串-> 通过词典过滤 ->  排序

    生成的字符串远小于词典库

    P(c)和P(s/c)可以基于统计方法计算出历史出现的概率值

    三、分词

    在很多语言中,分词是最为重要的第一步,如汉语,一般用jieba分词工具

    怎么写一个分词工具?

    简单两步骤:语句-> 候选分割(词典DP)-> 选择最好的(语言模型)

    缺点:时间效率低、误差传递

    改进:分割 + 语言模型  ->Joint optimization

    """jieba分词"""
    
    import jieba
    
    seg_list = jieba.cut("小王专注于人工智能",cut_all=False)
    
    print(" ".join(seg_list))
    
    """增加词典"""
    jieba.add_word("小王专注")
    

    四、词的过滤

    通常先把停用词、出现频率很低的词汇过滤掉

    好处:提高准确率、减少时间成本

    停用词(stop words)

    英文中 比如 "the" "an" "their" 都可以作为停用词来处理。但是也需要考虑应用场景

    出现频率特别低的词汇对分析作用不大,所以一般也会去掉。把停用词、出现频率低的过滤掉。

    五、Stemming (单词转换)

    意思相似,合并为同一单词

           went,go,going  

           fly,flies

           fast,faster,fastest

    stemming 算法合并

    from nltk.stem.porter import PorterStemmer
    
    stemmer = PorterStemmer()
    
    test_strs = ['caresses','dies','flies','mules','denied',
    'died','agreed','owned','humbled','sized','meeting','stating']
    
    singles = [stemmer.stem(word) for word in test_strs]
    
    print(' '.join(singles))
    
    

     六、文本表示

    单词的表示:最常用的表示方式:词袋模型(Bag-of-words Model)

    假设一个词典有7个单词:[我们,去,爬山,今天,你们,昨天,运动]

    每个单词的表示:特点- 维度等同于词典的大小,Sparse Vector(只有一个1,其它全是0)

    我们:[1,0,0,0,0,0,0]

    爬山:[0,0,1,0,0,0,0]

    运动:[0,0,0,0,0,0,1]

    昨天:[0,0,0,0,0,1,0]

                    词袋模型(词典维度)

    句子的表示方式:

    corpus = [

    'He is going from Beijing to Shanghai.',

    'He denied my request, but he actually lied.',

    'Mike lost the phone, and phone was in the car.',

    ]

    [[0 0 1 0 0 0 1 1 1 0 1 0 0 0 0 0 0 1 0 1 0]

    [1 0 0 1 0 1 0 0 2 0 0 1 0 0 1 0 1 0 0 0 0]

    [0 1 0 0 1 0 0 0 0 1 0 0 1 1 0 2 0 0 2 0 1]]

    tf-idf 表达方式

    tf-idf(w) = tf(d,w) * idf(w)

    """文本转化向量"""
    
    corpus = [
        'He is going from Beijing to Shanghai.',
        'He denied my request, but he actually lied.',
        'Mike lost the phone, and phone was in the car.',
    
    ]
    
    # 方法1: 只考虑词频
    from sklearn.feature_extraction.text import CountVectorizer
    
    vectorizer = CountVectorizer()
    
    X = vectorizer.fit_transform(corpus)
    
    print(X)
    print(x.toArray())
    
    
    # 方法2: 既考虑词频,也考虑词的重要性(tf-idf)
    
    from sklearn.feature_extraction.text import TfidfVectorizer
    
    vectorizer = TfidfVectorizer()
    
    X = vectorizer.fit_transform(corpus)
    
    print(X.toArray())
    
    
    

    计算句子相关性? 方法:d = (s1*s2)/|s1|*|s2|(余弦相似度)

    我们:[0.1,0.2,0.4,0.2]

    爬山:[0.2,0.3,0.7,0.1]

    运动:[0.2,0.3,0.6,0.2]

    昨天:[0.5,0.9,0.1,0.3]

                分布式表示(优点:1、维度小  2、每个位置都是具有一定意义的浮点非0的数)

    dist(我们,爬山) = sqrt(0.12)

    dist(爬山,运动) = sqrt(0.02)

    因此,爬山和运动的相似度高于我们和爬山

    分布式表示依赖深度学习模型(word2vec模型 i,e.SkipGram)

    句子向量:我们| 昨天|爬山 = () 方法:1、每个维度平均  2、时序(LSTM,RNN)

     

     

     

    展开全文
  • 这学期参加了服务外包大赛,具体要实现对非结构化数据的分析处理,所以在这里把这个过程一点点记录一下。 首先根据python的爬虫框架,从网页上获取了中文文本 但是由于我不怎么会处理中文数据,摸索了很久,简单...
  • 本文作者:任坤,厦门大学王亚南经济...下面分别列举了一个典型的关系型数据表和一个典型的关系型数据集。 关系型数据:一组学生的基本数据,包括姓名(Name)、性别(Gender)、年龄(Age)以及专业(Major)。
  • 数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发+2.0版产业图谱+落地颁奖大会)即将推出,敬请咨询期待!数据猿发布产业全景图——2020中国数据智能产业图...
  • 结构化数据是指如数字和符号等信息,而非结构化数据的覆盖范围极广,常见的非结构化数据包括了:文档(纯文本、格式文档和HTML文档等)、图像、音频和视频等多媒体信息、地图和地理信息、卫星影像、医学影像
  • 结构化数据还是非结构化数据?结构化数据还是非结构化数据? 目前国内20%的大数据是易于统计使用的结构化数据(存储在数据库里,可以用二维表结构来逻辑表达... 由于非结构化数据处理起来难度较高,因此,多数公司...
  • 文章目录一、非结构化数据的定义二、非结构化处理的重要性三、数据类型四、非结构化处理的方法和手段1. 采集2. 查询3. 存储4. 前景 一、非结构化数据的定义 非结构化数据是数据结构不规则或不完整,没有预定义的数据...
  • 文章目录一、非结构化数据的定义二、非结构化处理的重要性三、非结构化处理的方法和手段 一、非结构化数据的定义 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的...
  • 刚开始接触Hadoop ,指南中说Hadoop处理非结构化数据,学习数据库的时候,老师总提结构化数据,就是一张二维表,那非结构化数据是什么呢?难道是文本那样的文件?经过上网搜索,感觉这个帖子不错 网址:...
  • 非结构化数据与结构化数据提取非结构化的数据处理文本、电话号码、邮箱地址HTML 文件结构化的数据处理JSON 文件XML 文件 2.非结构化数据与结构化数据提取 页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个...
  • 具备非结构化数据处理能力的新型关系型数据库提供了适用多种应用场景的高效存储方式。为了能够定量地比较关系型数据库和面向文档的NoSQL数据库的数据存储与处理能力,比较了PostgreSQL的hstore数据类型和MongoDB的...
  • 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 文本、电话号码、邮箱地址 - 正则表达式 HTML 文件 正则表达式 XPath ...
  • 据 IDC 预测,2018 年到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率达到 27%,其中超过 80% 的数据都会是处理难度较大的非结构化数据。预计到 2030年全球数据总量将达到 3,5000EB。随着...
  • 摘要: 随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCompute上如何访问OSS数据, 基本功能用法和整体介绍,侧重介绍读取OSS数据进行计算处理; 本文:MaxCompute...
  • (2)非结构化数据库,其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、...
  • 非结构化数据的定义及处理方法 1.定义 非结构化数据: 相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/...
  • 结构化数据 和 非结构化数据

    千次阅读 2017-11-12 22:18:45
    非结构化数据非结构化数据是不方便用数据库二维逻辑表来表现的数据,它们的特点是数据结构不规则或不完整,没有预定义的数据模型例如: 相对于结构化的数据,非结构化的数据不易于计算机理解 但是人是很自然的处理...
  • 非结构化数据为什么处理这么困难五. 如何处理非结构化数据 一. 什么是数据 数据(data)是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合...
  • Spark(六):SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理 如上转载的这篇文章写得不错!!! 一:简单了解SparkSQL。 Spark SQL 是结构化的数据处理一个Spark模块。与基本的Spark RDD API不同,...
  • 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 文本、电话号码、邮箱地址:正则表达式 HTML 文件:正则表达式、XPath、...
  • 文章目录非结构化数据定义非结构化数据优势非结构化数据处理方法 非结构化数据定义 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、...
  • 非结构化数据:不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。 非结构化数据库是指其字段长度可变,并且每个字段...
  • 这是DT(Data Technology)时代,每天有海量数据的加速产生,而每天产生的海量数据80%+... TableStore等) 的互联互通,用OSS(阿里云对外提供的海量、安全和高可靠的云存储服务)几种非结构化数据处理为范例,未来我们可

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,462
精华内容 2,184
关键字:

非结构化数据处理