精华内容
下载资源
问答
  • 2018-11-03 09:31:01
    #!/usr/bin/env python
    # _*_ coding:utf-8 _*_
    import operator
    import re
    import string
    from collections import OrderedDict
    from urllib.request import urlopen
    
    from bs4 import BeautifulSoup
    
    
    def cleanInput(input):
        input= re.sub('\n+'," ",input)
        input=re.sub('\[[0-9]*\]',"",input)
        input=re.sub(' +'," ",input)
        input=bytes(input,"UTF-8")
        input=input.decode("ascii","ignore")
        cleanInput=[]
        input=input.split(' ')
        for item in input:
            item=item.strip(string.punctuation)
            if len(item)>0 or (item.lower()=='a' or item.lower()=='t'):
                cleanInput.append(item)
        return cleanInput
    def ngrams(input ,n):
        input=cleanInput(input)
        output={}
        for i in range(len(input)-n+1):
            outputTmp=" ".join(input[i:i+n])
            if outputTmp not in output:
                output[outputTmp]=0
            output[outputTmp]+=1
        return output
    def isCommon(ngram):
        commonWords = ["the", "be", "and", "of", "a", "in", "to", "have", "it",
                       "i", "that", "for", "you", "he", "with", "on", "do", "say", "this",
                       "they", "is", "an", "at", "but", "we", "his", "from", "that", "not",
                       "by", "she", "or", "as", "what", "go", "their", "can", "who", "get",
                       "if", "would", "her", "all", "my", "make", "about", "know", "will",
                       "as", "up", "one", "time", "has", "been", "there", "year", "so",
                       "think", "when", "which", "them", "some", "me", "people", "take",
                       "out", "into", "just", "see", "him", "your", "come", "could", "now",
                       "than", "like", "other", "how", "then", "its", "our", "two", "more",
                       "these", "want", "way", "look", "first", "also", "new", "because",
                       "day", "more", "use", "no", "man", "find", "here", "thing", "give", "many",
                       "well"]
        ngram=ngram.lower()
        if ngram in commonWords:
            return True
        return False
    content=str(urlopen("https://pythonscraping.com/files/inaugurationSpeech.txt").read(),'utf-8')
    ngrams=ngrams(content,2)
    nagramsPicked=ngrams.copy()
    for k,v in ngrams.items():
        words=k.split(" ")
        for eachWord in words:
            flag=isCommon(eachWord)
            if flag:
                nagramsPicked.pop(k)
                break
    sortedNagrams=sorted(ngrams.items(), key=operator.itemgetter(1),reverse=True)
    print(sortedNagrams)
    
    

     

    更多相关内容
  • 形容专业技术好的词语

    千次阅读 2021-06-27 09:27:52
    形容专业技术好的词语接下来小编为大家推荐的是专业技术好的词语,希望对大家有所帮助,欢迎阅读。形容专业技术好的词语巧夺天工、鬼斧神工、出神入化、炉火纯青、游刃有余、一技之长登峰造极、妙手回春、运斤成风、...

    形容专业技术好的词语

    接下来小编为大家推荐的是专业技术好的词语,希望对大家有所帮助,欢迎阅读。

    7f04eedef53dd7b174bd3a9c64bc66d1.png

    形容专业技术好的词语

    巧夺天工、鬼斧神工、出神入化、炉火纯青、游刃有余、一技之长

    登峰造极、妙手回春、运斤成风、心灵手巧、得心应手、能工巧匠

    形容技术高超的词语

    登峰造极 登:攀登;峰:山峰;造:到达;极:极点,顶端。比喻学问、技艺等已达到最高的境界

    开山鼻祖 比喻一个学术流派、技艺的开创者

    目无全牛 比喻技艺熟练到了得心应手的境界

    不觉技痒 技:技艺。指具有某种技能的人,一遇机会,便情不自禁地想表现一下。

    得心应手 得:得到,想到;应:反应,配合。心里怎么想,手就能怎么做。比喻技艺纯熟或做事情非常顺利。

    德艺双馨 形容一个人的德行和艺术(技艺)都具有良好的声誉。一般指从事艺术的人。

    多才多艺 具有多方面的才能和技艺。

    良工巧匠 良工:手艺精良的工人;巧匠:技艺精巧的匠人。指技艺高超的工匠。

    轮扁斫轮 轮扁:春秋时齐国有名的的造车工人;斫轮:用刀斧砍木制造车轮。指精湛的技艺。

    名师出高徒 高明的师傅一定能教出技艺高的徒弟。比喻学识丰富的.人对于培养人才的重要。

    老调重谈 比喻把说过多次的理论、主张重新搬出来。也比喻把搁置很久的技艺重新做起来。

    骑者善堕 惯于骑马的人常常会从马上摔下来。比喻善长某一技艺的人,往往因大意而招致失败。

    巧夺天工 夺:胜过。人工的精巧胜过天然。形容技艺十分巧妙。

    奇技淫巧 指新奇的技艺和作品。

    巧同造化 巧:技巧,技艺;同:一样;造化:指宇宙的造物能力。形容人的能力很大,可与宇宙的造物能力相比。

    【形容专业技术好的词语】相关文章:

    展开全文
  • 文学研究人员需要统计某篇英文小说中的形容词出现的次数和位置。写一个实现这一目标的文字统计系统,成为“文学研究助手”。 二、基本要求: 英文小说存在于一个文本中。待统计的词汇业绩和要一次输入完毕,即统计...
  • 数据结构实习报告模板 篇一数据结构实习报告模板 数 据 结 构 实习报告 题 目 班 级 姓 名 完成日期 目录 一问题描述 文学研究人员需要统计某篇英文小说中某些形容词的 出现次数和位置试写一个实现这一目标的文字...
  • 算法(Algorithm):算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代...

    原标题:关于大数据,你应该知道的75个专业术语

    上篇(25 个术语)

    如果你刚接触大数据,你可能会觉得这个领域很难以理解,无从下手。不过,你可以从下面这份包含了 25 个大数据术语的清单入手,那么我们开始吧。

    算法(Algorithm):算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代,算法也经常被提及且变得越发流行。

    分析(Analytics):让我们试想一个很可能发生的情况,你的信用卡公司给你发了封记录着你全年卡内资金转账情况的邮件,如果这个时候你拿着这张单子,开始认真研究你在食品、衣物、娱乐等方面消费情况的百分比会怎样?你正在进行分析工作,你在从你原始的数据(这些数据可以帮助你为来年自己的消费情况作出决定)中挖掘有用的信息。那么,如果你以类似的方法在推特和脸书上对整个城市人们发的帖子进行处理会如何呢?在这种情况下,我们就可以称之为大数据分析。所谓大数据分析,就是对大量数据进行推理并从中道出有用的信息。以下有三种不同类型的分析方法,现在我们来对它们分别进行梳理。

    描述性分析法(Deive Analytics):如果你只说出自己去年信用卡消费情况为:食品方面 25%、衣物方面 35%、娱乐方面 20%、剩下 20% 为杂项开支,那么这种分析方法被称为描述性分析法。当然,你也可以找出更多细节。

    预测性分析法(Predictive Analytics):如果你对过去 5 年信用卡消费的历史进行了分析,发现每年的消费情况基本上呈现一个连续变化的趋势,那么在这种情况下你就可以高概率预测出:来年的消费状态应该和以往是类似的。这不是说我们在预测未来,而是应该理解为,我们在「用概率预测」可能发生什么事情。在大数据的预测分析中,数据科学家可能会使用先进的技术,如机器学习,和先进的统计学处理方法(这部分后面我们会谈到)来预测天气情况、经济变化等等。

    规范性分析(Preive Analytics):这里我们还是用信用卡转账的例子来理解。假如你想找出自己的哪类消费(如食品、娱乐、衣物等等)可以对整体消费产生巨大影响,那么基于预测性分析(Predictive Analytics)的规范性分析法通过引入「动态指标(action)」(如减少食品或衣物或娱乐)以及对由此产生的结果进行分析来规定一个可以降低你整体开销的最佳消费项。你可以将它延伸到大数据领域,并想象一个负责人是如何通过观察他面前多种动态指标的影响,进而作出所谓由「数据驱动」的决策的。

    批处理(Batch processing):尽管批量数据处理从大型机(mainframe)时代就已经存在了,但是在处理大量数据的大数据时代面前,批处理获得了更重要的意义。批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。分布式计算(Hadoop),后面会讨论,就是一种专门处理批量数据的方法。

    Cassandra:是一个很流行的开源数据管理系统,由 Apache Software Foundation 开发并运营。Apache 掌握了很多大数据处理技术,Cassandra 就是他们专门设计用于在分布式服务器之间处理大量数据的系统。

    云计算(Cloud computing):虽然云计算这个词现在已经家喻户晓,这里大可不必赘述,但是为了全篇内容完整性的考虑,笔者还是在这里加入了云计算词条。本质上讲,软件或数据在远程服务器上进行处理,并且这些资源可以在网络上任何地方被访问,那么它就可被称为云计算。

    集群计算(Cluster computing):这是一个来描述使用多个服务器丰富资源的一个集群(cluster)的计算的形象化术语。更技术层面的理解是,在集群处理的语境下,我们可能会讨论节点(node)、集群管理层(cluster management layer)、负载平衡(load balancing)和并行处理(parallel processing)等等。

    暗数据(Dark data):这是一个生造词,在笔者看来,它是用来吓唬人,让高级管理听上去晦涩难懂的。基本而言,所谓暗数据指的是,那些公司积累和处理的实际上完全用不到的所有数据,从这个意义上来说我们称它们为「暗」的数据,它们有可能根本不会被分析。这些数据可以是社交网络中的信息,电话中心的记录,会议记录等等。很多估计认为所有公司的数据中有 60% 到 90% 不等可能是暗数据,但实际上没人知道。

    数据湖(Data lake):当笔者第一次听到这个词时,真的以为这是个愚人节笑话。但是它真的是一个术语。所以一个数据湖(data lake)即一个以大量原始格式保存了公司级别的数据知识库。这里我们介绍一下数据仓库(Data warehouse)。数据仓库是一个与这里提到的数据湖类似的概念,但不同的是,它保存的是经过清理和并且其它资源整合后的结构化数据。数据仓库经常被用于通用数据(但不一定如此)。一般认为,一个数据湖可以让人更方便地接触到那些你真正需要的数据,此外,你也可以更方便地处理、有效地使用它们。

    数据挖掘(Data mining):数据挖掘关乎如下过程,从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见。它与前文所述的「分析」息息相关,在数据挖掘中,你将会先对数据进行挖掘,然后对这些得到的结果进行分析。为了得到有意义的模式(pattern),数据挖掘人员会使用到统计学(一种经典的旧方法)、机器学习算法和人工智能。

    数据科学家:数据科学家是时下非常性感的一门行业。它指那些可以通过提取原始数据(这就是我们前面所谓的数据湖)进而理解、处理并得出洞见的这样一批人。部分数据科学家必备的技能可以说只有超人才有:分析能力、统计学、计算机科学、创造力、讲故事能力以及理解商业背景的能力。难怪这帮人工资很高。

    分布式文件系统(Distributed File System):大数据数量太大,不能存储在一个单独的系统中,分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,它能够减少存储大量数据的成本和复杂度。

    ETL:ETL 代表提取、转换和加载。它指的是这一个过程:「提取」原始数据,通过清洗/丰富的手段,把数据「转换」为「适合使用」的形式,并且将其「加载」到合适的库中供系统使用。即使 ETL 源自数据仓库,但是这个过程在获取数据的时候也在被使用,例如,在大数据系统中从外部源获得数据。

    Hadoop:当人们思考大数据的时候,他们会立即想到 Hadoop。Hadoop 是一个开源软件架构(logo 是一头可爱的大象),它由 Hadoop 分布式文件系统(HDFS)构成,它允许使用分布式硬件对大数据进行存储、抽象和分析。如果你真的想让某人对这个东西印象深刻,你可以跟他说 YARN(Yet Another Resource Scheduler),顾名思义,就是另一个资源调度器。我确实被提出这些名字的人深深震撼了。提出 Hadoop 的 Apache 基金会,还负责 Pig、Hive 以及 Spark(这都是一些软件的名字)。你没有被这些名字惊艳到吗?

    内存计算(In-memory computing):通常认为,任何不涉及到 I/O 访问的计算都会更快一些。内存计算就是这样的技术,它把所有的工作数据集都移动到集群的集体内存中,避免了在计算过程中向磁盘写入中间结果。Apache Spark 就是一个内存计算的系统,它相对 Mapreduce 这类 I/O 绑定的系统具有很大的优势。

    物联网(IoT):最新的流行语就是物联网(IoT)。IoT 是嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备通过英特网的互联,它们能够收发数据。物联网生成了海量的数据,带来了很多大数据分析的机遇。

    机器学习(Machine Learning):机器学习是基于喂入的数据去设计能够学习、调整和提升的系统的一种方法。使用设定的预测和统计算法,它们持续地逼近「正确的」行为和想法,随着更多的数据被输入到系统,它们能够进一步提升。

    MapReduce:MapReduce 可能有点难以理解,我试着解释一下吧。MapReduceMapReduce 是一个编程模型,最好的理解就是要注意到 Map 和 Reduce 是两个不同的过程。在 MapReduce 中,程序模型首先将大数据集分割成一些小块(这些小块拿技术术语来讲叫做「元组」,但是我描述的时候会尽量避免晦涩的技术术语),然后这些小块会被分发给不同位置上的不同计算机(也就是说之前描述过的集群),这在 Map 过程是必须的。然后模型会收集每个计算结果,并且将它们「reduce」成一个部分。MapReduce 的数据处理模型和 Hadoop 分布式文件系统是分不开的。

    非关系型数据库(NoSQL):这个词听起来几乎就是「SQL,结构化查询语言」的反义词,SQL 是传统的关系型数据管理系统(RDBMS)必需的,但是 NOSQL 实际上指的是「不止 SQL」。NoSQL 实际上指的是那些被设计来处理没有结构(或者没有「schema」,纲要)的大量数据的数据库管理系统。NoSQL 适合大数据系统,因为大规模的非结构化数据库需要 NoSQL 的这种灵活性和分布式优先的特点。

    R 语言:这还有人能给一个编程语言起一个更加糟糕的名字吗?R 语言就是这样的语言。不过,R 语言是一个在统计工作中工作得很好的语言。如果你不知道 R 语言,别说你是数据科学家。因为 R 语言是数据科学中最流行的编程语言之一。

    Spark(Apache Spark):Apache Spark 是一个快速的内存数据处理引擎,它能够有效地执行那些需要迭代访问数据库的流处理、机器学习以及 SQL 负载。Spark 通常会比我们前面讨论过的 MapReduce 快好多。

    流处理(Stream processing):流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来,流处理方法特别能够针对大规模数据的实时处理。

    结构化 vs 非结构化数据(Structured v Unstructured Data):这是大数据中的对比之一。结构化数据基本上是那些能够被放在关系型数据库中的任何数据,以这种方式组织的数据可以与其他数据通过表格来关联。非结构化数据是指任何不能够被放在关系型数据库中的数据,例如邮件信息、社交媒体上的状态,以及人类语音等等。

    二、下篇(50 个术语)

    这篇文章是上篇文章的延续,由于上篇反响热烈,我决定多介绍 50 个相关术语。下面来对上篇文章涵盖的术语做个简短的回顾:算法,分析,描述性分析,预处理分析,预测分析,批处理,Cassandra(一个大规模分布式数据存储系统),云计算,集群计算,暗数据,数据湖,数据挖掘,数据科学家,分布式文件系统,ETL,Hadoop(一个开发和运行处理大规模数据的软件平台),内存计算,物联网,机器学习,Mapreduce(hadoop 的核心组件之一),NoSQL(非关系型的数据库),R,Spark(计算引擎),流处理,结构化 vs 非结构化数据。

    我们接下来继续了解另外 50 个大数据术语。

    Apache:软件基金会(ASF)提供了许多大数据的开源项目,目前有 350 多个。解释完这些项目需要耗费大量时间,所以我只挑选解释了一些流行术语。

    Apache Kafka:命名于捷克作家卡夫卡,用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流,据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理,卡夫卡目前非常受欢迎。

    Apache Mahout:Mahout 提供了一个用于机器学习和数据挖掘的预制算法库,也可用作创建更多算法的环境。换句话说,机器学习极客的最佳环境。

    Apache Oozie:在任何编程环境中,你都需要一些工作流系统通过预定义的方式和定义的依赖关系,安排和运行工作。Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。

    Apache Drill, Apache Impala, Apache Spark SQL:这三个开源项目都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS),这些功能将非常有用。抱歉,这里说的有点奇怪。

    Apache Hive:知道 SQL 吗?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。

    Apache Pig:Pig 是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做 Pig Latin(我绝对不是瞎说,相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的?

    Apache Sqoop:一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。

    Apache Storm:一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。

    人工智能(AI):为什么 AI 出现在这里?你可能会问,这不是一个单独的领域吗?所有这些技术发展趋势紧密相连,所以我们最好静下心来继续学习,对吧?AI 以软硬件结合的方式开发智能机器和软件,这种硬件和软件的结合能够感知环境并在需要时采取必要的行动,不断从这些行动中学习。是不是听起来很像机器学习?跟我一起「困惑」吧。

    行为分析(Behavioral Analytics):你有没有想过谷歌是如何为你需要的产品/服务提供广告的?行为分析侧重于理解消费者和应用程序所做的事情,以及如何与为什么它们以某种方式起作用。这涉及了解我们的上网模式,社交媒体互动行为,以及我们的网上购物活动(购物车等),连接这些无关的数据点,并试图预测结果。举一个例子,在我找到一家酒店并清空购物车后,我收到了度假村假期线路的电话。我还要说多点吗?

    Brontobytes:1 后面 27 个零,这是未来数字世界存储单位的大小。而我们在这里,来谈谈 Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你一定要读这篇文章才能深入了解这些术语。

    商业智能(Business Intelligence):我将重用 Gartner 对 BI 的定义,因为它解释的很好。商业智能是一个总称,包括应用程序、基础设施、工具以及最佳实践,它可以访问和分析信息,从而改善和优化决策及绩效。

    生物测定学(Biometrics):这是一项 James Bondish 技术与分析技术相结合的通过人体的一种或多种物理特征来识别人的技术,如面部识别,虹膜识别,指纹识别等。

    点击流分析(Clickstream analytics):用于分析用户在网络上浏览时的在线点击数据。有没有想过即使在切换网站时,为什么某些谷歌广告还是阴魂不散?因为谷歌大佬知道你在点击什么。

    聚类分析(Cluster Analysis):是一个试图识别数据结构的探索性分析,也称为分割分析或分类分析。更具体地说,它试图确定案例的同质组(homogenous groups),即观察、参与者、受访者。如果分组以前未知,则使用聚类分析来识别案例组。因为它是探索性的,确实对依赖变量和独立变量进行了区分。SPSS 提供的不同的聚类分析方法可以处理二进制、标称、序数和规模(区间或比率)数据。

    比较分析(Comparative Analytics):因为大数据的关键就在于分析,所以本文中我将深入讲解分析的意义。顾名思义,比较分析是使用诸如模式分析、过滤和决策树分析等统计技术来比较多个进程、数据集或其他对象。我知道它涉及的技术越来越少,但是我仍无法完全避免使用术语。比较分析可用于医疗保健领域,通过比较大量的医疗记录、文件、图像等,给出更有效和更准确的医疗诊断。

    关联分析(Connection Analytics):你一定看到了像图表一样的蜘蛛网将人与主题连接起来,从而确定特定主题的影响者。关联分析分析可以帮助发现人们、产品、网络之中的系统,甚至是数据与多个网络结合之间的相关连接和影响。

    数据分析师(Data Analyst):数据分析师是一个非常重要和受欢迎的工作,除了准备报告之外,它还负责收集、编辑和分析数据。我会写一篇更详细的关于数据分析师的文章。

    数据清洗(Data Cleansing):顾名思义,数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录,然后记住「脏数据」。借助于自动化或者人工工具和算法,数据分析师能够更正并进一步丰富数据,以提高数据质量。请记住,脏数据会导致错误的分析和糟糕的决策。

    数据即服务(DaaS):我们有软件即服务(SaaS), 平台即服务(PaaS),现在我们又有 DaaS,它的意思是:数据即服务。通过给用户提供按需访问的云端数据,DaaS 提供商能够帮助我们快速地得到高质量的数据。

    数据虚拟化(Data virtualization):这是一种数据管理方法,它允许某个应用在不知道技术细节(如数据存放在何处,以什么格式)的情况下能够抽取并操作数据。例如,社交网络利用这个方法来存储我们的照片。

    脏数据(Dirty Data):既然大数据这么吸引人,那么人们也开始给数据加上其他的形容词来形成新的术语,例如黑数据(dark data)、脏数据(dirty data)、小数据(small data),以及现在的智能数据(smart data)。脏数据就是不干净的数据,换言之,就是不准确的、重复的以及不一致的数据。显然,你不会想着和脏数据搅在一起。所以,尽快地修正它。

    模糊逻辑(Fuzzy logic):我们有多少次对一件事情是确定的,例如 100% 正确?很稀少!我们的大脑将数据聚合成部分的事实,这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种这样的计算方式,与像布尔代数等等中的「0」和「1」相反,它旨在通过渐渐消除部分事实来模仿人脑。

    游戏化(Gamification):在一个典型的游戏中,你会有一个类似于分数一样的元素与别人竞争,并且还有明确的游戏规则。大数据中的游戏化就是使用这些概念来收集、分析数据或者激发玩家。

    图数据库(Graph Databases):图数据使用节点和边这样的概念来代表人和业务以及他们之间的关系,以挖掘社交媒体中的数据。是否曾经惊叹过亚马逊在你买一件产品的时候告诉你的关于别人在买什么的信息?对,这就是图数据库。

    Hadoop 用户体验(Hadoop User Experience /Hue):Hue 是一个能够让使用 Apache Hadoop 变得更加容易的开源接口。它是一款基于 web 的应用;它有一款分布式文件系统的文件浏览器;它有用于 MapReduce 的任务设计;它有能够调度工作流的框架 Oozie;它有一个 shell、一个 Impala、一个 Hive UI 以及一组 Hadoop API。

    高性能分析应用(HANA):这是 SAP 公司为大数据传输和分析设计的一个软硬件内存平台。

    HBase:一个分布式的面向列的数据库。它使用 HDFS 作为其底层存储,既支持利用 MapReduce 进行的批量计算,也支持利用事物交互的批量计算。

    负载均衡(Load balancing):为了实现最佳的结果和对系统的利用,将负载分发给多个计算机或者服务器。

    元数据(Metadata):元数据就是能够描述其他数据的数据。元数据总结了数据的基本信息,这使得查找和使用特定的数据实例变得更加容易。例如,作者、数据的创建日期、修改日期以及大小,这几项是基本的文档元数据。除了文档文件之外,元数据还被用于图像、视频、电子表格和网页。

    MongoDB:MongoDB 是一个面向文本数据模型的跨平台开源数据库,而不是传统的基于表格的关系数据库。这种数据库结构的主要设计目的是让结构化数据和非结构化数据在特定类型应用的整合更快、更容易。

    Mashup:幸运的是,这个术语和我们在日常生活中使用的「mashup」一词有着相近的含义,就是混搭的意思。实质上,mashup 是一个将不同的数据集合并到一个单独应用中的方法(例如:将房地产数据与地理位置数据、人口数据结合起来)。这确实能够让可视化变得很酷。

    多维数据库(Multi-Dimensional Databases):这是一个为了数据在线分析处理(OLAP)和数据仓库优化而来的数据库。如果你不知道数据仓库是什么,我可以解释一下,数据仓库不是别的什么东西,它只是对多个数据源的数据做了集中存储。

    多值数据库(MultiValue Databases):多值数据库是一种非关系型数据库,它能够直接理解三维数据,这对直接操作 HTML 和 XML 字符串是很好的。

    自然语言处理(Natural Language Processing):自然语言处理是被设计来让计算机更加准确地理解人类日常语言的软件算法,能够让人类更加自然、更加有效地和计算机交互。

    神经网络(Neural Network):根据这个描述神经网络是一个受生物学启发的非常漂亮的编程范式,它能够让计算机从观察到的数据中学习。已经好久没有一个人会说一个编程范式很漂亮了。实际上,神经网络就是受现实生活中脑生物学启发的模型....... 与神经网络紧密关联的一个术语就是深度学习。深度学习是神经网络中一系列学习技术的集合。

    模式识别(Pattern Recognition):当算法需要在大规模数据集或者在不同的数据集上确定回归或者规律的时候,就出现了模式识别。它与机器学习和数据挖掘紧密相连,甚至被认为是后两者的代名词。这种可见性可以帮助研究者发现一些深刻的规律或者得到一些可能被认为很荒谬的结论。

    射频识别(Radio Frequency Identification/RFID):射频识别是一类使用非接触性无线射频电磁场来传输数据的传感器。随着物联网的发展,RFID 标签能够被嵌入到任何可能的「东西里面」,这能够生成很多需要被分析的数据。欢迎来到数据世界。

    软件即服务(SaaS):软件即服务让服务提供商把应用托管在互联网上。SaaS 提供商在云端提供服务。

    半结构化数据(Semi-structured data):半结构化数据指的是那些没有以传统的方法进行格式化的数据,例如那些与传统数据库相关的数据域或者常用的数据模型。半结构化数据也不是完全原始的数据或者完全非结构化的数据,它可能会包含一些数据表、标签或者其他的结构元素。半结构化数据的例子有图、表、XML 文档以及电子邮件。半结构化数据在万维网上十分流行,在面向对象数据库中经常能够被找到。

    情感分析(Sentiment Analysis):情感分析涉及到了对消费者在社交媒体、顾客代表电话访谈和调查中存在的多种类型的交互和文档中所表达的情感、情绪和意见的捕捉、追踪和分析。文本分析和自然语言处理是情感分析过程中的典型技术。情感分析的目标就是要辨别或评价针对一个公司、产品、服务、人或者时间所持有的态度或者情感。

    空间分析(Spatial analysis):空间分析指的是对空间数据作出分析,以识别或者理解分布在几何空间中的数据的模式和规律,这类数据有几何数据和拓扑数据。

    流处理(Stream processing):流处理被设计用来对「流数据」进行实时的「连续」查询和处理。为了对大量的流数据以很快的速度持续地进行实时的数值计算和统计分析,社交网络上的流数据对流处理的需求很明确。

    智能数据(Smart Data):是经过一些算法处理之后有用并且可操作的数据。

    Terabyte:这是一个相对大的数字数据单位,1TB 等于 1000GB。据估计,10TB 能够容纳美国国会图书馆的所有印刷品,而 1TB 则能够容纳整个百科全书 Encyclopedia Brittanica。

    可视化(Visualization):有了合理的可视化之后,原始数据就能够使用了。当然这里的可视化并不止简单的图表。而是能够包含数据的很多变量的同时还具有可读性和可理解性的复杂图表。

    Yottabytes:接近 1000 Zettabytes,或者 2500 万亿张 DVD。现在所有的数字存储大概是 1 Yottabyte,而且这个数字每 18 个月会翻一番。

    Zettabytes:接近 1000 Exabytes,或者 10 亿 Terabytes。返回搜狐,查看更多

    责任编辑:

    展开全文
  • 淘宝热搜词关键词“山西老陈醋”7天的数据。2018年11月30日市场行情 淘词下载
  • 数据中台常用术语整理

    千次阅读 2022-02-28 17:41:28
    数据中台常用术语整理,包括:什么是数据中台、数据中台架构、数据汇聚联通、数据体系建设、数据资产管理、数据服务体系建设等相关术语。

    数据中台术语整理

    什么是数据中台

    数据中台

    • 数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式 和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。 – 《数据中台 让数据用起来》 P22
    • 数据中台需要具备:数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现四个核心能力,让企业员工、客户、伙伴能够方便地应用数据。 – 2019 Forrester 数据中台行业白皮书《拥抱数据中台,加速数字化转型》

    汇聚整合

    • 数据中台需要对数据进行整合和完善,提供适用、适配、成熟、完善的一站式大数据平台工具,在简便有效的基础上,实现数据采集、交换等任务配置以及监控管理。-- 《数据中台 让数据用起来》 P24
    • 背景:随着业务的多元化发展,企业内部往往有多个信息部门和数据中心,大量系统、功能和应用重复建设,存在巨大的数据资源、计算资源和人力资源的浪费,同时组织壁垒也导致数据孤岛的出现,使得内外部数据难以全局规划。

    提纯加工

    • 数据中台必须连通全域数据,通过统一的数据标准和质量体系,建设提纯加工后的标准数据资产体系,以满足企业业务对数据的需求。-- 《数据中台 让数据用起来》 P25
    • 数据需要经过提纯加工才能使用,这个过程就是数据资产化。
    • 背景:传统的数字化建设往往局限在单个业务流程,忽视了多业务的关联数据,缺乏对数据的深度理解。

    服务可视化

    • 数据中台必须提供便捷、快速的数据服务能力,让相关人员能够迅速开发数据应用,支持数据资产场景化能力的快速输出,以响应客户的动态需求。-- 《数据中台 让数据用起来》 P26
    • 背景:多数企业期待数据中台可以提供数据化运营平台,帮助企业快速实现数据资产的可视化分析,提供包括实时流数据分析、预测分析、机器学习等更为高级的服务,为企业数据化运营赋能。
    • 背景:随着人工智能技术的发展,多数企业期待AI的能力能应用到数据中台上,数据中台必须提供丰富的分析功能,数据资产必须服务于业务分析才能解决企业在数据洞察方面的短板,实现与业务的紧密结合。

    价值变现

    • 数据中台通过打通企业数据,提供以前单个部门或者单个业务单元无法提供的数据能力,以实现数据的更大价值的变现。-- 《数据中台 让数据用起来》 P27
    • 背景:企业期待数据中台能提升跨部门的普适性业务价值能力,更好地管理数据应用,将数据洞察变成直接驱动业务行动的核心动能,跨业务场景推进数据实践。
    • 背景:企业对于如何评估业务行动的效果也十分关注,因为没有效果评估就难以得到有效反馈,从而难以迭代更新数据应用,难以持续为客户带来价值。

    数据中台架构

    数据汇聚

    • 数据汇聚是数据中台数据接入的入口。。-- 《数据中台 让数据用起来》 P54
    • 背景:数据中台本身几乎不产生数据,所有数据来自于业务系统、日志、文件、网络等,数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。从汇聚的时效性来分,有离线批量和实时采集。

    数据开发

    • 数据开发是一整套数据加工以及加工过程管控的工具,有经验的数据开发、算法建模人员利用数据加工模块提供的功能,可以快速把数据加工成对业务有价值的形式,提供给业务使用。-- 《数据中台 让数据用起来》 P56
    • 说明:数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具,以及任务的管理、代码发布、运维、监控、告警等一系列集成工具。

    数据体系

    • 数据体系是数据中台的血肉,开发、管理、使用的都是数据;不同的企业因业务不同导致数据不同,但数据建设方法可以相似,数据要统一建设,数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设。-- 《数据中台 让数据用起来》 P56

    数据资产管理

    • 数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识。-- 《数据中台 让数据用起来》 P56
    • 背景:通过数据体系建立起来的数据资产较为偏技术,业务人员比较难理解。资产管理是以企业全员更好理解的方式,把企业的数据资产展现给企业全员(当然要考虑权限和安全管控)。

    数据服务体系

    • 数据服务体系就是把数据变为一种能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。 – 《数据中台 让数据用起来》 P57
    • 背景:利用数据汇聚、数据开发建设企业的数据资产,利用数据管理展现企业的数据资产,但是并没有发挥数据的价值。
    • 说明:数据中台的服务模块并没有自带很多服务,而是提供快速的服务生成能力以及服务的管控、鉴权、计量等功能。

    运营体系和安全管理

    • 运营体系和安全管理是数据中台得以健康持续运转的基础,使得数据中台持续发挥数据的应用价值。 – 《数据中台 让数据用起来》 P57

    数据汇聚联通

    结构化数据

    • 规则、完整,能够通过二维逻辑来表现的数据,严格遵循数据格式与长度规范,常见的有数据库表、Excel等二维表。 – 《数据中台 让数据用起来》 P87
    • 说明:主要是关系型数据库中的数据,直接从业务系统DB抽取到贴源数据层。

    半结构化数据

    • 数据规则、完整,同样严格遵循数据格式与长度规范,但无法通过二维关系来实现,常见如JSON、XML等形式表达的复杂结构。 – 《数据中台 让数据用起来》 P87
    • 说明:一般是纯文本数据,以各种日志数据为主,半结构化数据保留贴源数据的同时也做结构化处理,为后续使用做准备。

    非结构化数据

    • 数据结构不规则或不完整,不方便用二维逻辑来表现,需要经过复杂的逻辑处理才能提取其中的信息内容,如办公文档、图片、图像和音视频等。 – 《数据中台 让数据用起来》 P88
    • 说明:主要是图片、音频、视频,一般保留在文件系统中,由于这类数据量一般比较庞大,而且没有太多挖掘分析价值,所以贴源数据层不保留原始文件,只保留对原始数据文件的描述,比如地址、名称、类型、分辨率等。

    OLTP(On-Line Transaction Processing,联机事务处理)

    • 是专注于面向事务的任务的一类数据处理,通常涉及在数据库中插入、更新或删除少量数据,主要处理大量用户下的大量事务。 – 《数据中台 让数据用起来》 P98
    • 说明:一般都是高可用的在线系统,以小的事务以及小的查询为主,评估其系统的时候,一般看其每秒执行的事务及查询的数量。

    OLAP(On-Line Analytical Processing,联机分析处理)

    • 主要通过多维的方式来对数据进行分析、查询并生成报表,有的时候也叫DSS(决策支持系统)。 – 《数据中台 让数据用起来》 P98
    • 说明:常用于报表分析场景,相对于 OLTP ,对准确性、事务性和实时性要求较低。
    • 说明:OLAP 系统的应用主要是对用户当前的数据和历史数据进行分析,帮助市场做决策,制定营销策略,主要用来执行大量的查询操作,对实时要求低。

    数据体系建设

    贴源数据层 ODS(Operational Data Store,操作数据层)

    • 对各业务系统数据进行采集、汇聚,尽可能保留原始业务流程数据,与业务系统基本保持一致,仅做简单整合、非结构化数据结构化处理或者增加标识数据日期描述信息,不做深度清洗加工。 – 《数据中台 让数据用起来》 P139

    统一数仓层 DW(Data Warehouse)

    • 又细分为 明细数据层 DWD(Data Warehouse Detail) 和 汇总数据层 DWS(Data Warehouse Summary),与传统数据仓库功能基本一致,对全历史业务过程数据进行建模存储。 – 《数据中台 让数据用起来》 P139
    • 说明:对来源于业务系统的数据进行重组织。业务系统是按照业务流程方便操作的方式来组织数据的,而统一数仓层从业务易理解的视角来重新组织,定义一致的指标、维度,各业务板块、业务域按照统一规范独立建设,从而形成统一规范的标准业务数据体系。

    标签数据层 TDM(Tag Data Model)

    • 面向对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,通过 ID-Mapping 把各个业务板块、各个业务过程中的同一对象的数据打通,形成对象的全域标签体系,方便深度分析、挖掘、应用。 – 《数据中台 让数据用起来》 P139

    应用数据层 ADS(Application Data Store)

    • 按照业务的需要从统一数仓层、标签数据层抽取数据,并面向业务的特殊需要加工业务特定数据,以满足业务及性能需求,向特定应用组装应用数据。 – 《数据中台 让数据用起来》 P139

    ETL(Extract-Transform-Load)

    • 抽取、转换、装载,装载到数仓的是被清洗转换后的数据。 – 《数据中台 让数据用起来》 P141
    • 说明:这样的方式如果转换规则复杂,就会导致在ETL过程中消耗大量的计算资源,另外如果转换有错误,由于没有保留原始数据,则会导致在数仓层面无法追溯问题。进入大数据时代,由于存储成本降低和数据量增大,导致ETL过程中的复杂处理非常耗时,因此建议采用 ELT(Extract-Load-Transform) 方式。

    ELT(Extract-Load-Transform)

    • 将所有原始数据都抽取数据中台的贴源数据层,在数据中台内部再利用大数据底层平台的计算能力进行转换操作。 – 《数据中台 让数据用起来》 P141
    • 说明:这样既可让数据的抽取过程尽可能简单,又保留了所有的原始数据,以便于问题的追溯,还能充分利用大数据的计算能力。

    业务板块

    • 根据业务的属性划分出的相对独立的业务板块,业务板块是一种大的划分,各业务板块中的业务重叠度极低,数据独立建设。 – 《数据中台 让数据用起来》 P147
    • 说明:如地产板块、金融板块、医疗板块等。

    模型设计

    • 以建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实,同时设计出一套表命名规范。 – 《数据中台 让数据用起来》 P147

    数据域

    • 数据域是统一数仓层的顶层划分,是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合,面向业务分析,一个数据域对应一个宏观分析领域。 – 《数据中台 让数据用起来》 P147
    • 说明:如采购域、供应链域等。数据域是抽象、提炼出来的,并且不轻易变动,既能涵盖当前所有业务需求,又能在新业务进入时无影响地将其分配到已有的数据域中,只有当所有分类都不合适时才会扩展新的数据域。数据域是有效归纳、组织业务过程的方式,同时方便定位指标/度量。

    业务过程

    • 业务过程是一种企业的业务活动事件,且是企业经营过程中不可拆分的行为事件。 – 《数据中台 让数据用起来》 P147
    • 说明:如下订单、银行转账、账号注册都是业务过程。业务过程产生度量,并且会被转换为最终的事实表中的事实。业务过程一般与事实表一一对应也有一对多或者多对一的特殊情况,比如累计快照事实表就会把多个业务过程产生的事实在一张表中表达。

    修饰词

    • 修饰词指除统计维度以外的对指标进行限定抽象的业务场景词语,修饰词隶属一个修饰类型。 – 《数据中台 让数据用起来》 P147
    • 说明:如在日志域的访问终端类型下,有修饰词PC、无线端。修饰类型的出现是为了方便管理、使用修饰词。

    原子指标

    • 原子指标是针对某一业务事件行为的度量,是一种不可拆分的指标,具有明确业务含义。 – 《数据中台 让数据用起来》 P148
    • 说明:如支付金额。原子指标有确定的字段名称、数据类型、算法说明、所属数据域和业务过程。原子指标一般采用“动作+度量”方式命名,比如支付金额、注册用户数。

    派生指标

    • 派生指标可以理解为对原子指标业务统计范围的圈定。 – 《数据中台 让数据用起来》 P148
    • 说明:如最近1天北京买家支付金额。派生指标=1个原子指标+多个修饰词+时间修饰词。

    计算方法

    • 指标的数学计算方式,比如汇总、平均、最大、最小等。 – 《数据中台 让数据用起来》 P148

    维度表

    • 维度是观察事物的角度,提供某一业务过程事件所涉及的用于过滤及分类事实的描述性属性,用于描述与“谁、什么、哪里、何时、为什么、如何”(5W1H)有关的事件。 – 《数据中台 让数据用起来》 P148
    • 维度表是统一设计的,在整个数据仓库中共享,所有数据域、业务过程都需要用到维度,都可以在公共维度表中获取相关维度属性。

    事实表

    • 事实是观察事物得到的事实数据,事实涉及来自业务过程事件的度量,基本都是以数量值表示。 – 《数据中台 让数据用起来》 P148
    • 说明:在确定数据域与业务过程后,就可以根据业务过程涉及的维度、度量及粒度,设计相关的事实表。事实表不跨数据域,根据需要,一个事实表可能对应同数据域下一个或多个业务过程。事实表又分为明细事实表和汇总事实表。
    • 说明:明细事实表记录事务层面的事实,保存的是原子数据,数据的粒度通常是每个事务一条记录,明细事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。
    • 说明:汇总事实表是把明细事实表聚合形成的事实表,包括以具有规律性的、可预见的时间间隔

    粒度

    • 粒度是指统一数仓层数据的细化或综合程度,对各事实表行实际代表的内容给出明确的说明,用于确定某一事实表中的行为表示什么。 – 《数据中台 让数据用起来》 P148
    • 说明:确定维度或者事实之前必须声明粒度,因为每个维度和事实都必须与定义的粒度保持一致。原子粒度是最低级别的粒度,是对业务过程最详细的刻画,原子粒度事实必须保留。

    一致性指标定义

    • 指标归属到具体数据域定义指标的含义、命名、类型、计算方法,确保指标的全局一致性。 – 《数据中台 让数据用起来》 P148

    事务事实表

    • 事务事实表描述业务过程事务层面的事实,每条记录代表一个事务事件,保留事务事件活动的原始内容。 – 《数据中台 让数据用起来》 P154
    • 说明:事务事实表中的数据在事务事件发生后记录,一般记录后数据不再进行更改,其更新方式为增量更新。事务事实表相对其他事实表保存的数据粒度更细,可以通过事务事实表对事务行为进行详细分析。

    周期快照事实表

    • 周期快照事实表以具有规律性、可预见的时间间隔产生快照来记录事实,每行代表某个时间周期的一条记录,记录的事实是时间周期内的聚集事实值或状态度量。 – 《数据中台 让数据用起来》 P154
    • 说明:周期快照事实表的内容一般在所表达的时间周期结束后才会产生,一般记录后数据就不再更改,其更新方式为增量更新。周期快照事实表一般是建立在事务事实表之上的聚集,维度比事务事实表少,粒度比事务事实表粗,但是由于对事实进行了多种形式的加工从而产生了新的事实,故一般事实会比事务事实多。

    累计快照事实表

    • 累计快照事实表覆盖一个事务从开始到结束之间所有的关键事件,覆盖事务的整个生命周期,通常具有多个日期字段来记录关键事件时间点。 – 《数据中台 让数据用起来》 P154
    • 说明:周期快照事实表涉及的多个事件中任意一个的产生都要做记录,由于周期快照事实表涉及的多个事件的首次加载和后续更新时间是不确定的,因此在首次加载后允许对记录进行更新,一般采用全量刷新的方式更新。

    对象

    • 是客观世界中研究目标的抽象,可以是现实存在的,也可以是虚拟的,是具备独立特征的个体,比如自然人、产品、账户等。 – 《数据中台 让数据用起来》 P159

    对象标识

    • 对象的标识符用以标识一个对象,一般是各种ID,比如手机号、身份证、登录账号等。 – 《数据中台 让数据用起来》 P159

    标签

    • 利用原始数据,通过一定的加工逻辑产出,能够为业务所直接使用的可阅读、易理解、有业务价值的数据。 – 《数据中台 让数据用起来》 P159

    标签类目

    • 是标签的分类组织方式,是标签信息的一种结构化描述,目的是管理、查找标签,一般采用多级类目。 – 《数据中台 让数据用起来》 P160

    属性标签

    • 属性是对实体基本性质的刻画,属性的变化非常缓慢,有些甚至永远固定,属性是一类实体区别于另一类实体的差异所在。属性标签是根据人类对实体的长期认知得出的,比如性别、年龄、体重。 – 《数据中台 让数据用起来》 P160

    统计标签

    • 统计标签是特定场景下,维度和度量的组合。构建出实体所在场景的维度、度量矩阵,就可以根据经验和实际业务需要组装统计标签,比如日均登录次数、最近30天交易额。 – 《数据中台 让数据用起来》 P160

    算法标签

    • 算法标签是不可以直接获取的,需要通过复杂逻辑分析推理得出,是通过分析对象在多个场景下发生多个事件的规律性得出的相关结论,比如信用指数、购买能力、品牌偏好。 – 《数据中台 让数据用起来》 P160

    标签融合表

    • 以对象为核心把属性标签、统计标签、算法标签组装起来得到的表,是标签数据层落地的产出物。标签融合表设计要考虑标签的类目结构进行合理组织。 – 《数据中台 让数据用起来》 P160

    数据资产管理

    数据资产

    • 由企业拥有或控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。 --《数据资产管理实践白皮书4.0》 中国信通院 2019年6月

    数据资产管理

    • 规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关的数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。 --《数据资产管理实践白皮书4.0》 中国信通院 2019年6月
    • 说明:-《数据资产管理实践白皮书4.0》中阐述的数据资产管理的八大职能中,数据标准管理、元数据管理、数据质量管理和数据安全管理等同时也属于传统数据治理的必要工作内容。数据资产管理在传统数据治理的基础上,加入了数据价值管理、数据共享管理等内容。

    数据治理

    • 是指对数据资产管理行使权力和控制的集合(规划、监督和执行)。 – 《数据中台 让数据用起来》 P201

    数据血缘分析

    • 指的是获取到数据的血缘关系,以历史事实的方式记录数据的来源、处理过程等。 – 《数据中台 让数据用起来》 P217
    • 说明:数据血缘分析对于用户具有重要的价值,比如当时在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,快速定位到问题数据的来源和加工流程,减少分析的时间和难度。
    • 说明:数据血缘和影响性分析主要解决“数据之间有什么关系”的问题。

    数据影响性分析

    • 它能分析出数据的下游流向。当系统进行升级改造的时候,如果修改了数据结构、ETL程序等元数据信息,依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,从而减少系统升级改造带来的风险。 – 《数据中台 让数据用起来》 P217

    数据冷热度分析

    • 主要是对数据数据表的被使用情况进行统计,如表与ETL程序、表与分析应用、表与其他表的关系情况等,从访问频次和业务需求角度出发,进行数据冷热度分析,用图表展现表的重要性指数。 – 《数据中台 让数据用起来》 P219
    • 说明:用户可以参考数据的冷热度报告,结合人工分析,对冷热度不同的数据做分层存储,以便更好的利用HDFS资源,或者评估是否对失去价值的这部分数据做下线处理,以节省存储空间。

    主数据(Master Data)

    • 是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体,是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据,是各业务应用和系统之间进行数据交互的基础。 – 《数据中台 让数据用起来》 P220
    • 说明:从业务角度,主数据是相对“固定”的,变化缓慢。主数据是企业信息系统的神经中枢,是业务运行和决策分析的基础。常用的主数据如供应商、客户、企业组织机构和员工、产品、渠道、科目、交易方式等。

    主数据管理(Master Data Management,MDM)

    • 是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。 – 《数据中台 让数据用起来》 P220
    • 说明:主数据管理的主要内容包括如下几项:主数据相关标准及规范设计、主数据建模、主数据梳理与集成、主数据质量管理、建立灵活的主数据共享服务、建立主数据维护流程。
    • 说明:主数据管理通过对主数据值进行控制,使得企业可以跨系统使用一致的和共享的主数据,提供来自权威数据源的协调一致的高质量主数据,降低成本和复杂度,从而支撑跨部门、跨系统数据融合应用。

    数据质量管理

    • 数据质量管理主要用来解决“数据质量现状如何,谁来改进,如何提高,怎样考核”的问题。
    • 当谈到数据质量管理的时候,必须有一个数据质量评估的标准,有了这个标准,才能知道如何评估数据的质量,才能将数据质量量化,并知道改进的方向,以及如何评估改进后的效果。
    • 目前业内认可的数据质量标准有如下几类:
      • 1)准确性:描述数据是否与其对应客观实体的特征一致。
      • 2)完整性:描述数据是否存在缺失记录或缺失字段。
      • 3)一致性:描述同一实体同一属性的值在不同的系统中是否一致。
      • 4)有效性:描述数据是否满足用户定义的条件或在一定的取值范围内。
      • 5)唯一性:描述数据是否存在重复记录。
      • 6)及时性:描述数据的产生和供应是否及时。
      • 7)稳定性:描述数据的波动是否稳定,是否在其有效范围内。
      • 8)连续性:描述数据的编号是否连续。
      • 9)合理性:描述两个字段之间逻辑关系是否合理。

    数据安全管理

    • 数据安全管理是指对数据设定安全等级,按照相应国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合法合规、安全地采集、传输、存储和使用。 – 《数据中台 让数据用起来》 P228

    数据价值管理

    • 数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面开展。

    数据共享管理

    • 数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。 – 《数据中台 让数据用起来》 P229

    数据资产地图

    • 数据资产地图为用户提供多层次、多视角的数据资产图形化呈现形式。数据资产地图让用户用最直观的方式,掌握数据资产的概况,如数据总量、每日数据增量、数据资产质量的整体状况、数据资产的分类情况、数据资产的分布情况、数据资产的冷热度排名、各个业务域及系统之间的数据流动关系等。 – 《数据中台 让数据用起来》 P232

    数据服务体系建设

    数据服务

    • 数据服务是对数据进行计算逻辑的封装(过滤查询、多维分析和算法推理等计算逻辑),生成API服务,上层数据应用可以对接数据服务API,让数据快速应用到业务场景中。 – 《数据中台 让数据用起来》 P246
    • 说明:按照数据与计算逻辑封装方式的不同,数据服务可分为以下三类:
      • 基础数据服务:它面向的对象是物理表数据,主要面向的场景包括数据查询、多维分析等,通过自定义SQL的方式实现数据中台全域物理表数据的指标获取和分析。
      • 标签画像服务:它面向的对象是标签数据,主要面向的场景包括标签圈人、画像分析等,通过界面配置方式实现数据中台全域标签数据跨计算、存储的统一查询分析计算,加快数据应用的开发速度。
      • 算法模型服务:它面向的对象是算法模型,主要面向的场景包括智能营销、个性化推荐和金融风控等,主要通过界面配置方式将算法模型一键部署为在线API,支撑智能应用和业务。

    查询服务

    • 查询服务通过一个标识(key)查询其所对应的内容,可以附加一些条件过滤项来满足检索要求。如常见的根据账号查询其相关的档案信息、根据商品查询其销售信息等,都属于查询服务的应用场景。 – 《数据中台 让数据用起来》 P250

    分析服务

    • 分析服务通过各种数据统计分析的方法,对数据任意维度的数据分析挖掘,让数据分析人员快速了解数据集的特点,以支持数据化运营、分析决策等场景。常见的如BI工具、数据化运营中的路径分析、漏斗模型等,大部分是基于这种能力来构建 的。 – 《数据中台 让数据用起来》 P253

    推荐服务

    • 推荐服务即所谓的千人千面,对不同的人对物的行为进行数据挖掘,构建每个人与物之间的关系程度,来推荐人、物以满足用户的兴趣偏好,以提升用户对业务的黏性。 – 《数据中台 让数据用起来》 P256

    圈人服务

    • 各行各业都会涉及广告营销场景,而如何找到对的人推送广告就成了大数据场景要解决的问题。圈人服务应运而生,通过提供人群圈选服务,帮助服务使用者从全量用户数据中基于标签组合筛选出符合指定特征的人群,并以API的形式对接上层的营销系统,从而实现营销广告的精准触达,最终达到老客户召回、休眠客户激活等运营目的。 – 《数据中台 让数据用起来》 P260

    数据服务背后的产品技术

    • 数据服务背后的产品技术主要有5种:多样的数据服务、全生命周期管理、服务安全控制、多版本管理、审计与计量计费。 – 《数据中台 让数据用起来》 P274

    多样的数据服务

    • 为了快速支撑不同业务对数据服务的需求,数据服务有多种生成方式,通过选取合适的生成方式,快速生成适合业务的数据服务。常见的数据服务生成方式如下:标签服务化、自定义SQL服务化、算法模型服务化、注册API服务化。 – 《数据中台 让数据用起来》 P274

    生命周期管理

    • 对API服务提供完整的生命周期管理,可以大大降低日常维护成本,包括API服务的新建、维护、上线/下线、授权、监控等。数据服务的生命周期全链路管理主要分为以下几个阶段:服务的创建部署、服务的授权赋能、服务的运行监控、服务的更新升级、服务的到期停服下架。 – 《数据中台 让数据用起来》 P276

    服务安全控制

    • 服务提供时,需要考虑服务的稳定性和安全性,在保障服务稳定的同时保证数据可控、范围可控等。稳定性方面主要考虑做好自动扩容、容错等相关的工作,一般采用分布式的部署机制,提高性能及可靠性。完备的服务安全防护机制包括以下方面:鉴权机制、黑白名单、申请审批。 – 《数据中台 让数据用起来》 P277

    多版本管理

    • 服务在应用到具体场景的过程中,有必要对多版本提供支持。常见的场景有:
      • 业务不同阶段的需求变化导致服务经常升级、回滚。
      • 服务升级后老服务支撑的业务无法短期升级,通过多版本来支撑过渡。
      • 蓝绿部署、灰度验证等场景的需要。
    • 数据服务通过对服务的多版本管理,可以便捷支持切换服务多版本,同时支持蓝绿部署和灰度验证,以及业务需求的升级和回滚,有效保障服务的连续性。其中主要涉及以下两个关键点:多版本服务在线、服务路由管控。 – 《数据中台 让数据用起来》 P277

    审计与计量计费

    • 服务授权后,需要对服务的使用情况进行审计监控。以服务为对象,统计该服务的所有调用方信息、总调用情况、成功调用次数统计、失败调用次数统计等,为后续计量计费、访问控制、流量控制提供审计数据基础。审计控制模块为服务API的调用情况提供了全链路的追踪溯源,为服务的提供方和调用方带来了极大便利,是服务管理服务监控、服务分析、服务运维等不可或缺的重要模块。
    • 数据服务的审计功能主要包括服务API的审计列表、API调用成功记录、API调用失败记录、API调用方来源审计记录等。 – 《数据中台 让数据用起来》 P278

    公众号

    知行chen

    参考

    《数据中台 让数据用起来》 付登坡等

    展开全文
  • 作者|太子长琴整理|NewBeeNLP数据增强(Data Augmentation, DA)缓解了深度学习中数据不足的场景,在图像领域首先得到广泛使用,进而延伸到 NLP 领...
  • 本文将详细讲解数据预处理、Jieba分词和文本聚类知识,这篇文章可以说是文本挖掘和自然语言处理的入门文章。两万字基础文章,希望对您有所帮助。欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列...
  • # words5 基于词性移除标点符号 import jieba.posseg as psg words5 = [ (w.word, w.flag) for w in psg.cut(words1) ] # 保留形容词 saved = ['a',] words5 =[x for x in words5 if x[1] in saved] print(words5) ...
  • 个人评价词语

    2021-07-14 02:46:41
    个人评价词语外貌气质好:英俊潇洒,玉树临风,气宇轩昂,貌若潘安,面如冠玉,貌似朗星,风流倜傥,沉鱼落雁,闭月羞花,貌若天仙,指如削葱,冰雪聪明,聪明伶俐,唇若涂脂,人见人爱……内在人品好:淳朴善良,...
  • 数据分析指标术语

    2021-06-10 17:20:20
    数据分析名词解释 A 聚合(Aggregation): 搜索、合并、显示数据的过程。 算法(Algorithms): 可以完成某种数据分析的数学公式。 分析法(Analytics): 用于发现数据的内在涵义。 异常检测(Anomaly detection): 在...
  • 收集的描述软件质量的词语

    千次阅读 2019-09-15 18:11:50
    可伸缩性,一般通过DNS域名解析负载均衡,反向代理负载均衡,IP负载均衡,数据链路层负载均衡,改进和提高分布式缓存的算法,利用NOSQL数据库的可伸缩性等等。 可扩展性(Extensibility) 可扩展性,通常和可...
  • 这里从百度百科里面拿来关于“wordnet”的定义和介绍: WordNet是由Princeton 大学的心理学家,...名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合...
  • 形容词 var str = "hunasheng"; var reg = /n/; console.log(str.match(reg)); 结果是在索引2的位置上匹配到了n 那么我向让他在最后的位置匹配到了n,那个怎么办?? 先要匹配到最后的n,那么你要定义一个规则,...
  • 指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。...
  • 数据分析常用的术语

    千次阅读 2019-07-01 10:45:36
    这些术语是帮助我们打开思路,通过多个角度对数据进行深度解读,可以说是前人已经总结和使用的数据分析方法。下面是数据统计分析常用的指标或术语: 1.平均数 一般指算术平均数。算术平均数是指,全部数据累加...
  • 常见的机器学习模型:感知机,线性回归,逻辑回归,支持向量机,决策树,随机森林,GBDT,XGBoost,贝叶斯,KNN,K-means等; 常见的机器学习理论:过拟合问题,交叉验证问题...2.可用于数值型数据和离散型数据; 3...
  • 目标:从业务完整性的角度重组数据,建设一套覆盖全域、全历史的企业数据体系,利用这套体系还原企业任意时刻的业务运行状态; 推荐模型:随着技术的 2、维度建模的特点与核心概念 特点 a. 模型简单易理解:仅有...
  • 文学研究助手【C语言实现】数据结构实验

    千次阅读 多人点赞 2021-05-04 18:12:56
    数据结构实验实验内容实验要求测试数据关键代码备注运行结果其他补充说明 文学研究助手【C语言实现】->数据结构实验 数据结构实验:文学研究助手【C语言实现】 实验内容 文学研究人员需要统计某篇英语小说中某些...
  • 日常数据分析过程中,常常会涉及到数字类,表格类资料的处理。此类资料中的数学术语和概念较多,基础较薄弱的同学可能难以理解,本文主要就资料分析中必须掌握的概念进行通俗讲解。期待大家能有所收获。
  • 找出k个与测试数据最相近的k个训练数据,对分类则取其预测标签就是k个训练数据中出现最多的分类。 算法过程: 计算测试样本与每个训练样本距离; 排序并选择前k个训练样本; 确定前k个训练样本中各个类别的出现频率...
  • 近义词表包含的单词词性有限,如WordNet中只包括名词、动词、形容词、副词四类,其他词性的单词无法通过近义词表进行替换。 近义词表中存在一词多义的情况,但是替换时难以判断原始单词在句中对应哪个词义,因此...
  • 你问我为什么不考虑多线程,因为我这个人懒啊,这个问题最难的地方在数据分析,数据抓取方面我不太关注效率,因为我有足够的时间去等这些数据,所以关于性能方面的问题,有时间我们再做进一步讨论吧! 数据处理...
  • 架构上,该中台分为数据层,算法层和应用层:其中数据层是指中台灵活对接公司的50多个数据源,并且支持动态调整,这些数据量级达到了10亿+;算法层是整个平台的大脑,集成各种算法模块,主要为情感模型、实体识别、...
  • 自然语言处理领域的数据增广方法

    千次阅读 2021-03-09 18:04:56
    数据增广(Data Augmentation,也有人将Data Augmentation翻译为“数据增强”,然而“数据增强”有将数据进行强化之意,而不仅是数量扩充。因此我们将其翻译为“数据增广”,单纯表示扩大数据规模。)是自动扩充训练...
  • 纷繁复杂的数据常常让我们无所适从,而可视化能够通过视觉的方式让数字易于理解。数据可视化将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各...
  • 数据挖掘(一)——齐夫定律,停用词与词干提取 一、... 当两个词意思相近时,也可以把它们作为同一个词来处理,这样可以极大的减少词语的种类,加快检索速度。 如果两个词有相同的含义,就把它们当作同一个词来处理。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,611
精华内容 1,444
关键字:

形容数据的词语