精华内容
下载资源
问答
  • 前端名词解释(持续更新)

    千次阅读 2017-04-26 21:53:02
    前端名词解释 前端名词解释 名词:HTML 解释: HTML 是用来描述网页的一种语言。 HTML拥有很多标签入等。 HTML文档 = 网页,HTML文档包含“标签”和“纯文本”。 HTML的结构决定这个页面稳不稳定,规...

    名词:HTML
    解释:
    • HTML 是用来描述网页的一种语言。
    • HTML拥有很多标签入<a><p><span>等。
    • HTML文档 = 网页,HTML文档包含“标签”和“纯文本”。
    • HTML的结构决定这个页面稳不稳定,规不规范,性能好不好。

    名词:HTML5
    解释:
    • HTML5 是 HTML的新标准,它更加语义化,并新增了许多语义化标签。
    • 由于HTML5在PC上只兼容较高级浏览器(IE兼容性差),所以我们一般用HTML5来做移动端的页面,也就是我们口中常说的H5。

    名词:CSS
    解释:
    • CSS 全称为“层叠样式表”。
    • CSS是为了解决内容与表现分离的。好比一个姑娘的身体器官五官是HTML的话,那么CSS就是这个姑娘所化的妆、衣服、发型等。
    • CSS就决定了这个页面好不好看,动画效果酷不酷炫。

    名词:CSS3
    解释:
    • CSS3是最新的CSS标准。
    • CSS3相比之前版本主要新增了一些属性,对动画及效果的支持更好了。
    • CSS3对流媒体等资源的支持性更好了。

    小结:综合来说,HTML+CSS是静态页的基本组成,能满足大部分浏览器的兼容和页面效果。而HTML5+CSS3是可以满足更高级的动画效果但只能兼容高级浏览器(如IE浏览器兼容性就不好)

    名词:JavaScript
    解释:
    • JavaScript 是一种轻量级的编程语言。
    • JavaScript 插入 HTML 页面后,可由所有的现代浏览器执行,兼容性还行
    • 如果说HTML+CSS是一个人的皮肤五官毛发,那么JavaScript就是这个人的骨架血液,它能够让你的页面“动起来”实现交互。

    名词:JQuery
    解释:
    • jQuery 是一个 JavaScript 函数库。
    • 如果说JavaScript是一个个的积木,你要使用的时候就拿这些积木去搭建房屋。那么JQuery就是已经搭建好的各式各样的房屋,你只需要拿你想用的那块去用可以了。提高了开发的效率,降低了难度。

    名词:AJAX
    解释:
    • AJAX 是一种用于创建快速动态网页的技术。
    • 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
    • 传统的网页(不使用 AJAX)如果需要更新内容,必需重载整个网页面。
    • 有很多使用 AJAX 的应用程序案例:新浪微博、Google 地图、开心网等等。

    名词:JSON
    解释:
    • JSON是纯文本
    • JSON具有“自我描述性”(人类可读,语义化)
    • JSON具有层级结构(值中存在值)
    • JSON可通过JavaScript解析
    • JSON可通过AJAX进行传输

    名词:SQL
    解释:
    • SQL是用于访问和处理数据库的标准的计算机语言。
    • SQL语言可以对数据库进行操作,包括,增删改查、插入、创建等功能。
    • SQL存在各种版本的语言,但他们的关键词(比如 SELECT、UPDATE、DELETE、INSERT、WHERE 等等)还是一样的。

    名词:ASP
    解释:
    • ASP 指 Active Server Pages(动态服务器页面)
    • ASP文件可包含文本、HTML、JS脚本等
    • ASP和HTML的区别在于:
    当浏览器请求某个 HTML 文件时,服务器会返回这个文件。
    而当浏览器请求某个 ASP 文件时。ASP 引擎会逐行地读取这个文件,并执行文件中的脚本。最后,ASP 文件将以纯 HTML 的形式返回到浏览器。
    但最终展示给用户的效果还是一样的。

    名词:PHP
    解释:
    • PHP是一种被广泛使用的开源脚本语言。
    • PHP 脚本在服务器上执行。
    • PHP文件能够包含文本、HTML、CSS及PHP代码
    • PHP能动态生成页面内容,能够创建、打开、读取、写入、删除及关闭服务器上的文件。还能添加、删除、修改数据库中的数据。限制用户访问网站中的某一些页面。

    名词:WebP
    解释:
    • WebP(发音weppy),是一种同时提供了有损压缩与无损压缩(可逆压缩)的图片文件格式。
    • WebP能减少文件大小,在达到和JPEG格式相同的图片质量同时,能够减少图片在网络上的发送时间。
    • WebP支持的像素最大数量是16383x16383。
    • WebP有静态与动态两种模式。

    名词:SharpP
    解释:
    • sharpP是腾讯公司SNG即通产品部音视频技术中心推出的一种图片压缩组件,现已支持iOS、Android、Windows、Linux四个平台。
    • 编码压缩率、编码耗时、解码耗时相比webP有明显的优势。
    • sharpP采用有损压缩,转换工具会读取原图质量参数,适当降低。

    名词:WebM
    解释:
    • WebM是一个开放的、免版权费用的视频文件格式。
    • WebM视频文件格式应能提供高质量的视频压缩以配合HTML 5使用。
    • WebM采用了On2 Technologies开发的VP8及其后续版本VP9视频编解码器和Xiph.Org基金会开发的Vorbis音频编解码器,使用的封装格式则以Matroska格式为基础

    名词:MP4
    解释:
    • MP4,全称MPEG-4 Part 14,是一种使用MPEG-4的多媒体电脑文件格式,扩展名为.mp4。
    • MP4以存储数字音频及数字视频为主。
    • MP4至今仍是各大影音分享网站所使用主流
    • MP4可以在每分钟约4MB的压缩缩率下提供接近DVD质量的影音效果。
    • MP4优点是压缩质量优、转换容易,目前智能手机录影档,九成以上皆为MP4档。

    名词:Flash
    解释:
    • Flash同时有三种含义:创作环境,播放器和程序文件。
    • 创作环境, Adobe Flash是创作环境。
    • 播放器,Adobe Flash Player是一种广泛使用的、专有的多媒体程序播放器。
    • 程序文件,Flash Player使用的SWF文件可由Adobe Animate、Adobe Flex或者其他软件或第三方工具创建。

    名词:AR
    解释:
    • 增强现实(Augmented Reality,简称AR)。
    • AR是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术。
    • AR技术可以在屏幕上把虚拟世界套在现实世界并进行互动。

    名词:VR
    解释:
    • 虚拟实境(英语:virtual reality,缩写为VR),简称虚拟技术,也称虚拟环境。
    • VR是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。
    • VR技术集成了计算机图形、计算机仿真、人工智能、感应、显示及网络并行处理等技术的最新发展成果,是一种由计算机技术辅助生成的高技术模拟系统。

    名词:SVG
    解释:
    • 可缩放矢量图形(英语:Scalable Vector Graphics,SVG)。
    • SVG是一种基于可扩展标记语言(XML),用于描述二维矢量图形的图形格式,由W3C制定,是一个开放标准。

    名词:Canvas
    解释:
    • Canvas元素是HTML5的一部分,允许脚本语言动态渲染位图像。。
    • Canvas由一个可绘制地区HTML代码中的属性定义决定高度和宽度。JavaScript代码可以访问该地区,通过一套完整的绘图功能类似于其他通用二维的API,从而使动态生成的图形。
    • 可以使用Canvas构造图形,动画,游戏和图片。

    名词:Webapp
    解释:
    • Webapp是网络应用程序,是一种使用网页浏览器在互联网或企业内部网上操作的应用软件。
    • Webapp是一种以网页语言(例如HTML、JavaScript、Java等编程语言)撰写的应用程序,需要通过浏览器来运行。
    • Webapp可以直接在各种电脑平台上运行,不需要事先安装或定期升级等程序。常见的网页应用程序有Webmail、网络商店、网络拍卖、wiki、网络论坛、博客、网络游戏等许多应用。

    展开全文
  • web名词解释

    2021-01-22 10:06:51
    HTML:超文本标记语言,... ... JavaScript:一种直译式脚本语言,其主要作用是在不与服务器交互的情况下修改 HTML 页面内容, 为网页添加各式各样的动态功能。Ecma 国际以 JavaScript 为基础制定了 ECMAScript 标准。 jQuer

    HTML:超文本标记语言,标准通用标记语言下的一个应用。

    CSS:层叠样式表(英文全称:Cascading Style Sheets),是一种用来表现 HTML(标准通用标记语言的一个应用)或 XML(标准通用标记语言的一个子集)等文件样式的语言,用于为 HTML 文档定义布局。

    JavaScript:一种直译式脚本语言,其主要作用是在不与服务器交互的情况下修改 HTML 页面内容, 为网页添加各式各样的动态功能。Ecma 国际以 JavaScript 为基础制定了 ECMAScript 标准。

    jQuery:是一个快速、简洁的 JavaScript 框架,是一个优秀的JavaScript 代码库(或 JavaScript 框架)。

    DOM:文档对象模型(Document Object Model,简称 DOM), 是 W3C 组织推荐的处理可扩展标志语言的标准编程接口。

    UI:即 User Interface(用户界面)的简称。泛指用户的操作界面,包含于移动 APP、网页、智能穿戴设备等。

    CSS3:是 CSS(层叠样式表)技术的升级版本,于 1999 年开始制订,2001 年 5 月 23 日 W3C 完成了 CSS3 的工作草案,主要包括盒子模型、列表、超链接方式、语言模块、背景和边框、文字特效、多栏布局等模块 。

    CSS hack:通过在 CSS 样式中加入一些特殊的符号,区别不同浏览器制作不同的 CSS 样式的设置,解决浏览器显示网页特效不兼容性问题。

    PHP: 超文本预处理器(Hypertext Preprocessor),PHP 将程序嵌入到 HTML 文档中去执行,是 Web 开发动态网页制作技术之一。

    IFRAME:是 HTML 标签,作用是文档中的文档,或者浮动的框架(FRAME)。

    Html5:万维网的核心语言,标准通用标记语言下的一个应用超文本标记语言(HTML)的第五次重大修改,其主要的目标是将互联网语义化,以便更好地被人类和机器阅读,并同时更好地支持网页中嵌入各种媒体。

    OOP: 面向对象编程(Object Oriented Programming,OOP,面向对象程序设计)是一种计算机编程架构。

    Bootstrap:是美国 Twitter 公司的设计师 Mark Otto 和 Jacob Thornton 合作基于 HTML、CSS、JavaScript 开发的简洁、直观的前端开发框架,使得 Web 开发更加快捷。

    Less: 是一种 CSS 预处理语言,它扩充了 CSS 语言,增加了诸如变量、混入、函数等功能,让 CSS 更易维护,方便制作主题和扩充。使用 CSS 的语法。

    Sass: Sass(Syntactically Awesome Style Sheets)是一个相对新的编程语言,Sass 为 web 前端开发定义一套新的语法规则和函数,以加强和提升 CSS,Sass 的安装需要 Ruby 环境。

    MySQL:是一个关系型数据库管理系统,由瑞典 MySQL AB公司开发,目前属于 Oracle 旗下产品。

    API:(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而无需访问源码,也无需理解内部工作机制的细节。

    HTTP:超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。

    RESTful: 表现层状态转化(Representational State Transfer)软件架构风格,提供了一组设计原则和约束条件。

    Web:(World Wide Web)即全球广域网,也称为万维网,它是一种基于超文本和 HTTP 的、全球性的、动态交互的、跨平台的分布式信息系统。

    Ajax: 即 “Asynchronous Javascript And XML” ( 异 步
    JavaScript 和 XML),是指一种创建交互式网页应用的网页开发技术。

    XML:可扩展标记语言,标准通用标记语言的子集,是一种
    用于标记电子文件使其具有结构性的标记语言。

    JSON:(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。

    JSONP:(JSON with Padding)是 JSON 的一种“使用模式”,可用于解决主流浏览器的跨域数据访问的问题。

    Laravel: Laravel是一套简洁、优雅的PHP Web开发框架(PHP Web Framework)。

    BLADE: 快速搭建一个 Web 应用程序的开源框架

    Session:会话,指浏览器和服务器的一次交互。

    Cookie:有时也用其复数形式 Cookies,指某些网站为了辨别
    用户身份、跟踪 session 而储存在用户本地终端上的数据(通常经过
    加密)。

    jQuery Mobile:是 jQuery 框架的一个组件,用于创建移动端 Web 应用的的前端框架。

    ES6: ECMAScript 语言规范第六版。ECMAScript 是一种由
    Ecma 国际通过 ECMA-262 标准化的脚本程序设计语言,是 JavaScript
    的标准。

    Node.js:是 JavaScript 运行在服务端的平台。

    Express: 是一个简洁而灵活的 node.js Web 应用框架。

    VUE: 是一套构建用户界面的渐进式框架。

    Webpack: 是一个模块打包工具,将 Web 开发的各种资源打
    包压缩在指定的文件中。

    Canvas: 画布,是 HTML5 中新增的标签,用于网页实时生
    成图像,并且可以操作图像内容。

    SVG:可缩放矢量图形,是基于可扩展标记语言 XML(标准
    通用标记语言的子集)用于描述二维矢量图形的一种图形格式。

    展开全文
  • 大数据名词解释

    千次阅读 2020-05-11 18:04:29
    大数据名词解释大数据知识体系架构第一阶段:Hadoop一、ELK技术栈:二、HDFS:Hadoop分布式文件系统三、MapReduce:四、Apache Hive:五、Apache HBase:六、Apache Sqoop:七、Zeppelin可视化:第二阶段:Spark一、Scala...

    大数据知识体系架构

    在这里插入图片描述

    第一阶段:Hadoop

    一、ELK技术栈:

    ELK Stack 是 Elasticsearch、Logstash、Kibana 三个开源软件的组合。在实时数据检索和分析场合,三者通常是配合共用。

    Elasticsearch:分布式搜索和分析引擎,具有高可伸缩、高可靠和易管理等特点。基于 Apache Lucene 构建,能对大容量的数据进行接近实时的存储、搜索和分析操作。通常被用作某些应用的基础搜索引擎,使其具有复杂的搜索功能;

    Logstash:数据处理引擎,它支持动态的从各种数据源搜集数据,并对数据进行过滤、分析、丰富、统一格式等操作,然后存储到 ES;

    Kibana:数据分析和可视化平台。与 Elasticsearch 配合使用,对数据进行搜索、分析和以统计图表的方式展示;

    Filebeat:ELK 协议栈的新成员,一个轻量级开源日志文件数据搜集器。在需要采集日志数据的 server 上安装 Filebeat,并指定日志目录或日志文件后,Filebeat 就能读取数据,迅速发送到 Logstash 进行解析。

    二、HDFS:Hadoop分布式文件系统

    HDFS(Hadoop Distributed File System)是hadoop生态系统中最基础的一部分,是hadoop中的的存储组件。
    HDFS是一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。
    HDFS涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。

    HDFS的特点>

    (1)超大文件。目前的hadoop集群能够存储几百TB甚至PB级的数据。
    (2)流式数据访问。HDFS的访问模式是:一次写入,多次读取,更加关注的是读取整个数据集的整体时间。
    (3)商用硬件。HDFS集群的设备不需要多么昂贵和特殊,只要是一些日常使用的普通硬件即可。
    (4)不支持低时间延迟的数据访问。hdfs关心的是高数据吞吐量,不适合那些要求低时间延迟数据访问的应用。
    (5)单用户写入。hdfs的数据以读为主,只支持单个写入者,写操作总是以添加的形式在文末追加,不支持在任意位置进行修改。

    HDFS由四部分组成:
    HDFS Client、NameNode、DataNode和Secondary NameNode。

    HDFS是一个主/从(Mater/Slave)体系结构。
    HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。

    三、MapReduce:

    MapReduce是面向大数据并行处理的计算模型、框架和平台,主要用于大规模数据集(大于1TB)的并行运算。

    MapReduce是一种编程模板,编写MapReduce程序的主要目的是进行数据处理。

    MapReduce程序进行一次数据处理称为MR任务,它包含两个处理阶段:map阶段和reduce阶段。每一阶段的输入和输出的数据格式均为键/值对。

    数据处理的具体步骤如下:

    1.MR框架从HDFS中读取相关文件,并将数据分片,对每个分片的数据转化为key-value集合,送入map节点;
    2.map节点获取key-value集合后,MR框架调用程序员编写好的map函数,对每一个key-value数据进行处理,生成新的key-value数据集合;
    3.MR框架对map阶段输出的key-value数据集合进行排序、分组处理,进入reduce阶段;
    4.MR框架调用编写好的reduce函数进行数据处理。最后输出的key-value数据集合即最终的数据处理结果。

    四、Apache Hive:

    Hive是基于hadoop的一个数据仓库工具可以将结构化数据文件映射为一张数据库表,并提供类SQL查询功能.Hive的主要用途:用于海量数据的离线数据分析,比直接使用MapReduce开发效率更高.
    Hive的本质是将SQL转换为MapReduce程序;Hive中所有的数据都存储在HDFS上,没有专门的数据存储格式;Hive可以利用HDFS存储,利用MapReduce计算;

    Hive 组件主要包括:用户接口:包括 CLI、JDBC/ODBC、WebGUI。

    元数据存储:Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字和属性,列和分区及其属性,表的数据所在目录等。 解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随MapReduce 调用执行。

    五、Apache HBase:

    HBase是一个分布式的、面向列的开源数据库。
    它是一个适合于非结构化数据存储的数据库。
    HBase使用HDFS作为存储,数据访问速度快,响应时间约2-20毫秒。支持每个节点20k到100k以上ops/s的数据库读写操作,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群,可扩展到20,000多个节点。

    六、Apache Sqoop:

    sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。
    可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。
    sqoop通过Hadoop的MapReduce导入导出,可以提供了很高的并行性能以及良好的容错性。

    七、Zeppelin可视化:

    Zeppelin 是一个可以进行大数据可视化分析的交互式开发系统。
    可以完成数据接入、数据发现、数据分析、数据可视化、数据协作等功能。
    多语言后端:Zeppelin解释器允许将任何语言/数据处理后端插入到Zeppelin中。包括Spark,Python,JDBC,Shell等。
    可视化前端:包含了一些基本图表。可视化不限于Spark SQL查询,任何语言后端的任何输出都可以被识别和可视化。

    第二阶段:Spark

    一、Scala编程

    Scala语言是一种能够运行于 JVM 和.Net 平台之上的通用编程语言
    可用于大规模应用程序开发,也可用于脚本编程。
    Scala 支持面向对象和函数式编程。学习它的主要目的是为了进行开源大数据内存计算引擎 Spark 的源代码编程。
    Scala的源代码会被编译成 Java 字节码 (.class),然后运行于 JVM 之上,并可以调用现有的 Java 类库,实现两种语言的无缝对接。

    二、Spark 生态框架

    Spark是一个针对大规模数据处理的快速通用引擎。
    Spark生态系统是一个包含多个子项目的集合,其中包含Spark SQL、Spark Streaming、GraphX等子项目。交互式查询(Spark SQL):兼容Hive数据仓库,提供统一的数据访问方式,将SQL查询与Spark程序无缝集成。
    实时流处理(Spark Streaming):可以以实现高吞吐量的,具备容错机制的实时流数据处理。接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结构保存在HDFS等各种地方。
    图计算(GraphX):图是一种数据结构,GraphX它是一个图计算引擎,它可以处理像倒排索引,推荐系统,最短路径,群体检测等应用。

    三、Flume

    Flume是一种高可靠,分布式的海量日志采集、聚合和传输的应用系统Flume可以高效率的将服务器中收集的日志信息存入HDFS/HBase中,同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。
    Flume系统中核心的角色是agent,agent本身是一个Java进程,一般运行在日志收集节点。flume有3大组件:

    source(源端数据采集):用于跟数据源对接,以获取数据。
    Channel(临时存储聚合数据):agent内部的数据传输通道,用于从source将数据传递到sink
    Sink(移动数据到目标端):用于往最终存储系统传递数据;如HDFS、KAFKA以及自定义的sink

    四、Apache Kafka

    **Kafka是一种高吞吐量的分布式日志系统。**主要用于web/nginx日志、访问日志,消息服务等日志收集系统和消息系统应用。 它的最大的特性就是可以实时的处理海量数据以满足各种需求场景:日志收集:一个公司可以用Kafka可以收集各种服务的log,通过kafka以统一接口服务的方式开放给各种hadoop、Hbase等。

    用户活动跟踪:记录web用户或者app用户的各种活动,(如浏览网页、搜索、点击),然后进行实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。

    流式处理:比如spark streaming和storm。

    第三阶段:离线数据平台

    一、Hive ETL处理

    ETL:用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
    也可以理解为ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。
    Hive是基于hadoop的一个数据仓库工具,可以作为ETL的工具来应用。

    二、Oozie

    用于Hadoop平台的开源的工作流调度引擎,用来管理Hadoop作业,属于web应用程序。Oozie是大数据四大协作框架之一——任务调度框架,另外三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。
    它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。功能相似的任务调度框架还有Azkaban和Zeus。

    工作流:

    一个完整的数据分析系统通常是由大量的任务单元组成,Shell脚本、Java程序、MapReduce程序、Hive脚本等等,各个任务单元之间存在时间先后及前后依赖关系。为了很好的组织这样的复杂执行计划,需要一个工作流调度系统来调用执行。简单的工作流调度:Liunx的crontab来定义,复杂的工作流调度:Oozie、Azakaban等

    三、Tableau可视化

    Tableau是用来做数据的管理和数据可视化的工具,以在快速生成美观的图表、坐标图、仪表盘与报告。

    四、Cassandra/Redis/MongoDB

    NoSQL技术,这是一种基于内存的数据库,并且提供一定的持久化功能。Redis和MongoDB是当前使用最广泛的NoSQL数据库。

    Redis:
    可以支持每秒十几万次的读/写操作,其性能远超数据库。
    支持集群、分布式、主从同步等配置,原则上可以无限扩展。
    它还支持一定的事务能力,这保证了高并发的场景下数据的安全和一致性

    MongoDB:基于分布式文件存储的NoSQL数据库

    Cassandra:是一套开源分布式NoSQL数据库系统。
    适用于跨数据中心/云端的结构化数据、半结构化数据和非结构化数据的存储。
    同时,Cassandra 高可用、线性可扩展、高性能、无单点故障。

    第四阶段:实时流处理平台

    Confluent:用来管理和组织不同数据源的流媒体平台,可以实时地把不同源和位置的数据集成到一个中心的事件流平台

    Flink:用Java和Scala编写的分布式流数据处理引擎。Flink以数据并行和流水线方式执行批处理和流处理程序。

    Grafana:采用 go 语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具。

    核心技术小结

    Hadoop

    大数据平台的鼻祖,第一代大数据计算引擎。主要思想是通过增加计算机的数量提高计算能力,将单机运算以低成本的方式扩容到多机运算。他一般称为Hadoop生态圈,圈子里有很多小伙伴儿(称之为:组件):HDFS(分布式文件存储系统),MR(MapReduce计算框架),Hive(数据仓库分析工具)、Yarn(Hadoop生态圈中负责资源管理和作业调度的组件),另外需要强调的是:Hadoop是一个Java框架,所以学习大数据,还是需要有一定的Java基础。

    Spark

    第二代大数据计算引擎,相比Hadoop计算速度有了极大提升。目前应用最为广泛,但仍需要其他数据存储系统支持,比如Hadoop的文件系统。

    Flink

    第三代大数据计算引擎。为实时计算(流式计算)而生,真正意义上的实时计算,现由阿里主导开发,未来将会PK Spark。广泛应用于要求低延迟的数据处理场景:舆情监控、互联网金融、点击流日志处理等。

    Hive

    Hive为传统的数据库开发人员提供了一种大数据平台开发的途径。或者说对于不精通编程的开发人员提供了一种大数据开发的工具,只需了解SQL语言即可。Hive底层可以将SQL代码转换成Hadoop应用程序。

    ELK

    ELK是三个工具的简写(Elasticsearch , Logstash, Kibana),即数据检索、数据导入与数据展示三个工具。是一个近似实时的搜索平台,可快速处理大数据,其中核心是数据检索模块(Elasticsearch),利用它可以快速搭建专业级的海量数据全文检索(查找)系统,并提供数据统计(聚合分析)能力,在很大程度上弥补Hadoop在文件快速检索效率上的不足。

    Scala

    是一种开发语言,源自于Java,现在被广泛应用的Spark计算引擎便是由Scala编写完成,并且在Spark开发过程中通常也推荐使用Scala编码。

    展开全文
  • 数据分析常用名词解释

    千次阅读 2020-01-09 09:13:32
    1、互联网常用名词解释 2、统计学名词解释 3、数据分析名词解释 一、互联网常用名词解释 1、PV(Page View)页面浏览量 指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量...

    数据分析常用的术语解释。 按照以下三类进行汇总。 1、互联网常用名词解释 2、统计学名词解释 3、数据分析名词解释

    一、互联网常用名词解释

    1、PV(Page View)页面浏览量

    指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。

    2、UV(Unique Visitor)独立访客

    指来到网站或页面的用户总数,这个用户是独立的,同一用户不同时段访问网站只算作一个独立访客,不会重复累计,通常以PC端的Cookie数量作为统计依据。

    3、Visit 访问

    指用户通过外部链接来到网站,从用户来到网站到用户在浏览器中关闭页面,这一过程算作一次访问。

    Visit可重复累计,比如我打开一个网站又关闭,再重新打开,这就算作两次访问。

    4、Home Page 主页

    指一个网站起主目录功能的页面,也是网站起点。通常是网站首页。

    5、Landing Page 着陆页

    指用户从外部链接来到网站,直接跳转到的第一个页面。比如朋友给我发了一个介绍爆款T恤的淘宝链接,我点开会直接跳转到介绍T恤的那个页面,而不是淘宝网众多其他页面之一,这个介绍T恤的页面可以算作是着陆页。

    6、Bounce Rate 跳出率

    指用户通过链接来到网站,在当前页面没有任何交互就离开网站的行为,这就算作此页面增加了一个“跳出”,跳出率一般针对网站的某个页面而言。

    跳出率=在这个页面跳出的用户数/PV

    7、退出率

    一般针对某个页面而言。指用户访问某网站的某个页面之后,从浏览器中将与此网站相关的所有页面全部关闭,就算此页面增加了一个“退出“。

    退出率=在这个页面退出的用户数/PV

    8、Click 点击

    一般针对付费广告而言,指用户点击某个链接、页面、banner的次数,可重复累计。比如我在PC端看到一则新闻链接点进去看了一会就关了,过了一会又点进去看了一遍,这就算我为这篇新闻贡献两次点击。

    9、avr.time 平均停留时长

    指某个页面被用户访问,在页面停留时长的平均值,通常用来衡量一个页面内容的质量。

    avr.time=访客数量/用户总停留时长

    10、CTR 点击率

    指某个广告、Banner、URL被点击的次数和被浏览的总次数的比值。一般用来考核广告投放的引流效果。

    CTR=点击数(click)/被用户看到的次数

    11、Conversion rate 转化率

    指用户完成设定的转化环节的次数和总会话人数的百分比,通常用来评价一个转化环节的好坏,如果转化率较低则急需优化该转化环节。转化率=转化会话数/总会话数

    12、漏斗

    通常指产生目标转化前的明确流程,比如在淘宝购物,从点击商品链接到查看详情页,再到查看顾客评价、领取商家优惠券,再到填写地址、付款,每个环节都有可能流失用户,这就要求商家必须做好每一个转化环节,漏斗是评价转化环节优劣的指标。

    13、投资回报率(ROI:Return On Investment )

    反映投入和产出的关系,衡量我这个投资值不值得,能给到我多少价值的东西(非单单的利润),这个是站在投资的角度或长远生意上看的。

    其计算公式为:投资回报率(ROI)=年利润或年均利润/投资总额×100%,通常用于评估企业对于某项活动的价值,ROI高表示该项目价值高。

    14、重复购买率

    指消费者在网站中的重复购买次数。

    15、Referrer 引荐流量

    通常指将用户引导至目标页面的URL(超链接)。在百度统计中,引荐流量叫做“外部链接”。

    16、流失分析(Churn Analysis/Attrition Analysis)

    描述哪些顾客可能停止使用公司的产品/业务,以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。

    17、顾客细分&画像(Customer Segmentation & Profiling)

    根据现有的顾客数据,将特征、行为相似的顾客归类分组。描述和比较各组。

    18、顾客的生命周期价值 (Lifetime Value, LTV)

    顾客在他/她的一生中为一个公司产生的预期折算利润。

    19、购物篮分析(Market Basket Analysis)

    识别在交易中经常同时出现的商品组合或服务组合,例如经常被一起购买的产品。此类分析的结果被用于推荐附加商品,为陈列商品的决策提供依据等。

    20、实时决策(Real Time Decisioning, RTD)

    帮助企业做出实时(近乎无延迟)的最优销售/营销决策。比如,实时决策系统(打分系统)可以通过多种商业规则或模型,在顾客与公司互动的瞬间,对顾客进行评分和排名。

    21、留存/顾客留存(Retention / Customer Retention)

    指建立后能够长期维持的客户关系的百分比。

    22、社交网络分析(Social Network Analysis, SNA)

    描绘并测量人与人、组与组、机构与机构、电脑与电脑、URL与URL、以及其他种类相连的信息/知识实体之间的关系与流动。这些人或组是网络中的节点,而它们之间的连线表示关系或流动。SNA为分析人际关系提供了一种方法,既是数学的又是视觉的。

    23、生存分析(Survival Analysis)

    估测一名顾客继续使用某业务的时间,或在后续时段流失的可能性。此类信息能让企业判断所要预测时段的顾客留存,并引入合适的忠诚度政策。

    二、统计学名词解释

    1、绝对数和相对数

    绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标,也是数据分析中常用的指标。比如年GDP,总人口等等。

    相对数:是指两个有联系的指标计算而得出的数值,它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式:

    相对数=比较值(比数)/基础值(基数)

    2、百分比和百分点

    百分比:是相对数中的一种,他表示一个数是另一个数的百分之几,也成为百分率或百分数。百分比的分母是100,也就是用1%作为度量单位,因此便于比较。

    百分点:是指不同时期以百分数的形式表示的相对指标的变动幅度,1%等于1个百分点。

    3、频数和频率

    频数:一个数据在整体中出现的次数。

    频率:某一事件发生的次数与总的事件数之比。频率通常用比例或百分数表示。

    4、比例与比率

    比例:是指在总体中各数据占总体的比重,通常反映总体的构成和比例,即部分与整体之间的关系。

    比率:是样本(或总体)中各不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1。

    5、倍数和番数

    倍数:用一个数据除以另一个数据获得,倍数一般用来表示上升、增长幅度,一般不表示减少幅度。

    番数:指原来数量的2的n次方。

    6、同比和环比

    同比:指的是与历史同时期的数据相比较而获得的比值,反应事物发展的相对性。

    环比:指与上一个统计时期的值进行对比获得的值,主要反映事物的逐期发展的情况。

    7、变量

    变量来源于数学,是计算机语言中能储存计算结果或能表示值抽象概念。变量可以通过变量名访问。

    8、连续变量

    在统计学中,变量按变量值是否连续可分为连续变量与离散变量两种。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如:年龄、体重等变量。

    9、离散变量

    离散变量的各变量值之间都是以整数断开的,如人数、工厂数、机器台数等,都只能按整数计算。离散变量的数值只能用计数的方法取得。

    10、定性变量

    又名分类变量:观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别,这样的观测数据称为定性变量。可以理解成可以分类别的变量,如学历、性别、婚否等。

    11、均值

    即平均值,平均数是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。

    12、中位数

    对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

    13、缺失值

    它指的是现有数据集中某个或某些属性的值是不完全的。

    14、缺失率

    某属性的缺失率=数据集中某属性的缺失值个数/数据集总行数。

    15、异常值

    指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。

    16、方差

    是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

    17、标准差

    中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

    18、皮尔森相关系数

    皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。

    19、相关系数

    相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔森相关系数。

    20、特征值

    特征值是线性代数中的一个重要概念。在数学、物理学、化学、计算机等领域有着广泛的应用。设A是向量空间的一个线性变换,如果空间中某一非零向量通过A变换后所得到的向量和X仅差一个常数因子,即AX=kX,则称k为A的特征值,X称为A的属于特征值k的特征向量或特征矢量。

    三、数据分析名词解释

    A

    聚合(Aggregation):搜索、合并、显示数据的过程。

    算法(Algorithms):可以完成某种数据分析的数学公式。

    分析法(Analytics):用于发现数据的内在涵义。

    异常检测(Anomaly detection):在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers,exceptions,surprises,contaminants.他们通常可提供关键的可执行信息。

    匿名化(Anonymization):使数据匿名,即移除所有与个人隐私相关的数据。

    分析型客户关系管理(Analytical CRM/aCRM):用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。

    B

    行为分析法(Behavioural Analytics):这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式。

    批量处理(Batch processing):尽管从大型计算机时代开始,批量处理就已经出现了。由于处理大型数据集,批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。

    商业智能(Business Intelligence): 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

    C

    分类分析(Classification analysis):从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(meta data),是描述数据的数据。

    云计算(Cloud computing):构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)。

    集群计算(Cluster computing):这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话,就会涉及到节点,集群管理层,负载平衡和并行处理等概念。

    聚类分析(Clustering analysis):它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

    冷数据存储(Cold data storage):在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

    对比分析(Comparative analysis):在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果。

    相关性分析(Correlation analysis):是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关。

    D

    仪表板(Dashboard):使用算法分析数据,并将结果用图表方式显示于仪表板中。

    数据聚合工具(Data aggregation tools):将分散于众多数据源的数据转化成一个全新数据源的过程。

    数据分析师(Data analyst):从事数据分析、建模、清理、处理的专业人员。

    数据库(Database):一个以某种特定的技术来存储数据集合的仓库。

    数据湖(Data lake):数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库,它在概念上是相似的,也是企业级数据的存储库,但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据(但不是专有的)。数据湖使得访问企业级数据更加容易,你需要明确你要寻找什么,以及如何处理它并明智地试用它。

    暗数据(Dark Data):基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但谁又真正知道呢?

    数据挖掘(Data mining):数据挖掘是通过使用复杂的模式识别技术,从而找到有意义的模式,并得出大量数据的见解。

    数据中心(Data centre):一个实体地点,放置了用来存储数据的服务器。

    数据清洗(Data cleansing):对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

    数据质量(Data Quality):有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程,并能满足在运营、决策、规划中的预期用途。

    数据订阅(Data feed):一种数据流,例如Twitter订阅和RSS。

    数据集市(Data Mart):进行数据集买卖的在线交易场所。

    数据建模(Data modelling):使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。

    数据集(Data set):大量数据的集合。

    数据虚拟化(Data virtualization):数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。

    判别分析(Discriminant analysis):将数据分类,按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。

    分布式文件系统(Distributed File System):提供简化的,高可用的方式来存储、分析、处理数据的系统。

    文件存贮数据库(Document Store Databases):又称为文档数据库,为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。

    E

    探索性分析(Exploratory analysis):在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。

    提取-转换-加载(ETL:Extract,Transform and Load):是一种用于数据库或者数据仓库的处理过程,天善学院有国内唯一的最全的ETL学习课程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。

    G

    游戏化(Gamification):在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。

    图形数据库(Graph Databases):运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。

    网格计算(Grid computing):将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。

    H

    Hadoop:一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。

    Hadoop数据库(HBase):一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用。

    HDFS:Hadoop分布式文件系统(Hadoop Distributed File System);是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

    高性能计算(HPC:High-Performance-Computing):使用超级计算机来解决极其复杂的计算问题。

    I

    内存数据库(IMDB:In-memory):一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。

    物联网(IoT):最新的流行语是物联网(IOT)。IOT通过互联网将嵌入式对象(传感器,可穿戴设备,汽车,冰箱等)中的计算设备进行互连,并且能够发送以及接收数据。IOT生成大量数据,提供了大量大数据分析的机会。

    K

    键值数据库(Key-Value Databases):数据的存储方式是使用一个特定的键,指向一个特定的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

    L

    负载均衡(Load balancing):将工作量分配到多台电脑或服务器上,以获得最优结果和最大的系统利用率。

    位置信息(Location data):GPS信息,即地理位置信息。

    日志文件(Log file):由计算机系统自动生成的文件,记录系统的运行过程。

    M

    M2M数据(Machine 2 Machine data):两台或多台机器间交流与传输的内容。

    机器数据(Machine data):由传感器或算法在机器上产生的数据。

    机器学习(Machine learning):人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长期的累积实现自我改进。

    Map Reduce:是处理大规模数据的一种软件框架(Map:映射,Reduce:归纳)。

    大规模并行处理(MPP:Massivel yParallel Processing):同时使用多个处理器(或多台计算机)处理同一个计算任务。

    元数据(Meta data):被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。

    多维数据库(Multi-Dimensional Databases):用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。

    多值数据库(MultiValue Databases):是一种非关系型数据库(NoSQL),一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。

    N

    自然语言处理(Natural Language Processing):是计算机科学的一个分支领域,它研究如何实现计算机与人类语言之间的交互。

    网络分析(Network analysis):分析网络或图论中节点间的关系,即分析网络中节点间的连接和强度关系。

    NewSQL:一个优雅的、定义良好的数据库系统,比SQL更易学习和使用,比NoSQL更晚提出的新型数据库。

    NoSQL:顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。

    O

    对象数据库(Object Databases):(也称为面象对象数据库)以对象的形式存储数据,用于面向对象编程。它不同于关系型数据库和图形数据库,大部分对象数据库都提供一种查询语言,允许使用声明式编程(declarative programming)访问对象。

    基于对象图像分析(Object-based Image Analysis):数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。

    操作型数据库(Operational Databases):这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问、收集、检索公司内部的具体信息。

    优化分析(Optimization analysis):在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。

    本体论(Ontology):表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注:数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)

    异常值检测(Outlier detection):异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。

    联机分析处理(On-Line Analytical Processing,OLAP):能让用户轻松制作、浏览报告的工具,这些报告总结相关数据,并从多角度分析。

    P

    模式识别(Pattern Recognition):通过算法来识别数据中的模式,并对同一数据源中的新数据作出预测

    平台即服务(PaaS:Platform-as-a-Service):为云计算解决方案提供所有必需的基础平台的一种服务。

    预测分析(Predictive analysis):大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇。

    公共数据(Public data):由公共基金创建的公共信息或公共数据集。

    Q

    数字化自我(Quantified Self):使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为。

    R

    R:是一种编程语言,在统计计算方面很出色。如果你不知道 R,你就称不上是数据科学家。R 是数据科学中最受欢迎的语言之一。

    再识别(Re-identification):将多个数据集合并在一起,从匿名化的数据中识别出个人信息。

    回归分析(Regression analysis):确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)。

    实时数据(Real-time data):指在几毫秒内被创建、处理、存储、分析并显示的数据。

    推荐引擎(Recommendation engine):推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品。

    路径分析(Routing analysis):–针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的。

    S

    半结构化数据(Semi-structured data):半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构。

    结构化数据(Structured data):可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

    情感分析(Sentiment Analysis):通过算法分析出人们是如何看待某些话题。

    信号分析(Signal analysis):指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。

    相似性搜索(Similarity searches):在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据。

    仿真分析(Simulation analysis):仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优。

    软件即服务(SaaS:Software-as-a-Service):基于Web的通过浏览器使用的一种应用软件。

    空间分析(Spatial analysis):空间分析法分析地理信息或拓扑信息这类空间数据,从中得出分布在地理空间中的数据的模式和规律。

    SQL:在关系型数据库中,用于检索数据的一种编程语言。

    流处理(Stream processing):流处理旨在对有“连续”要求的实时和流数据进行处理。结合流分析,即在流内不间断地计算数学或统计分析的能力。流处理解决方案旨在对高流量进行实时处理。

    T

    时序分析(Time series analysis):分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。

    拓扑数据分析(Topological Data Analysis):拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。

    交易数据(Transactional data):随时间变化的动态数据

    透明性(Transparency):–消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。

    文本挖掘(Text Mining):对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算,以便用数学术语表达文本结构,之后用传统数据挖掘技术分析文本结构。

    U

    非结构化数据(Un-structured data):非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。

    V

    价值(Value):(译者注:大数据4V特点之一)所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。

    可变性(Variability):也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。

    多样(Variety):(译者注:大数据4V特点之一)数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据

    高速(Velocity):(译者注:大数据4V特点之一)在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。

    真实性(Veracity):组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。

    可视化(Visualization):只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。

    大量(Volume):(译者注:大数据4V特点之一)指数据量,范围从Megabytes至Brontobytes。

    W

    天气数据(Weather data):是一种重要的开放公共数据来源,如果与其他数据来源合成在一起,可以为相关组织机构提供深入分析的依据。

    网络挖掘/网络数据挖掘(Web Mining / Web Data Mining):使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

    X

    XML数据库(XML Databases):XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联,开发人员可以对XML数据库的数据进行查询,导出以及按指定的格式序列化。

    以上就是数据分析相关术语的盘点

    本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

    展开全文
  • 电信技术名词解释:什么是SDHhttp://www.sina.com.cn 2004年07月15日 18:40 新浪科技 信息高速公路近来已成为人们的热门话题。到21世纪,人们借助与信息高速公路,可以在家中完成各种日常活动。而构成信息高速公路...
  • 工作流管理软件的名词解释

    千次阅读 2016-09-01 08:26:56
    工作流管理软件的名词解释,为您的工作流管理系统的概念更加清晰和学习。
  • Python名词解释

    2019-09-18 20:53:55
    往往会显示于能以交互方式在解释器里执行的样例代码之前。 ... 交互式终端中输入特殊代码行时默认的 Python 提示符,包括:缩进的代码块,成对的分隔符之内(圆括号、方括号、花括号或三重引号),或是指定...
  • 电信业务名词解释

    千次阅读 2011-01-17 15:02:00
    电信业务名词解释
  • java基础--名词解释汇总

    千次阅读 多人点赞 2017-06-01 16:05:46
    下面为大家汇总了Java名词解释大全,希望对同学们学习java有帮助!  面向对象:面向对象程序设计(Object-Oriented Programming)是一种起源于六十年代,发展已经将近三十年的程序设计思想。其自身理论已十分完善...
  • 网络营销名词解释

    2020-05-15 14:46:57
    一、名词解释 网络营销渠道:是指网上产品或者服务由生产者向消费者转移的途径。 网络直销:指生产企业通过网络渠道直接销售产品。 网络间接销售:是指生产者融入互联网后的中间机构把商品销售给终用户。一般适合小...
  • 5GC中名词解释

    千次阅读 2020-09-23 14:21:12
    5GC中常见名词解释 ** SUPI,Subscription Permanent Identifier 用户的唯一永久身份标志 PLMN,Public Land Mobile Network 公共陆地移动网 ,一般特指某个运营商的网络覆盖区域 MCC,Mobile Country Code MNC,...
  • JavaEE名词解释

    2017-02-20 15:09:00
    结构java EE 分层通信与交互java EE技术架构概念web容器EJB容器EntityJNDIJMSJTAJAFRMI/IIOPJSFJPAORM 结构 java EE 分层 客户层 指的是界面,浏览器或者桌面应用程序。主要有HTML,Java Applet. 表示逻辑层...
  • 数据库名词解释

    2017-09-11 18:00:24
    DB能为各种用户共享,具有最小冗余度,数据间联系密切,而又有较高的数据独立。  ◆ DBMS:数据库管理系统(Database Management System),DBMS是位于用户与操作系统之间的一层数据管理软件,为用户或应用程序提供...
  • Java 中常见的名词解释集合 一、API:(Application Programming Interface,应用程序编程接口)  点击打开链接 是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的...
  • 名词解释

    千次阅读 2006-11-02 09:22:00
    同样,许多不可靠的设计也自动的被增强了安全,例如 类型安全检查,内存管理和释放无效对象。程序员可以花更多的精力关注程序的应用逻辑设计并可以减少代码的编写量。这就意味着更短的开发时间和更健壮的程序。 ...
  • 计算机名词解释

    千次阅读 2017-07-30 17:35:31
    交互解释器 SOA(Service-Oriented Architecture) 面向服务的架构 SPA(Single Page Application) 是加载单个HTML 页面并在用户与应用程序交互时动态更新该页面的Web应用程序 路由:在URL...
  • Java名词解释

    千次阅读 2016-08-21 21:27:28
    Java名词解释: Abstract class 抽象类:抽象类是不允许实例化的类,因此一般它需要被进行扩展继承。 Abstract method 抽象方法:抽象方法即不包含任何功能代码的方法。 Access modifier...
  • 操作系统名词解释

    千次阅读 2016-10-12 23:46:05
    第1部分 操作系统概论名词解释 脱机输入/输出 具体的输入/输出不需要在主计算机上进行的方式也称“脱机输入/输出” 批处理 作业是由操作系统成批地进行处理,操作系统能自动地从输入池读入下一个作业,并予以...
  • 计量经济学名词解释

    2021-05-17 20:07:52
    计量经济学名词解释第二章第三章第四章第五章第六章第七章第八章第九章第十章 第二章 普通最小二乘法(OLS):通过最小化误差的平方和寻找数据的最佳函数匹配。 广义最小二乘法(GLS):通过对原始模型的变换,解释...
  • 各种测试名词解释

    千次阅读 2020-03-29 15:43:59
    作为一名测试人员常见各种测试名词是必须掌握的,下面同步一些给大家,希望对刚接触测试行业的同学对下面的名词有一个认识。对于这些基础知识如有遗漏也可以翻来看看。 功能测试:功能测试就是对产品的各功能进行...
  • 麦克风阵列技术名词解释背景介绍远场拾音声源定位麦克风及音频信号什么是麦克风麦克风的分类麦克风的对比选型麦克风阵列简介语音交互的优势人机交互痛点近场语音和远场语音麦克风阵列的功能麦克风阵列构型 名词解释 ...
  • css相关名词解释

    2020-05-08 14:59:48
    渐进增强是先针对低版本浏览器来构建基本页面,再针对高版本浏览器添加一些效果、交互。 何为hack? 通过在css样式中添加一些特殊的符号,通过使不同的浏览器识别不同的符号来达到针对不同浏览器使用不...
  • 大数据的75个名词解释

    万次阅读 2017-08-01 14:37:52
    :这三个开源项目都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS),这些功能将非常有用。抱歉,这里说的有点奇怪。 Apache ...
  • GIS名词解释大全

    万次阅读 2012-02-21 11:26:52
    地理信息系统专业考研 GIS专业考研 名词解释大全  地理信息系统专业考研 GIS专业考研 名词解释大全(自己考研时候搜集的。。晒出来) 1. 地理信息系统(南大95、南大96、南大03、中科院03、中科院04、华东师00、...
  • 软件工程名词解释

    2020-08-06 11:26:23
    外部接口需求规约了系统或系统构件必须与之交互的用户、硬件、软件或数据库元素;设计约束限制了软件系统或软件系统构件的设计方案的范围;质量属性规约了软件产品所具有的一个性质必须达到其质量方面一个所期望的...
  • 多媒体技术名词解释

    2020-08-06 10:08:01
    数据压缩的必要: (1)位图: 数据量 =(分辨率×颜色深度)÷ 8(字节) 以一个中等分辨率的真彩色位图图像为例,图像分辨率为 640×480,图像颜色数为16777216,颜色深度为 24b,则其数据量为: ( 640×480×...
  • 区块链相关名词解释汇总

    千次阅读 2018-05-22 10:22:51
    Rholang:是RChain的本土智能合约语言(或编程语言),一种反射的、高阶过程编程语言,基于进程演算,允许进程的并行执行和在低阶智能合约基础上组合高阶智能合约,以一种高效和安全的方式,允许在正常的验证基础...
  • LTE名词解释(转)

    千次阅读 2019-04-25 15:15:12
    名词解释: 1.LTE(Long Term Evolution,长期演进) SAE(System Architecture Evolution)系统架构演进 IFFT(Inverse Fast Fourier Transform) 快速傅立叶变换 SC-FDMA(Single-Carrier Frequency Division ...
  • 气象专业名词解释

    千次阅读 2019-03-01 09:29:58
    4、落区:主要指的是灾害天气及其次生灾害的发生区域预报 5、气象业务:观测、预报 5、1 观测是实际值,预报是预测值 5、2观测分为高空、地面;高空观测方式:雷达、卫星;地面观测方式:监测站(风...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 23,399
精华内容 9,359
关键字:

交互性名词解释