精华内容
下载资源
问答
  • 在大数据生态系统里面,分析型数据库产品众多,那么如何展示和洞察其中的数据价值呢?最直观的当然是可视化方式,如果没有可视化,再好的数据分析看起来也是苍白无力的,不完美的。数据可视化也是 B...

    在大数据生态系统里面,分析型数据库产品众多,那么如何展示和洞察其中的数据价值呢?

    最直观的当然是可视化方式,如果没有可视化,再好的数据分析看起来也是苍白无力的,不完美的。数据可视化也是 Business Intelligence (BI) 中的核心功能。

    俗话说,工欲善其事,必先利其器。选择一款好的数据可视化工具至关重要,不知道是不是孔子说过,数据可视化是大数据的最后一公里。

    百花齐放,重复造轮

    众所周知,国内的不少公司,针对数据分析的可视化分析工具,大多采取自研手段,可能会相互模仿,重复造轮,最后各家成型的产品与业界很多同类型产品相仿。

    当然不可否认的是,国内外也提供了不少非常优秀的可视化分析工具,笔者就不一一列举,避免涉嫌广告。

    笔者肯定不是否定自研价值,毕竟也是满足公司定制化需求。但是确实也花费大量人力开发成本,如果非得要拿个指标衡量的话,ROI 其实是很低的。

    这里还是需要解释一下,很多公司之所以造轮子,大多也是情非得已,毕竟目前开源的可视化分析工具确实不少,但是大部分功能单一,整体都比较粗糙,个人玩玩还可以,很难普及到公司以提供数据分析师、数据科学家或业务人员等使用。

    可能万事都难逃通俗的二八定律吧,排除笔者所说的大部分,值得庆幸的是,开源社区贡献了一些非常好的可视化报表工具,比如 Apache Superset、Redash、Kibana、Davinci 等,以及笔者即将介绍的 Metabase,这是一个有灵魂、有思想以及有追求的项目。

    在开始介绍 Metabase 之前,笔者对 Superset 补充说明一下,绝不是和今天主角 Metabase 争高低。因为笔者以前在数据可视化方面对 Superset 研究比较多,也做了相关的开发,希望给读者一二点参考信息。

    Superset 是 Airbnb 开源的数据可视化工具,目前由 Apache 孵化,一直被认为是明星级的开源项目,主要用于数据分析师进行数据可视化工作。Superset 支持的数据库也非常多,包括常用的开源大数据分析型数据库以及成熟的商业数据库,如下所示:

    • Amazon Athena

    • Amazon Redshift

    • Apache Drill

    • Apache Druid

    • Apache Hive

    • Apache Impala

    • Apache Kylin

    • Apache Pinot

    • Apache Spark SQL

    • BigQuery

    • ClickHouse

    • Elasticsearch

    • Exasol

    • Google Sheets

    • Greenplum

    • IBM Db2

    • MySQL

    • Oracle

    • PostgreSQL

    • Presto

    • Snowflake

    • SQLite

    • SQL Server

    • Teradata

    • Vertica

    • Hana

    因为使用过,所以可以说些体会,总体而言,Superset 的确可以满足公司数据可视化与业务报表方面的大部分需求。

    但是使用 Superset 还是需要些技术成本的,并不是老少皆宜,更适合有开发经验的工程师。笔者简单罗列几个需要优化或改进的地方:

    1. Dashboard 没有分类功能,会形成大杂烩的场面

    2. 权限控制设计不太清晰,用起来不方便

    3. 联表查询时,需要通过 SQL 工具箱操作 对于数据分析人员来说,通过选择指标、分组条件、和过滤条件来构建 Dashboard,但是这只是针对单表查询。Superset 里的表不支联表查询,只能通过 SQL Lab 方式来实现,但是非常不方便。

    4. 数据量大时,页面渲染耗时很长,有可能出不来,需要重复尝试

    Superset 在可视化方面做的还是非常好的,支持的图表类型也非常多,绝对是非常赞的,比如支持多种时间序列的图表以及可以接入地图等。

    另外,笔者提到的 Redash 也是一个不错的项目,将各种数据源的通过 SQL 查询并可视化数据查询结果,笔者后续文章会介绍。

    Metabase 背景

    Metabase 是一个简单而强大的分析工具,任何人都可以通过它学习和决策公司的数据,无需专业的技术知识。同时可以使用 Metabase 进行数据分析、数据可视化和报表生成和分享等。

    笔者其实第一印象是被 Metabase 的 UI 设计风格吸引过来的,然后又对其后端的 Clojure 编程语言感兴趣。Metabase 设计初考虑了产品的普适性,针对技术人员和非技术人员,尤其针对非技术人员方面花费心思,让产品经理和市场人员等自由地洞察数据,可以提出问题并获取答案。所以 Metabase 的理念很出色,Metabase 背后也是有一家商业公司团队在维护和支持。

    技术架构

    Metabase 的后端是用 Clojure 语言开发的,是一种运行在 Java 平台上的 Lisp 方言。开源社区也有一些不错的产品使用 Clojure 开发,比如早期的 Apache Storm 等。

    前端是用流行的前端开发框架 React + Redux 开发的。

    Metabase 服务还提供了完整的 API 接口调用,可以很方便地接入其他系统或二次开发。

    Metabase 部署是非常方便的,本身就是一个 jar 包,支持部署方式有:

    • JVM Jar

      java -jar metabase.jar

    • Docker Image/Kubernetes

      docker run -d -p 3000:3000 --name metabase metabase/metabase

    • Amazon Web Services

    • Heroku

    特性

    • 让团队中的成员在不了解 SQL 的情况下提出问题

      一般来说,BI 产品的用户都是业务人员(大部分不懂 SQL ),Metabase 把数据分析常用的查询通过通过一个易于操作的界面来操作,即使不懂 SQL 的业务人员也可以快速掌握业务数据。

    • 丰富且漂亮的仪表板与自动刷新和全屏模式

    • 提供针对分析师和数据专家专属的 SQL 模式

    • 创建供团队使用的 segments 和 metrics

    • 发送数据到 Slack 或 Email

    • 使用 Metabot 随时查看 Slack 中的数据

    • 通过重命名、注释和隐藏字段为团队定制个性化数据

    • 业务数据与团队共享

      分析好的业务数据可以保存并且分享给团队里其他成员。除此之外,团队中开发人员也可以把复杂的查询写好,把结果共享给业务人员。这是团队共享业务数据的应用场景。

    以上特性的部分具体内容,笔者会在文章中进行演示说明。

    支持的数据源

    Metabase 支持一些常用的数据库,包括:

    • Postgres

    • MySQL

    • Druid

    • SQL Server

    • Redshift

    • MongoDB

    • Google BigQuery

    • SQLite

    • H2

    • Oracle

    • Vertica

    • Presto

    • Snowflake

    • SparkSQL

    另外,对于其他类型的数据库,需要开发对应的驱动,比如目前 Metabase 暂未支持的 Impala 和 ClickHouse 数据库就可以通过第三方开发的驱动来实现。

    在本篇文章中,笔者会讲解 Metabase 如何集成 ClickHouse 并提供数据分析功能。

    Docker 部署

    为了方便大家使用,笔者不使用生产环境做演示,而是使用 Docker 重新部署一套环境。

    Metabase 提供社区版本和企业版本,Docker Image 分别为:

    • https://hub.docker.com/r/metabase/metabase

    • https://hub.docker.com/r/metabase/metabase-enterprise

    笔者选择企业版本进行部署,方便讲解 Metabase 企业级版本提供的一些功能。

    1. 启动服务

    1.1 下载 Metabase Image

    $ docker pull metabase/metabase-enterprise:latest
    

    1.2 启动服务

    $ docker run -d -v `pwd`/plugins:/plugins -p 3000:3000 --name metabase metabase/metabase-enterprise:latest
    3804bc89ea8c6709994fd97d32445bbe04bc24ce10c406affe8fb93e606836c0
    

    1.3 查看 plugins 目录信息

    $ tree plugins
    plugins
    ├── bigquery.metabase-driver.jar
    ├── druid.metabase-driver.jar
    ├── google.metabase-driver.jar
    ├── googleanalytics.metabase-driver.jar
    ├── mongo.metabase-driver.jar
    ├── oracle.metabase-driver.jar
    ├── presto.metabase-driver.jar
    ├── redshift.metabase-driver.jar
    ├── snowflake.metabase-driver.jar
    ├── sparksql.metabase-driver.jar
    ├── sqlite.metabase-driver.jar
    ├── sqlserver.metabase-driver.jar
    └── vertica.metabase-driver.jar
    0 directories, 13 files
    

    可以看到,Metabase 原生是不包含 ClickHouse 驱动,需要我们下载 ClickHouse 驱动包并放到容器挂载的 plugins 目录中。

    下载地址:

    https://github.com/enqueue/metabase-clickhouse-driver/releases/download/0.6/clickhouse.metabase-driver.jar
    

    将 clickhouse.metabase-driver.jar 放到 plugins 目录,并重启容器:

    $ cp clickhouse.metabase-driver.jar plugins/
    # 3804 是上面启动的容器 ID 缩写
    $ docker restart 3804
    

    在默认配置中,Metabase 使用本地文件系统来运行 H2 嵌入式数据库,用来存储应用程序数据,该数据位于容器内的磁盘上,所以如果您删除了容器,则 Metabase 数据会全部丢失,所以生产环境建议使用 Postgres 或 MySQL 存储 Metabase 应用数据库,如下(Postgres 示例):

    docker run -d -p 3000:3000 \
      -e "MB_DB_TYPE=postgres" \
      -e "MB_DB_DBNAME=metabase" \
      -e "MB_DB_PORT=5432" \
      -e "MB_DB_USER=<username>" \
      -e "MB_DB_PASS=<password>" \
      -e "MB_DB_HOST=my-database-host" \
      --name metabase metabase/metabase
    

    或先设置环境变量再启动容器(MySQL 示例):

    export MB_DB_CONNECTION_URI="mysql://my-database-host:port/metabase?user=<username>&password=<password>"
    

    2. 构建包含 ClickHouse 的 Metabase 镜像(拓展)

    Metabase 镜像里面不包含 ClickHouse 驱动,不过我们可以基于 Metabase 镜像构建包含 ClickHouse 驱动的新的镜像。

    2.1 编写 Dockerfile 文件 Dockerfile 文件内容为:

    FROM metabase/metabase-enterprise:latest
    ADD https://github.com/enqueue/metabase-clickhouse-driver/releases/download/0.6/clickhouse.metabase-driver.jar /plugins/
    RUN chmod 744 /plugins/clickhouse.metabase-driver.jar
    

    注:

    metabase/metabase-enterprise:latest 版本为 metabase/metabase-enterprise:v1.33.7

    2.2 构建镜像 在 Dockerfile 文件当前目录,执行以下命令构建容器镜像:

    docker build -t metabase/metabase-enterprise-ck:v1.33.7
    

    构建完成,查看镜像:

    $ docker images
    REPOSITORY                        TAG                 IMAGE ID            CREATED             SIZE
    metabase/metabase-enterprise-ck   v1.33.7             d126ed80cbef        35 minutes ago      566MB
    metabase/metabase                 v0.34.0             7dae2bd44ea4        2 weeks ago         363MB
    metabase/metabase-enterprise      latest              a0c3c175a8bd        3 weeks ago         558MB
    

    ClickHouse 表信息

    在本篇文章中,笔者会使用 ClickHouse 数据库,相关信息如下:

    xxx :) use ssb;
    USE ssb
    Ok.
    0 rows in set. Elapsed: 0.000 sec. 
    xxx :) show tables;
    SHOW TABLES
    ┌─name───┐
    │ ontime │
    └────────┘
    1 rows in set. Elapsed: 0.001 sec. 
    xxx :) select count(1) from ontime;
    SELECT count(1)
    FROM ontime
    ┌──count(1)─┐
    │ 184539910 │
    └───────────┘
    1 rows in set. Elapsed: 0.003 sec. 
    xxx :) 
    

    配置

    Metabase 服务启动后,默认端口为 3000。因为笔者在本地启动,所以访问地址为:

    http://localhost:3000
    

    1. Metabase 初始化配置

    点击 Let's get started,配置 Metabase 基础信息: 

    填写好信息后,点击 Next,进入配置数据源步骤。这里,笔者选择 ClickHouse 数据库: 

    配置 ClickHouse 数据库信息,如下: 

    点击 Next,进入隐私数据配置项,即是否允许 Metabase 匿名收集使用事件的数据,根据实际情况勾选。

    最后配置的就是是否订阅 Metabase 信息的邮箱地址:

     

    所有都配置完成后,点击 Takeme toMetabase,进入欢迎页面: 

    Metabase 基于配置数据源的表数据提供了 X-rays 功能,即快速简便地去获取数据的自动洞察和探索,点击 A look at yourOntImetable 查看自动洞察的结果: 

    这里读者可能注意到了,字段显示有点奇怪,单个字段被拆分为两部分,其实如果字段设计标准的话,拆分的确会很容易阅读,但是我们这里还是先关闭这种优化字段显示的效果。 

    点击 Admin,在 Settings->General->FRIENDLY TABLE AND FIELD NAMES 设置 Disabled 即可。

    再次访问显示的字段就和表结构保持一致了: 

    大家可以在这里针对字段的值进行过滤或者添加新的字段以生成新的图表。

    2. Admin 设置

    进入 Metabase Admin Settings 页面:

    http://localhost:3000/admin/settings/setup
    

    2.1 Settings->Email 

    配置公司内部邮箱或外部邮箱,提供用户通过邮箱注册账号功能,如果不配置邮箱,需要 Admin 管理员创建账号,并发给用户使用。  

    另外邮箱还有其他功能,比如发送可视化报表等。

    2.2 Settings->Authentication 

    提供 Google 和 LDAP 登录方式,根据实际情况开启和配置。

    2.3 Settings->Formatting 

    设置时间、数字和货币方面的展示格式。

    2.4 Settings->Caching 

    开启缓存功能,保存一些查询比较长的结果数据。

    在商业版本中,提供了 Whitelabel 功能,即可以定制化应用的配置信息,比如名称、图表颜色、LOGO等信息,如下: 

    如果要试用 Metabase 商业版本(默认情况下为 30 天),可以在官网进行申请 token,然后激活: 

    浏览数据源

    DataAnalysis 是笔者之前创建的 ClickHouse 数据源,而 Sample Dataset 是 Metabase 提供的测试数据。

    点击上图中的 Learnaboutourdata,可以对表进行个人喜好的定制化修改操作: 

    关于 Metrics 和 Segments 以后再说,笔者这里介绍一下 Databasesandtables,并选择创建的 DataAnalysis: 

    这一块提供了几个功能:

    • 1. 定义表的描述信息

    • 2. 表字段的有意义的描述和字段类型

    • 3. 对表 Ask Questions 这里的 Ask Questions,其实是 Simple Questions,下面介绍。

    • 4. 对表进行 X-ray 操作

    Ask a question

    Metabase 针对不同背景的用户提供了三种使用方式:

    • Simple question

      对非技术人员友好,选择表,查看数据,并轻松地过滤、汇总和可视化结果数据。

    • Custom question

      使用高级的 notebook 编辑器连接数据表查询、创建自定义列、进行数学运算等等。

    • Native query

      对于更复杂的问题,可以编写自己的 SQL 或原生查询。

    具体使用,其实都比较简单,笔者就不再演示,大家赶快试一下吧。

    用户和权限管理

    直观看一下数据库和表的权限控制:  

    Metabase 提供了用户和组的概念,可以针对组进行权限控制,比如控制组内用户访问数据库和表的权限,商业版本还提供数据行级控制。

    属于 Administrators 组的用户,拥有访问一切的权限。还有一个 All Users 组,任何用户都属于该组,注意设置 All Users 组的权限。Administrators 和 All Users 组都是无法删除了,它们是 Metabase 保留组。

    实际生产环境中,根据业务需求进行分组并控制组内用户访问数据的权限。

    行级控制

    商业版本提供了数据的行级访问控制,具体实现是在创建用户时设置属性,其实就是要访问的字段: 

    如上图所示,设置该用户 AirlineID = 19391,那么该用户访问 ontime 表时,只能看到 AirlineID = 19391 的数据。

    要保证行级别访问控制,当然需要设置数据库和表的访问权限,如下: 

    允许 平台组用户 访问 ontime 表的 AirlineID 字段,然后再给用户指定 AirlineID 指定的属性值。

    笔者使用上面的用户进行登录,查询 ontime 数据库: 

    根据上图所示,数据分析时,该用户只能查询 ontime 表中 AirlineID = 19391 的行数据。

    其他功能

    Metabase 提供的功能很多,笔者无法在这一篇文章中全部覆盖到所有知识点,另外 Metabase 官方文档还是非常全面的,值得研究和学习。这里再罗列一些功能点。

    1. 数据模型

    有时在编写 SQL 查询时,用户可能会忘记不同表或列的确切名称,或者表包含什么字段。这就是 Data Reference 派上用场的地方,通过数据模型,用户可以从 SQL 编辑器中打开 Data Reference 面板,如下图所示:

    另外可以在 Data Model 中设置字段 Hidden、Querable 等属性,用户数据洞察的控制: 

    2. 审计日志

    商业版本还提供审计日志功能,包括如下功能:

    • 用户访问的操作记录和统计信息

    • 数据库和表的统计信息以及查询统计信息(比如查询数、耗时等)

    • 项目中的 Questions、Dashboards 以及数据下载信息

    3. 认证

    Metabase 的开源版本包括使用 Google 登录或 LDAP 设置单点登录(SSO)的选项,但 Metabase 的企业版还允许连接基于 SAML 或 JWT 的 SSO。通过整合用户自己的 SSO 与 Metabase 实现如下功能:

    • 自动将用户属性从 SSO 传递到 Metabase 以支持数据沙箱

    • 让用户无需重新验证即可访问配置数据库

    4. 在 Web 应用程序中嵌入所有的 Metabase

    Metabase 的开源版本允许用户在 Web 应用程序中嵌入独立的图表或仪表盘,以应对简单的情况。

    但是,如果希望为用户提供更具交互性和可浏览性的体验,该怎么办呢?

    Metabase 企业版本允许将整个 Metabase 应用程序嵌入到自己的 Web 应用程序中,为图表和表定制穿透钻取,甚至嵌入图形查询生成器,或仪表盘和图表的集合。

    总结

    笔者在本篇文章中对 Metabase 产品进行了较为深入细致的讲解,使用越深越能体会到 Metabase 项目设计者的细心和对用户使用品质的追求,希望读者能够应用到实际生产环境中,实现数据真正的价值。当然一般企业中都会提供多种可视化数据分析工具,以满足更加复杂多变的业务需求,实现全方位价值洞察。

    展开全文
  • 数据智能化:释放未来数据价值的关键  在当前的技术领域,没有什么能像人工智能(AI)那样引起人们的好奇和兴奋。而AI的潜在优势,也刚刚开始在企业内显现出来。  然而,企业中人工智能的增长受到了阻碍,因为...

      数据智能化:释放未来数据价值的关键

      在当前的技术领域,没有什么能像人工智能(AI)那样引起人们的好奇和兴奋。而AI的潜在优势,也刚刚开始在企业内显现出来。
    数据智能化:释放未来数据价值的关键
      然而,企业中人工智能的增长受到了阻碍,因为数据科学家通常无法获得建立有效人工智能模型所需的相关数据。这些数据专家经常被迫仅依赖于一些已知的来源,如现有的数据仓库,而并不能利用他们所需的所有实时的真实数据。此外,许多公司很难有效且经济地确定大量数据的业务环境和质量。鉴于这些困难,很容易理解AI在加速和应用过程中的一些历史障碍。

      Gartner预测:90%的数据湖将毫无用处

      数据对AI有价值,用户才能自信而安全地使用它来训练AI模型。实现这一目标的唯一方法是以“智能数据”为基础。

      多年来,我们已经超越了数据的收集和聚合,以驱动特定的业务应用程序(数据1.0),组织已经能够创建定义明确的流程,允许任何人访问数据,但这还远远不够,我们现已达到了需要智能数据才能真正为企业范围的转型提供动力的数据(数据3.0)。

      例如,考虑一家公司将尝试重新定义其与客户群的传统关系所面临的挑战,引导这种颠覆性变革需要来自众多数据源,诸如数据库,数据仓库,应用程序,大数据系统,物联网,社交媒体等的输入,各种数据类型,诸如结构化,半结构化和非结构化,以及各种位置,诸如本地,云,混合和大数据等因素。

      如今,数据湖正在成为信息变革时代所需大量不同数据的首选存储库。但没有智能数据,这些湖泊价值不大。 Gartner此前曾预计,到2018年,90%的数据湖将毫无用处,因为它们充满了原始数据,很少有人会使用这些技术。

      相比之下,通过智能数据,数据科学家可以进行类似Google的搜索,并立即发现相关数据的所有潜在来源。智能数据可以节省大量宝贵的时间,数据科学家可能不得不花费时间来收集、组装和改进模型所需的数据

      那么如何确保数据真正智能化?通过构建端到端数据管理平台,该数据管理平台本身使用机器学习和AI功能,由广泛的元数据驱动,以提高平台的整体生产力。元数据是释放数据价值的关键。

      如果用户希望提供全面,相关且准确的数据来实施人工智能技术,那么就需要查看四种不同的元数据类别:

      技术元数据 – 包括数据库表和列信息以及有关数据质量的统计信息。

      业务元数据 – 定义数据的业务上下文以及它参与的业务流程。

      操作元数据 – 有关软件系统和流程执行的信息。

      使用元数据 – 有关用户活动的信息,包括访问的数据集,评级和评论。

      应用于此元数据集合的AI和机器学习不仅有助于识别和推荐正确的数据,该数据也可以自动处理——无需人工干预,使其适用于企业AI项目。

      数字化转型,正在迫使组织以不同的方式审视数据,这是成为“猎物或捕食者”的问题。如今,有实时可用的数据和工具访问,可以实现快速分析,将促进了人工智能和机器学习,并允许过渡到数据优先的方法。由于数字化、数据爆炸以及人工智能对企业的变革影响,人工智能带来的信息技术变革正在蓬勃发展。

      显然,越来越多的数据输入可能影响人工智能应用程序的决策,因此组织需要对相关且有影响力的内容进行分类整理。然而,在您的组织采用人工驱动的数据管理方法之前,请考虑以下问题:

      您希望从AI中获得什么?

    展开全文
  • 大数据时代的数据价值与利用

    千次阅读 2018-03-02 16:41:39
    大数据时代的数据价值与利用随着信息技术的发展,生活发生了天翻地覆的变化,同时,它也改变着人们的思维模式。 现在我们之所以能接触到如此多的信息,是得益于网络技术与数据存储技术的发展。而要管理和利用这些...

    大数据时代的数据价值与利用

    随着信息技术的发展生活发生了天翻地覆的变化,同时,也改变人们的思维模式。

      现在我们之所以能接触到如此多的信息,是得益于网络技术与数据存储技术的发展。而要管理和利用这些数据,就需要专门的技术与工具,这就是大数据应用技术蓬勃发展的原因。大数据分析工具能将信息收集存储,并且能挖掘、提取其中有价值的数据并加以利用。


      大数据分析工具并不是一种简单的数据统计软件,它除了要完成数据管理任务,还要能连接多个领域,如互联网、知识社区、多种数据格式的数据库等等。这样才能让大数据分析工具保持活力。而在隐私保护方面,大数据分析工具可能要先行一步了,因为是与数据打交道,一旦操作不当,就会落得个身败名裂的下场!


      主流的隐私保护方法就是通过对参与者或使用者权限的设定来实现的数据的拥有者可以依据需要设定使用和浏览权限,让数据从始至终都在一个圈子里流动,从外部是很难入侵的。而且这样做的另外一个好处就是让数据成员之间有了稳定且安全的数据交流通道。

      大数据的建设是全民参与的工程,大数据时代是所有人的大时代。地大物博的中国有着适合大数据生长的沃土,起步晚不代表我们做不好。做好大数据分析工具,建设好大数据生态产业圈,大数据应用技术定会成为中国梦的一大助力!

    展开全文
  • 大数据时代的数据价值与发展趋势

    千次阅读 2018-12-02 14:48:29
    大数据之所以能称之为大除了数据量的庞大,还有就是数据价值的放大,即大数据要有大价值。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。未来我们的生活...

       大数据是信息技术高速发展催生的产物,其实大数据的出现无非就是人类保存数据的能力和使用数据的能力得到提高的结果。大数据之所以能称之为大除了数据量的庞大,还有就是数据价值的放大,即大数据要有大价值。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。未来我们的生活能否达到更高的层面,关键就在于对这些大数据的利用,准确的说就是数据分析。

     未来十年大数据分析的发展趋势
     
      正如Wikibon的研究所证实,未来十年将推动大数据分析行业发展的主要趋势如下:关注作者大数据学习资料
     
      公有云供应商正扩大其影响力。大数据行业正围绕三大主要公有云供应商,即AWS、微软Azure和谷歌云平台,大部分软件供应商正在构建可以在这些平台运行的解决方案。除此之外,数据库供应商正在提供托管的IaaS和PaaS数据湖,鼓励客户和合作伙伴开发新的应用程序,并将其迁移到其中的旧应用程序中。因此,纯数据平台、NoSQL供应商在日益被多元化的公有云供应商的大型数据领域逐渐陷入边缘化。
     
      公有云优于私有云的优势继续扩大。公有云正逐步成为客户群的首选大数据分析平台。这是因为公有云解决方案比内部部署堆栈更为成熟,增加了更丰富的功能,且成本日益增加。另外,公有云正在增加其应用程度编程接口生态系统,并加快开发管理工具的速度。
     
      加速融合以企业实现商业价值。用户开始加快将孤立的大数据资产融合到公有云的速度。而公有云厂商也在优化困扰私有大数据架构的跨业务孤岛。同样重要的是,云数据和本地数据解决方案正融合到集成产品中,旨在降低复杂性并加快实现业务价值。更多的解决方案提供商正在提供标准化的API,以简化访问,加速开发,并在整个大数据解决方案堆栈中实现更全面的管理。
     
      大数据初创公司将越来越复杂的AI注意应用程序推向市场。过去几年来,许多新的数据库,流处理和数据初创公司加入到市场中。不少公司也开始通过AI的解决方案加入到市场竞争中。其中大部分创新方案都是为公有云或混合云部署而设计的。
     
      新兴解决方案逐渐替代传统方法。越来越多的大数据平台供应商将涌现出融合物联网、区块链和流计算的下一代方法。这些大数据平台主要针对机器学习、深度学习和人工智能管理端到端devops管理进行优化。此外,不少大数据分析平台正在为AI微服务架构设计边缘设备。
     
      Hadoop 地位屹立不倒。Hadoop 现今更多的迹象表明,市场将Hadoop视为传统大数据技术,而不是颠覆性业务应用程序的战略平台。不过,Hadoop作为一种成熟技术,被广泛用于用户的IT组织的关键用例,并且在许多组织中仍然有很长的使用寿命。考虑到这一前景,供应商通过在独立开发的硬件和软件组件之间实现更平滑的互操作性,不断提高产品性能。
     
      打包的大数据分析应用程序正变得越来越广泛。未来十年,更多服务将自动调整其嵌入式机器学习、深度学习和AI模型,以持续提供最佳业务成果。这些服务将纳入预先训练的模式,客户可以调整和扩展到自己的特定需求。
     
      大数据分析的部署障碍
     
      虽然大数据分析采用的预测看起来很好,但仍存在许多障碍:
     
      复杂度过高。大数据分析环境和应用程序仍然过于复杂。因此,厂商需要继续简化这些环境接口、体系结构、功能和工具。以将复杂的大数据分析功能应用于主流用户和开发人员。
     
      ? 成本高昂且效率低下。对于许多IT专业人员来说,大数据分析管理和治理流理仍然过于孤立,成本高昂且效率低下。供应商需要构建预先打包的流程,帮助大型专业人员团队更有效、快速和准备的管理数据及分析。
     
      缺乏自动化功能。大数据分析应用程序的开发和运营仍然过于耗时且需要手动。供应商需要加强其的自动化功能,以确保提高用户技术人员的生产力,同时确保即使是低技能人员也能处理复杂业务。
     
      大数据时代已经来临,并逐渐渗透到各个行业领域之中。对于企业IT来说,Wikibon的主要建议是开始将更多的大数据分析开发工作迁移到公有云环境中,这也将加速AWS,微软,谷歌等云厂商提供的快速成熟且低成本产品的能力。(原标题:AI、IoT再火,仍然离不开大数据分析)

    展开全文
  • Datafication :挖掘非结构信息的数据价值 数据量的指数级增长时代已经来临。据 IDC 统计,2025 年全球的数据总量将达到 175 ZB 。而其中超过 90% 的新增数据为非结构化数据(网络日志、图片、视频、音频等)。如何...
  • 来源:《政府数据开放研究》作者:陈美 湖北工业大学经济与管理学院分析开放政府数据的价值与评价,有助于政府数据开放更高效地开展。文章在界定开放政府数据价值内涵与层次划分的基...
  • 客户微细分模型上线华为云ModelArts,看如何以AI科技挖掘金融数据价值
  • 大数据公司挖掘数据价值的49个典型案例对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找“正在做”大数据的49个样本。本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般...
  • 从比特到信息,这说的其实就是企业数字化转型,让数据价值充分发挥出来,变成信息。
  • 伴随数据渗透到每一个行业领域,数据价值毋庸置疑,俨然已成为企业重要的发展因素。 那么,企业如何更好地去挖掘数据价值,赋能产品创新和业务的迭代?数据时代,企业如何更好的利用数据进行数字化转型?在永洪科技...
  • 10大天然大数据公司,看他们如何挖掘数据价值
  • 国金公链2020春季发布会于4月11日...“国金特权链”作为国金公链数据生态的重要组成部分,将基于国金公链底层公链架构及全民数据链的个人数据画像价值服务体系,构建数据价值的多应用场景生态,为所有国金公链用户对接.
  • 作者:张涵诚 ...了解政府大数据应用的案例和数据价值释放的方法,将有利于激活沉睡的数据,释放政府数据价值。为此我们需要梳理下: 一、政府有哪些数据资产 政府拥有或控制,能够给政
  • 通过各种商业智能系统对历史数据进行系统分析,找出规律或者发现潜在问题,再结合管理者的智慧制订出策略来,这是很多企业的决策者习惯...最大化数据价值 分析能力正在成为越来越多企业日益倚重的技术手段。在IDC...
  • 搜索中的数据价值

    千次阅读 2017-11-24 17:18:45
    搜索在许多平台中占着举足轻重的位置,那么搜索都有哪些数据,这些数据又蕴含了什么价值呢?搜索数据类别使用搜索前,用户是一种带有相对较明确的目的才会去使用搜索功能,主要关注搜索的使用率,即pv、uv、转化率等...
  • 这种对数据价值的高度敏感和重视,以及强大的挖掘能力,使得亚马逊早已远远超出了它的传统运营方式。 亚马逊CTO Werner Vogels在CeBIT上关于大数据的演讲,向与会者描述了亚马逊在大数据时代的商业蓝图。 长期以来,...
  • 最近,频上热搜的《流浪地球》,...其中,在地球即将毁灭之时,人类文明的数据将被存储至万年甚至百万年的片段,让我们对如此庞大的数据存储,陷入了深深的思考。 回到现实社会,数据让各行各业变得蒸蒸日上,在这1...
  • 一、隐私计算概述及应用价值 隐私计算(Privacy Computing) 是指在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术,主要分为密码学和可信硬件两大领域。 密码学的技术目前以多方安全计算(MPC
  • 在企业“数字化转型”的浪潮中,数据就像血液一样流淌在不同的业务载体中,时刻牵动着企业决策和业务发展方向。随着数据的爆炸式增长和企业转型进程的推进,企业对数据质量有了更高的要求。想要撬动“大数据”这座...
  • CDA数据分析师原创作品, 转载需授权 1. 什么是数据挖掘 数据挖掘一般是指从大量的数据中自动搜索隐藏其中的、有特殊关系的信息的过程。 它可以直接针对个人消费者,通过建立对应的模型来预测客户行为。企业可以了解...
  • 大数据湖,挖掘企业全量数据价值

    千次阅读 2018-08-14 10:55:54
    数据湖背景 “数据湖”概念是在2010年首次提出,他将数据湖比喻成未经处理和包装的原生状态水库,当不同源头的水体源源不断流入数据湖,并为企业带来各种分析、探索的可能性。数据湖的概念指出,数据无需加工整合,...
  • 从数据接入、数据处理和数据使能三个层面,重定义数据基础设施,帮助客户打造领先的智能数据解决方案,拥抱行业数字化,释放数据价值。 华为Cloud & AI产品与服务总裁侯金龙表示:“数据成为新生产资料,智能...
  • 互联网数据时代,构建数据机制分享模式是大势所趋。在阿里巴巴2011年6月网商大会主论坛的舞台上,马云曾语出惊人:“我会让百度睡不着觉,让无所作为的公司睡不着觉。”实际上,马云在宣传阿里巴巴集团即将推出的...
  • 记者:铅笔盒我们正在进入大数据时代,...随着互联网行业越趋垄断,数据也越来越多的汇集到了大型互联网公司手中,他们利用控制的大数据,不断地巩固着行业龙头地位,并进一步推动数据更趋垄断。“谁拥有数据,谁就能掌
  • 数据正逐步成为数字经济新的重要的生产要素,如何打造数据可信共享合作的基础设施,保护数据隐私,实现数据流动,充分释放数据价值正逐步成为各行各业面临的重要问题。 华为云基于行业中可信协作的通用诉求,集合...
  • 2016年,阿里巴巴集团提出中台概念,阿里巴巴数据技术及产品部作为中台战略中的组成部分,承载了集团数据中台的工作,其核心就是建设全域大数据。究竟全域数据到底是什么?又该如何建设? 在云栖大会阿里...
  • 物流行业市场巨大,...在移动互联网技术对国民经济日益深入的影响过程中,作为现代经济生活的底层支柱,物流行业也越来越体现出标准化、数据化和智能化的特点。大数据已经渗透到物流领域的各个环节之中,其作为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 49,143
精华内容 19,657
关键字:

数据价值