精华内容
下载资源
问答
  • 2021-06-20 18:49:37

    MaxCompute

    大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

    产品优势

    大规模计算存储
    MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别。

    多种计算模型
    MaxCompute支持SQL、MapReduce、UDF(Java/Python)、Graph、基于DAG的处理、交互式、内存计算、机器学习等计算类型及MPI迭代类算法。简化了企业大数据平台的应用架构。

    强数据安全
    MaxCompute已稳定支撑阿里全部数据仓库业务9年以上,提供多层沙箱防护、细粒度权限管理及监控。
    MaxCompute通过了独立的第三方审计师针对阿里云对AICPA可信服务标准中关于安全性、可用性和机密性原则符合性描述的审计。审计报告请参见SOC 3报告。
    低成本
    与企业自建专有云相比,MaxCompute的计算存储更高效,可以降低30%~50%的采购成本。

    免运维
    基于MaxCompute的Serverless无服务器的设计思路,用户只需关心作业和数据,而无需关心底层分布式架构及运维。

    极致弹性扩展
    MaxCompute提供按量付费模式下的作业级别的资源管理。用户无需受困于资源扩展难题,系统会自动扩展计算、存储、网络等资源,最大程度地节省成本。

    系统架构
    MaxCompute以数据为中心,内建多种计算模型和服务接口,满足广泛的数据分析需求。一切服务开通即用,更好地赋能数据业务。
    在这里插入图片描述

    *功能概述

    数据通道
    批量历史数据通道
    Tunnel是MaxCompute为您提供的数据传输服务,提供高并发的离线数据上传下载服务。支持每天TB/PB级别的数据导入导出,特别适合于全量数据或历史数据的批量导入。Tunnel为您提供Java编程接口,并且在MaxCompute的客户端工具中,提供对应的命令实现本地文件与服务数据的互通。

    实时增量数据通道
    针对实时数据上传的场景,MaxCompute提供了延迟低、使用方便的DataHub服务,特别适用于增量数据的导入。DataHub还支持多种数据传输插件,例如Logstash、Flume、Fluentd、Sqoop等,同时支持日志服务Log Service中的投递日志到MaxCompute,进而使用DataWorks进行日志分析和挖掘。

    计算及分析任务
    MaxCompute支持多种计算模型,详情如下:
    SQL:MaxCompute以表的形式存储数据,支持多种数据类型版本说明,并对外提供SQL查询功能。您可以将MaxCompute作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。
    说明
    MaxCompute SQL不支持事务、索引,也不支持Update或Delete操作。
    MaxCompute的SQL语法与Oracle、MySQL有一定差别,您无法将其他数据库中的SQL语句无缝迁移至MaxCompute中。详情请参见与其他SQL语法的差异。
    MaxCompute主要用于100GB以上规模的数据计算,因此MaxCompute SQL最快支持在分钟或秒钟级别完成查询返回结果,但无法在毫秒级别返回结果。
    MaxCompute SQL的优点是学习成本低,您不需要了解复杂的分布式计算概念。如果您具备数据库操作经验,便可快速熟悉MaxCompute SQL的使用。
    UDF:即用户自定义函数。
    MaxCompute提供了很多内建函数来满足您的计算需求,同时您还可以通过创建自定义函数来满足不同的计算需求。

    MapReduce:MaxCompute MapReduce是MaxCompute提供的Java MapReduce编程模型,它可以简化开发流程,更为高效。使用MaxCompute MapReduce,需要对分布式计算概念有基本了解,并有相对应的编程经验。MaxCompute MapReduce为您提供Java编程接口。
    Graph:MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模,图由点 (Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终求解出结果,典型应用:PageRank、单源最短距离算法 、K-均值聚类算法等。
    Spark on MaxCompute:Spark on MaxCompute是阿里云开发的大数据分析引擎,为您提供大数据处理能力。详情请参见概述。
    SDK
    SDK是MaxCompute提供给开发者的工具包,当前支持Java SDK及Python SDK。

    安全
    MaxCompute提供了功能强大的安全服务,为您的数据安全提供保护

    阿里云官方文档

    更多相关内容
  • MaxCompute SQL不支持对数据的Update和Delete操作,但是实际工作中可能确实有一些场景需要这样处理,怎么办呢?实际上,MaxCompute SQL的Insert语法支持Insert Into/Overwrite两种数据导入的方式。分别对应数据导入...
  • MaxCompute insert语句使用 本文介绍使用INSERT OVERWRITE和INSERT INTO两种命令更新表数据,主要内容包括: insert into table … values …语句 insert into/overwrite … select …语句 Insert多路输出(MULTI ...
  • maxcompute 快速入门

    2019-01-31 09:12:08
    maxcompute 快速入门,最全文档,0基础入门maxcompute开发
  •  离线数据上云(hdfs/hbase/文件/RDS/OSS)->MaxCompute数仓内部数据处理- >ADS同步->应用查询及大屏离线展现等;  实时数据上云(日志)->DataHub->StreamCompute->RDS->大屏实时展现等。 实现一个实际的、...
  • 阿里云MaxCompute数据收集器 该项目是一组bigdata插件,用于与aliyun maxcompute交换数据。 这些插件包含flume-plugin,kettle-plugin,ogg-plugin和odps-sqoop。 要求 JDK 1.6或更高版本 Apache Maven 3.x 建立...
  • 阿里云MaxCompute ODPS文档
  • sdk源码MaxCompute Go 驱动程序 ODPS,又称ODPS,是由.net提供的分布式存储服务和SQL引擎。 这个仓库包含一个MaxCompute的Go。 如果你要写一个Go程序,调用标准库database/sql访问MaxCompute数据库,可以使用这个...
  • MaxCompute客户端odpscmd操作使用.pdf,圣远
  • 分享如何使用阿里云大数据计算服务MaxCompute进行数据分析,掌握如何使用云端相关大数据服务进行开发和测试的能力。
  • 基于MaxCompute的大数据BI分析.pptx
  • maxcompute

    2020-01-09 10:31:00
    1.大数据计算服务(Maxcompute,原名ODPS) MaxCompute is a big data processing platform developed by Alibaba Cloud independently. It is a fast and cloud-based big data solution that supports multiple ...

    1.大数据计算服务(Maxcompute,原名ODPS)  

    MaxCompute is a big data processing platform developed by Alibaba Cloud independently. It is a fast and cloud-based big data solution that supports multiple distributed data storage and processing models, which can provide massive data warehouse and big data modeling service.

    MaxCompute Studio is a plugin for IntelliJ platform allowing data developers works with MaxCompute platform including authoring SQL scripts, UDF extensions, MapReduce programs and other functions like local debugging, data browsing and uploading/downloading, job browsing and analytics, etc.
    Features include:
    MaxCompute SQL language support
    MaxCompute function development
    MaxCompute data management
    MaxCompute job management

    分布式的计算模型对数据分析人员要求较高且不易维护。数据分析人员不仅需要了解业务需求,同时还需要熟悉底层分布式计算模型。MaxCompute为您提供完善的数据导入方案以及多种经典的分布式计算模型,您可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。

    DataWorks和MaxCompute关系紧密:DataWorks为MaxCompute提供一站式的数据同步、业务流程设计、数据开发、管理和运维功能。

    产品优势

    • 大规模计算存储

      MaxCompute适用于100GB以上规模的存储及计算需求,最大可达EB级别。

    • 多种计算模型

      MaxCompute支持SQL、MapReduce、UDF(Java/Python)、Graph、基于DAG的处理、交互式、内存计算、机器学习等计算类型及MPI迭代类算法。简化了企业大数据平台的应用架构。

    • 强数据安全

      MaxCompute已稳定支撑阿里全部数据仓库业务9年以上,提供多层沙箱防护、细粒度权限管理及监控。

    • 低成本

      与企业自建专有云相比,MaxCompute的计算存储更高效,可以降低30%~50%的采购成本。

    • 免运维

      基于MaxCompute的Serverless无服务器的设计思路,用户只需关心作业和数据,而无需关心底层分布式架构及运维。

    • 极致弹性扩展

      MaxCompute提供按量付费模式下的作业级别的资源管理。用户无需受困于资源扩展难题,系统会自动扩展计算、存储、网络等资源,最大程度地节省成本。

    maxcompute系统架构

    功能: 

    数据通道

    • 批量历史数据通道

      TUNNEL是MaxCompute为您提供的数据传输服务,提供高并发的离线数据上传下载服务。支持每天TB/PB级别的数据导入导出,特别适合于全量数据或历史数据的批量导入。Tunnel为您提供Java编程接口,并且在MaxCompute的客户端工具中,提供对应的命令实现本地文件与服务数据的互通。

    • 实时增量数据通道

      针对实时数据上传的场景,MaxCompute提供了延迟低、使用方便的DataHub服务,特别适用于增量数据的导入。DataHub还支持多种数据传输插件,例如Logstash、Flume、Fluentd、Sqoop等,同时支持日志服务Log Service中的投递日志到MaxCompute,进而使用DataWorks进行日志分析和挖掘。

    • 计算及分析任务
      MaxCompute支持多种计算模型,详情如下:
      • SQL:MaxCompute以表的形式存储数据,支持多种数据类型,并对外提供SQL查询功能。您可以将MaxCompute作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。
         
        说明
        • MaxCompute SQL不支持事务、索引,也不支持Update或Delete操作。
        • MaxCompute的SQL语法与Oracle、MySQL有一定差别,您无法将其他数据库中的SQL语句无缝迁移至MaxCompute中。详情请参见与其他SQL语法的差异
        • MaxCompute主要用于100GB以上规模的数据计算,因此MaxCompute SQL最快支持在分钟或秒钟级别完成查询返回结果,但无法在毫秒级别返回结果。
        • MaxCompute SQL的优点是学习成本低,您不需要了解复杂的分布式计算概念。如果您具备数据库操作经验,便可快速熟悉MaxCompute SQL的使用。
      • UDF:即用户自定义函数。

        MaxCompute提供了很多内建函数来满足您的计算需求,同时您还可以通过创建自定义函数来满足不同的计算需求。

      • MapReduce:MaxCompute MapReduce是MaxCompute提供的Java MapReduce编程模型,它可以简化开发流程,更为高效。您若使用MaxCompute MapReduce,需要对分布式计算概念有基本了解,并有相对应的编程经验。MaxCompute MapReduce为您提供Java编程接口。
      • Graph:MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模,图由点 (Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终求解出结果,典型应用:PageRank单源最短距离算法 、K-均值聚类算法等。
    • SDK

      SDK是MaxCompute提供给开发者的工具包,当前支持Java SDKPython SDK

    • 安全

      MaxCompute提供了功能强大的安全服务,为您的数据安全提供保护,详情请参见安全指南

    参考资料:1.https://help.aliyun.com/document_detail/27800.html?spm=a2c4g.11186623.6.547.3ec77a55TkBUgk

     

    MaxCompute与DataWorks

    DataWorks是基于MaxCompute计算和存储,提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在数加(一站式大数据平台)中,DataWorks控制台即为MaxCompute控制台。

    MaxCompute和DataWorks一起向用户提供完善的ETL和数仓管理能力,以及SQL、MR、Graph等多种经典的分布式计算模型,能够更快速地解决用户海量数据计算问题,有效降低企业成本,保障数据安全。更多使用说明请参见DataWorks什么是DataWorks

    说明 您可以将DataWorks理解成MaxCompute的一种Web客户端。MaxCompute是DataWorks的一种计算引擎。

    MaxCompute与数据集成

    MaxCompute可以通过数据集成加载不同数据源(例如:MySQL数据库等)数据,同样也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。

    数据集成功能已经集成到DataWorks作为数据同步任务进行配置、运行。您可直接在DataWorks上配置MaxCompute数据源,再配置读取MaxCompute表或者写入MaxCompute表任务,数据的导入和导出整个过程只需在一个平台上进行操作。

    MaxCompute与机器学习PAI

    机器学习PAI是基于MaxCompute的一款机器学习算法平台。它实现了数据无需搬迁,便可进行从数据处理、模型训练、服务部署到预测的一站式机器学习。创建MaxCompute项目,开通机器学习,即可通过机器学习平台的算法组件对MaxCompute数据进行模型训练等操作。详情请参见机器学习PAI操作文档

    MaxCompute与QuickBI

    数据在MaxCompute进行加工处理后,将Project添加为QuickBI数据源,即可在QuickBI页面对MaxCompute表数据进行报表制作,实现数据可视化分析。

    MaxCompute与AnalyticDB for MySQL

    AnalyticDB for MySQL是海量数据实时高并发在线分析(Realtime OLAP)的云计算服务,与MaxCompute结合实现大数据驱动业务系统的场景。通过MaxCompute离线计算挖掘,产出高质量数据后,导入分析型数据库,供业务系统调用分析。

    将MaxCompute数据导入到AnalyticDB for MySQL,有以下两种方式:

    ......

     

    MaxCompute的表格有两种类型:内部表和外部表(MaxCompute2.0版本开始支持外部表)。

    • 对于内部表,所有的数据都被存储在MaxCompute中,表中列的数据类型可以是MaxCompute支持的任意一种数据类型
    • 对于外部表,MaxCompute并不真正持有数据,表格的数据可以存放在OSSOTS中 。MaxCompute仅会记录表格的Meta信息,您可以通过MaxCompute的外部表机制处理OSS或OTS上的非结构化数据,例如视频、音频、基因、气象、地理信息等。

    分区表是指在创建表时指定分区空间,即指定表内的一个或者某几个字段作为分区列。分区表实际就是对应分布式文件系统上的独立的文件夹,该文件夹下是该分区所有数据文件。而分区可以理解为分类,通过分类把不同类型的数据放到不同的目录下。分类的标准就是分区字段,可以是一个,也可以是多个。

     

    分区表的意义在于优化查询。查询表时通过WHERE子句查询指定所需查询的分区,避免全表扫描,提高处理效率,降低计算费用。

    参考资料:1.https://help.aliyun.com/document_detail/27820.html?spm=a2c4g.11186623.6.554.165939a4ucghb8

    --创建一个二级分区表,以日期为一级分区,地域为二级分区
    CREATE TABLE src (key string, value bigint) PARTITIONED BY (pt string,region string);

    --正确使用方式。MaxCompute在生成查询计划时只会将'20170601'分区下region为'hangzhou'二级分区的数据纳入输入中。
    select * from src where pt='20170601'and region='hangzhou'; --错误的使用方式。在这样的使用方式下,MaxCompute并不能保障分区过滤机制的有效性。pt是STRING类型,当STRING类型与BIGINT(20170601)比较时,MaxCompute会将二者转换为DOUBEL类型,此时有可能会有精度损失。 select * from src where pt = 20170601; 


    MaxCompute表的生命周期(Lifecycle),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被MaxCompute自动回收。这个指定的时间就是生命周期。
    • 生命周期单位:Days(天),只接受正整数。
    • 对于非分区表,如果表数据在生命周期Days天内没有被修改,经过Days天后此表将会被MaxCompute自动回收(类似DROP TABLE操作)。生命周期从最后一次表数据被修改的时间(LastDataModifiedTime)起开始计算。
    • 对于分区表,每个分区可以分别被回收。在生命周期Days天内数据未被修改的分区,经过指定的天数后此分区将会被回收,否则会被保留。每个分区的生命周期是从最后一次分区数据被修改的时间LastDataModifiedTime起开始计算。不同于非分区表,分区表的最后一个分区被回收后,该表不会被删除。
    • 生命周期只能设定到表级别,不能在分区级设置生命周期。创建表时即可指定生命周期。
    • 如果您没有为表指定生命周期,则表(分区)不会根据生命周期规则被MaxCompute自动回收。

    资源类型

    MaxCompute支持上传的单个资源大小上限为500MB,资源包括以下几种类型:
    • File类型。
    • Table类型:MaxCompute中的表。
       
      说明 MapReduce引用的table类型资源中,table字段类型目前只支持BIGINT、DOUBLE、STRING、DATETIME、BOOLEAN,其他类型暂未支持。
    • Jar类型:编译好的Java Jar包。
    • Archive类型:通过资源名称中的后缀识别压缩类型,支持的压缩文件类型包括.zip/.tgz/.tar.gz/.tar/jar。

     

    展开全文
  • 阿里大数据计算服务MaxCompute-工具指南D.docx
  • 阿里大数据计算服务MaxCompute-计量计费.pdf
  • 阿里大数据计算服务MaxCompute-入门指南.pdf
  • 阿里大数据计算服务MaxCompute-流式计算.pdf
  • MaxCompute大数据生态集成和开发工具 工业网络 安全 态势感知 云安全 网络安全
  • MaxCompute SQL 2 数字取证 数字风险 安全人才 工控安全 web安全
  • MaxCompute用户指南

    2018-04-29 19:36:35
    MaxCompute用户指南,阿里MaxCompute(原ODPS)用户指南
  • 阿里云高级专家 戴谢宁在2017杭州云栖大会中做了题为《MaxCompute索引优化实践分享》的分享,就MaxCompute的数据模型,MaxCompute性能优化,应用实例 – 淘宝交易记录查询做了深入的分析。
  • 阿里大数据计算服务MaxCompute-入门指南D.docx
  • 阿里大数据计算服务MaxCompute-工具指南.pdf
  • MaxCompute重磅发布.pdf

    2019-08-29 06:43:35
    阿里云产品专家郭坤在2017云栖大会·北京峰会中做了题为《MaxCompute重磅发布》的分享,就Python UDF的特点,如何进入官网申请公测等方面的内容做了深入的分析。
  • MaxCompute高级专家 艺卓在2017杭州云栖大会中做了题为《MaxCompute对开源系统的支持与融合》的分享,就MaxCompute 和开源,开源的协议及工具,开源的编程接口做了深入的分析。
  • 1.关涛-2017MaxCompute专场_TonyGUAN_V1.3.pdf
  • 阿里大数据计算服务MaxCompute-安全指南D.docx
  • 9月4日MaxCompute直播课件下载。 了解更多MaxCompute产品和技术相关内容,可扫描二维码加入“MaxCompute开发者交流”钉钉群。
  • MaxCompute开发利器-Studio薛明
  • 什么是MaxCompute

    千次阅读 2022-03-04 09:06:12
    MaxCompute(ODPS)是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化...

    MaxCompute(ODPS)是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

    随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(TB、PB、EB)级别。MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型,您可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。

    MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别,并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。详细发展历程、产品荣誉及客户案例请参见发展历程客户案例

    MaxCompute还深度融合了阿里云如下产品:

    • DataWorks

      基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。

    • 机器学习PAI

      基于机器学习平台的算法组件实现对MaxCompute数据进行模型训练等操作。

    • Quick BI

      基于Quick BI对MaxCompute数据进行报表制作,实现数据可视化分析。

    MaxCompute融合的更多阿里云产品信息,请参见阿里云产品生态集成

    核心功能

    功能分类功能描述
    全托管的Serverless在线服务
    • 对外以API方式访问的在线服务,开箱即用。
    • 预铺设大规模集群资源,近乎无限资源,您可以按需使用、按量计费。
    • 无需平台运维,最小化运维投入。
    弹性能力与扩展性
    • 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。
    • 支持实时根据业务峰谷变化分配资源。
    统一丰富的计算和存储能力
    • MaxCompute支持多种计算模型和丰富的UDF。
    • 采用列压缩存储格式,通常情况下具备5倍压缩能力,可以大幅节省存储成本。
    与DataWorks深度集成一站式数据开发与治理平台DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks支持对MaxCompute项目进行管理以及Web端查询编辑。
    集成AI能力
    • 与机器学习平台PAI无缝集成,提供强大的机器学习处理能力。
    • 您可以使用熟悉的Spark-ML开展智能分析。
    • 使用Python机器学习三方库。
    深度集成Spark引擎
    • 内建Apache Spark引擎,提供完整的Spark功能。
    • 与MaxCompute计算资源、数据和权限体系深度集成。
    湖仓一体
    • 集成对数据湖(OSS或Hadoop HDFS)的访问分析,支持通过外部表映射、Spark直接访问方式开展数据湖分析。
    • 在一套数据仓库服务和用户接口下,实现数据湖与数据仓库的关联分析。

    详细信息,请参见MaxCompute湖仓一体

    支持流式采集和近实时分析
    • 支持流式数据实时写入并在数据仓库中开展分析。
    • 与云上主要流式服务深度集成,轻松接入各种来源的流式数据。
    • 支持高性能秒级弹性并发查询,满足近实时分析场景需求。
    提供持续的SaaS化云上数据保护为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等三级超20项安全功能,兼具开源大数据与托管数据库的安全能力。

    产品架构

    MaxCompute的产品架构如下。

    模块名称功能说明
    存储
    • MaxCompute Tables:是MaxCompute的数据存储单元。MaxCompute中不同类型作业的操作对象(输入、输出)都是表。
    • Compression Strategy:MaxCompute采用列压缩存储格式,通常情况下具备5倍压缩能力。
    • AliORC:MaxCompute数据存储格式全面升级为AliORC,具备更高存储性能。
    计算引擎MaxCompute本身具备计算引擎能力。在处理Spark作业时,MaxCompute运行在阿里云自研的CUPID平台之上,可以原生支持开源社区Yarn所支持的计算框架。
    计算模型数据通道MaxCompute支持多种数据通道满足多场景需求:
    • SQL:MaxCompute对外提供SQL功能。您可以将MaxCompute作为传统的数据库软件操作,但其却能处理EB级别的海量数据。说明
      • MaxCompute SQL不支持事务、索引。
      • MaxCompute的SQL语法与Oracle、MySQL有一定差别,您无法将其他数据库中的SQL语句无缝迁移至MaxCompute中。详情请参见与其他SQL语法的差异
      • MaxCompute主要用于100 GB以上规模的数据计算,因此MaxCompute SQL最快支持在分钟或秒钟级别完成查询返回结果,但无法在毫秒级别返回结果。
      • MaxCompute SQL的优点是学习成本低,您不需要了解复杂的分布式计算概念。如果您具备数据库操作经验,便可快速熟悉MaxCompute SQL的使用。
    • External Table:提供处理除MaxCompute内部表以外的其他数据的能力。您可以通过一条简单的DDL语句,在MaxCompute上创建一张外部表,通过外部表关联外部数据源。
    • Java UDF:当MaxCompute的内建函数无法满足计算需求时,您可以通过Java构建自定义函数。
    • Python UDF:当MaxCompute的内建函数无法满足计算需求时,您可以通过Python构建自定义函数。
    • MapReduce:MapReduce是MaxCompute提供的Java MapReduce编程模型,它可以简化开发流程,更为高效。
    • Hologres:Hologres与MaxCompute在底层无缝连接,您无须移动数据,即可使用标准的PostgreSQL语句查询分析MaxCompute中的海量数据,快速获取查询结果。
    • PAI:PAI是基于MaxCompute的一款机器学习算法平台。它实现了数据无需搬迁,便可进行从数据处理、模型训练、服务部署到预测的一站式机器学习。
    • PyODPS:PyODPS是MaxCompute的Python版本的SDK,提供简单方便的Python编程接口。
    • Graph:Graph是一套面向迭代的图计算处理框架。
    • Tunnel:提供高并发的数据上传下载服务。
    • Mars:Mars是一个基于张量的统一分布式计算框架。Mars能利用并行和分布式技术,为Python数据科学栈加速。
    • SQLML:SQLML功能依赖MaxCompute和机器学习PAI。您可以通过客户端开发MaxCompute SQLML作业,基于机器学习PAI对MaxCompute上的数据进行学习,并利用机器学习模型对数据进行预测,进而为业务规划提供指导。
    • Flink:Flink为MaxCompute提供实时数据处理能力。
    • Spark:Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行Spark作业,满足更丰富的数据处理分析需求。
    用户接口MaxCompute提供如下用户接口:
    统一元数据及安全体系MaxCompute的Information Schema提供项目元数据及使用历史数据等信息,您可以对作业的运行情况,例如资源消耗、运行时长、数据处理量等指标进行分析,用于优化作业或规划资源容量。

    MaxCompute还提供了完善的安全管理体系,例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息,请参见安全管理

    产品优势

    MaxCompute的主要优势如下:

    • 简单易用
      • 面向数据仓库实现高性能存储、计算。
      • 预集成多种服务,标准SQL开发简单。
      • 内建完善的管理和安全能力。
      • 免运维,按量付费,不使用不产生费用。
    • 匹配业务发展的弹性扩展能力

      存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。

    • 支持多种分析场景

      支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。

    • 开放的平台
      • 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。
      • 支持与Airflow、Tableau等开源和商业产品灵活组合,构建丰富的数据应用。

    展开全文
  • MaxCompute技术公开课第四季之如何将Kafka数据同步至MaxCompute.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,477
精华内容 3,790
关键字:

Maxcompute