精华内容
下载资源
问答
  • PMML

    2019-10-06 06:45:29
    PMML是预测模型标记语言,以XML语言的方式定义和存储统计和数据挖掘模型模型。主要用于解决数据挖掘平台、应用之间的模型交互和共享。目前有很多统计和数据挖掘厂商支持PMML标准,包括IBM,SPSS等。目前,PMML中...

    PMML是预测模型标记语言,以XML语言的方式定义和存储统计和数据挖掘模型模型。主要用于解决数据挖掘平台、应用之间的模型交互和共享。目前有很多统计和数据挖掘厂商支持PMML标准,包括IBM,SPSS等。目前,PMML中包含的统计和数据挖掘模型类型包括树模型、朴素贝叶斯、回归等。一个比较好的资料http://www.doc88.com/p-49237536713.html

    转载于:https://www.cnblogs.com/dianthus/archive/2011/05/17/2048650.html

    展开全文
  • pmml

    2010-05-31 16:41:00
     PMML全称预言模型标记模型(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。MML是一种基于XML的语言,用来定义预言模型。它为各个公司定义预言模型和在...

     PMML全称预言模型标记模型(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。MML是一种基于XML的语言,用来定义预言模型。它为各个公司定义预言模型和在不同的应用程序之间共享模型提供了一种快速并且简单的方式。通过使用标准的XML解析器对PMML进行解析,应用程序能够决定模型输入和输出的数据类型,模型详细的格式,并且按照标准的数据挖掘术语来解释模型的结果。 PMML提供了一个灵活机制来定义预言模型的模式,同时支持涉及多个预言模型的模型选择和模型平衡(model averaging)。对于那些需要全部学习(ensemble learning)、部分学习(partitioned learning)和分布式学习(distributed learning)的应用程序,这种语言被证明是非常有用的。另外,它使得在不同的应用程序和系统之间移动预言模型变得容易、方便。特别地,PMML非常适合部分学习、元学习、分布式学习、以及相关领域。

      PMML的模型定义由以下几部分组成:

      头文件

      数据模式

      数据挖掘模式

      预言模型模式

      预言模型定义

      全体模型定义

      选择与联合模型和全体模型的规则

      异常处理规则

      其中,预言模型的模式和预言模型定义组件是必需的,其他可选。

      数据挖掘模型包括预言模型和描述模型,因此,PMML并不是全面的数据挖掘模型定义语言。

    展开全文
  • PMML4S PMML4S是Scala的PMML(预测模型标记语言)评分库。 它为PMML提供了Scala和Java Evaluator API。 目录 产品特点 PMML4S是基于2.0到最新4.4的PMML规范的轻量级,干净且高效的实现。 型号支持 它支持以下模型:...
  • xgboost.pmml

    2020-10-23 18:53:38
    sklearn 鸢尾花训练后的pmml模型文件 ,sklearn 鸢尾花训练后的pmml模型文件
  • PMML入门

    2021-02-10 16:28:21
    PMML[Predictive Model Markup Language]预测模型标记语言,主要解决模型跨平台部署。 PMML是数据挖掘的一种通用的规范,它用统一的XML格式来描述我们生成的机器学习模型。这样无论你的模型是scikit-learn,R还是Spark...

    PMML[Predictive Model Markup Language]预测模型标记语言,主要解决模型跨平台部署。

    PMML是数据挖掘的一种通用的规范,它用统一的XML格式来描述我们生成的机器学习模型。这样无论你的模型是scikit-learn,R还是Spark MLlib生成的,我们都可以将其转化为标准的XML格式来存储。当我们需要将这个PMML的模型用于部署的时候,可以使用目标环境的解析PMML模型的库来加载模型,并做预测, 可以看出,要使用PMML,需要两步的工作,

     第一是将离线训练得到的模型转化为PMML模型文件,
     第二是将PMML模型文件载入在线预测环境,进行预测。
    

    这两个都需要相关的库支持

    展开全文
  • pmml什么是pmml_什么是PMML

    千次阅读 2020-06-20 02:06:25
    2010年9月28日- 在“ 相关主题”中 ,添加了指向新PMML文章的链接:“在PMML中表示预测性解决方案:从原始数据转变为预测” PMML简介 如果有人问您今天是否使用过预测分析,您可能会回答“否”。 但事实是您可能...

    pmml什么是pmml

    2010年9月28日- 在“ 相关主题”中 ,添加了指向新PMML文章的链接:“在PMML中表示预测性解决方案:从原始数据转变为预测”

    PMML简介

    如果有人问您今天是否使用过预测分析,您可能会回答“否”。 但事实是您可能不知不觉地每天使用它。 每次您刷卡或在线使用信用卡时,预测分析模型都会检查该交易是否具有欺诈性。 如果您在线租借DVD,则可能是向您推荐特定电影的预测分析模型。 事实是,预测分析已经是您生活中不可或缺的一部分,其应用必将在将来为您提供更多帮助。

    当桥梁,建筑物,工业过程和机械中的传感器生成数据时,预测解决方案势必会提供一个更安全的环境,在该环境中,预测会在实际发生故障之前提醒您注意潜在的故障和问题。 像重症监护病房的病人一样,传感器也用于监视人类。 IBM®和安大略大学技术学院目前正在合作实施数据分析和预测解决方案,以监测早产儿,其中生物医学读数可用于在通常观察到的24小时之前检测到威胁生命的感染。

    但是,仅凭预测分析就能说明一切吗? 这取决于。 开放标准绝对是其中的一部分。 为了使您从预测解决方案和数据分析中完全受益,系统和应用程序需要能够通过遵循标准轻松地交换信息。 PMML允许在应用程序和系统之间共享预测分析模型。

    主要分析供应商采用PMML是公司拥抱互操作性的一个很好的例子。 IBM,SAS,Microstrategy,Equifax,NASA和Zementis都是数据挖掘组织(DMG)的一部分,该组织是PMML的制定委员会。 诸如KNIME和Rapid-Iare之类的开源公司也属于委员会的一部分。 PMML在这里塑造预测分析的世界,因此使预测世界对您来说是一个更好的地方。

    PMML基础

    PMML是用于表示数据挖掘模型的事实上的标准语言。 预测分析模型和数据挖掘模型是用于指代数学模型的术语,这些数学模型使用统计技术来学习隐藏在大量历史数据中的模式。 预测分析模型使用在训练中获得的知识来预测新数据中已知模式的存在。 PMML使您可以轻松地在不同应用程序之间共享预测分析模型。 因此,您可以在一个系统中训练模型,以PMML表示模型,然后将其移至另一个系统,在该系统中可以使用它来预测例如机器故障的可能性。

    PMML是Data Mining Group的智慧结晶,Data Mining Group是由供应商主导的委员会,由商业和开源分析公司组成(参见参考资料中的链接)。 因此,当今大多数领先的数据挖掘工具都可以导出或导入PMML。 PMML是过去10年发展起来的成熟标准,它不仅可以代表用于从数据中学习模式的统计技术,例如人工神经网络和决策树,还可以代表原始输入数据的预处理和后处理。模型输出(请参见图1 )。

    图1. PMML结合了数据预处理和数据后处理以及预测模型本身
    PMML结合了数据预处理和数据后处理以及预测模型本身

    PMML文件的结构遵循通常用于构建预测解决方案的步骤,包括:

    1. 数据字典是数据分析阶段的产物,可识别并定义哪些输入数据字段对于解决当前问题最有用。 这些可以包括数字,序数和分类字段。
    2. 挖掘模式定义了处理缺失值和异常值的策略。 这非常有用,因为每当模型投入使用时,必填的输入数据字段可能经常为空或显示错误。
    3. 数据转换定义了将原始输入数据预处理为派生字段所需的计算。 派生字段(有时称为特征检测器 )组合或修改输入字段,以获得更多相关信息。 例如,为了预测用于停止汽车的制动压力,可以使用预测模型将外部温度和水的存在(下雨了吗?)用作原始输入。 派生场可以结合这两个场来检测道路上是否存在冰。 然后,将冰场用作模型的直接输入,以预测停止所需的制动压力。
    4. 模型定义定义了用于构建模型的结构和参数。 PMML涵盖了多种统计技术。 例如,为了表示神经网络,它定义了所有神经层以及神经元之间的连接权重。 对于决策树,它定义了所有树节点以及简单谓词和复合谓词。
    5. 输出定义了预期的模型输出。 对于分类任务,输出可以包括预测的类以及与所有可能的类相关联的概率。
    6. 目标定义了要应用于模型输出的后处理步骤。 对于回归任务,此步骤允许将输出转换为人类可以轻松解释的分数 (预测结果)。
    7. 模型说明定义了将测试数据通过模型(与训练数据相对)时获得的性能指标。 其中包括场相关性,混淆矩阵,增益和提升图以及接收器工作特性(ROC)图。
    8. 模型验证定义了一组输入数据记录的样本以及预期的模型输出。 这是非常重要的一步,因为无论何时在应用程序之间移动模型,都需要通过匹配测试。 这样可以确保新系统在显示相同输入时产生与旧系统相同的输出。 只要是这种情况,就认为模型已经过验证并可以投入使用。

    鉴于PMML允许完整地表达预测性解决方案(包括数据预处理,数据后处理和建模技术),因此其结构和主要元素反映了上述八个步骤也就不足为奇了。

    互操作性:在应用程序之间共享解决方案

    在应用程序之间共享模型是预测分析成功的关键。 但是,要能够共享模型,您首先需要构建它。

    建筑模型

    模型构建由涉及详尽数据分析阶段的几个阶段组成。 在此阶段,您将原始数据切片和切块,然后选择最重要的信息以进行模型构建(这将产生上面步骤1中定义的数据字典)。 您还可以创建派生字段,以新的和创造性的方式转换和合并原始数据( 第3步 )。 然后将原始字段和派生字段用于模型训练。 作为此过程的结果,您在分析阶段查看的数据字段中只有一小部分实际上用于构建最终模型( 步骤4 )。 构建模型后,将根据测试数据集来评估模型性能( 步骤7 )。 整个过程可能持续数周,具体取决于您要解决的问题的复杂性。 通常,您有时会使用不同的统计技术来构建多个模型,然后将一个模型与另一个模型进行比较。 最终模型可能包括单个技术或几种技术的混合,从而导致PMML文件包含多个模型。

    模型部署

    有效地使用预测解决方案的模型部署通常是由与模型构建过程非常分离的应用程序完成的任务。 部署环境通常与预测解决方案要监视的系统和流程紧密集成。 但是,由于可以使用更快的Internet连接,因此这些系统在物理上不需要关闭。 可以通过Internet与Web服务轻松完成集成。 在这种情况下,您可能会受益于云计算的出现,在云计算中,您可以根据需要扩展处理能力,以满足实时需求并处理大量数据。

    当您将预测分析模型投入使用时,通常希望它能够工作数月或数年,直到需要对其进行更新为止,这很可能是由于性能下降所致。 在这种情况下,将替代旧模型构建并部署另一模型。 但是,经常需要经常更新模型,这强调了对互操作性和开放标准的需求。

    模型分享

    没有像PMML这样的语言,由于不同的系统以不同的方式表示其计算,因此部署预测解决方案既困难又麻烦。 每次将模型从一个系统移动到另一个系统时,都会经历一个漫长的翻译过程,这容易产生错误和错误陈述。 使用PMML,过程非常简单。 最近,我惊讶地发现一家大型金融公司花了六个月到一年的时间来部署他们的数据挖掘科学家努力构建的模型。 使用PMML,您可以在几分钟内完成部署。

    从应用程序A到B到C,PMML允许轻松地共享预测解决方案,并在模型构建阶段完成后投入使用。 例如,你可以建立在IBM SPSS统计模型,并从云计算,您可以在达帕部署,在Zementis预测的决策平台(见立即受益相关信息的链接)。 或者,您可以将其移动到IBM InfoSphere™,该数据库将位于数据仓库附近。 此外,您可以将其移至KNIME,这是一种开放源代码工具,可用于构建和可视化德国康斯坦茨大学的数据流。 这就是PMML的强大功能:实现应用程序之间模型和解决方案的真正互操作性。 PMML还允许您保护最终用户免受与统计工具和模型相关的复杂性的影响。 如今,您可以从Microsoft®Office Excel中直接从Zementis ADAPA平台中部署的预测模型中受益:只需选择数据并单击Score

    接下来,我将说明预测分析和PMML在称为预测维护的领域中的应用。

    预测性维护:PMML和数据挖掘的应用

    顾名思义,预测性维护涉及能够在故障和事故发生之前维护或更改材料或过程,这是确保安全的明确方法。 由于可以使用小型且经济高效的传感器来报告桥梁和建筑物等结构的当前状态,以及能源变压器,水和气泵,闸门和阀门等机械的当前状态,因此这一切皆有可能。

    我很高兴从事一个涉及早期发现旋转设备故障的项目。 如果没有预测性的维护,您必须事后处理损坏的设备。 在工业生产线上,这意味着要停止整个操作,直到机器被固定或更换为止。 通过预测性维护,您可以安排将要提前中断的设备的修理或更换,例如在生产时间短时或作为计划维护周期的一部分。 为了及早发现设备故障,我和我的团队在早期就面临挑战。 原始输入数据仅包含每小时捕获几秒钟的振动信号。 鉴于许多旋转单元(和传感器)在一个机架上组装在一起,由于邻近设备的干扰,信号质量受到了影响。

    尽管存在干扰问题,我们仍然能够使用数据挖掘和分析来成功消除噪声。 为此,我们主要使用R,这是一个支持PMML的开源统计软件包。 然后,我们使用IBM SPSS Statistics建立了几个模型。 最终模型是一个神经网络,可以高度准确地预测设备故障。 鉴于该解决方案完全以PMML表示,我们可以轻松地将其部署在已经安装在客户现场的Zementis ADAPA平台中。 然后,我们将重点放在确保传感器输入能够按预期到达我们的解决方案方面的剩余挑战。 我们还确信,该模型生成的预测将正确地用作工厂车间实施的维护过程和准则的一部分。

    使用预测分析模型作为监视工具,可以防止发生事故。 通过在发生故障之前向您发出警报,预测性解决方案可以确保环境更安全。 对于化学和石油工业,预测分析可以并且必须用作围绕石油钻探和勘探的安全措施中的另一种预防工具。

    汇出PMML

    PMML很容易从许多统计工具中导出。 如上所述,顶级的分析公司随产品一起导出和导入PMML文件。 例如,在IBM SPSS Statistics中,您可以通过选择所有适当的模型参数之后选择将模型导出为XML文件(PMML基于XML)来导出PMML模型。 对于神经网络模型,典型参数说明了网络中要使用的层和神经元的数量。 完成此阶段后,在进行模型训练之前,请选择“ 导出”选项卡以保存模型。 将解决方案另存为PMML文件是一种很好的做法,即使它不是最终的。 这使您可以保留PMML记录,以记录最终模型之前进行的所有尝试。 您和团队中的其他人可以使用此记录来确定参数和实践的最佳选择。

    深入了解PMML

    既然您知道什么是PMML以及它为什么重要,现在该深入了解该语言本身了。 如上所述,其结构反映了通常用于构建预测解决方案的八个步骤,从定义“数据字典”步骤中的原始输入数据字段到验证模型是否已如“模型验证”中正确地部署步。

    清单1显示了具有三个字段的解决方案的PMML元素DataDictionary的定义:名为Value的数字输入字段,名为Element的分类输入字段和名为Risk的数字输出字段。

    清单1. DataDictionary元素
    <DataDictionary numberOfFields="3">
        <DataField dataType="double" name="Value" optype="continuous">
            <Interval closure="openClosed" rightMargin="60" />
        </DataField>
        <DataField dataType="string" name="Element" optype="categorical">
            <Value property="valid" value="Magnesium" />
            <Value property="valid" value="Sodium" />
            <Value property="valid" value="Calcium" />
            <Value property="valid" value="Radium" />
        </DataField>
        <DataField dataType="double" name="Risk" optype="continuous" />
    </DataDictionary>

    请注意,对于字段Value ,间隔定义了从负无穷大到60的有效值的范围。超过60的值被定义为无效。 (虽然这里未显示,但您使用PMML元素MiningSchema定义了对无效和缺失值的适当处理。)鉴于字段Element是类别的,因此有效值已明确列出。 如果此特定字段的数据馈送包含元素Iron ,则该元素将被视为无效值。

    图2显示了神经网络模型的图形表示,其中输入层由3个神经元组成,隐藏层,2个神经元和输出层是单个神经元。 如您所料,PMML能够完全代表这样的结构。

    图2.一个简单的神经网络模型,其中在计算预测之前,数据要经过一系列层
    一个简单的神经网络模型,在该模型中,数据在计算预测之前先经过一系列层

    清单2显示了隐藏层及其神经元的定义,以及来自输入层(0、1和2)中神经元和隐藏层(3和4)中神经元的连接权重。

    清单2.在PMML中定义神经层及其神经元
    <NeuralLayer numberOfNeurons="2">
        <Neuron id="3" bias="-3.1808306946637">
            <Con from="0" weight="0.119477686963504" />
            <Con from="1" weight="-1.97301278112877" />
            <Con from="2" weight="3.04381251760906" />
        </Neuron>
        <Neuron id="4" bias="0.743161353729323">
            <Con from="0" weight="-0.49411146396721" />
            <Con from="1" weight="2.18588757615864" />
            <Con from="2" weight="-2.01213331163562" />
        </Neuron>
    </NeuralLayer>

    PMML不是火箭科学。 它的复杂性反映了它所代表的建模技术的复杂性。 实际上,它确实可以揭示预测分析中许多人的秘密和黑匣子。 使用PMML,任何预测解决方案都由相同的语言元素以相同的顺序表示。

    在公司内部,PMML不仅可以用作应用程序之间的通用语言,还可以用作部门,服务提供商和外部供应商之间的通用语言。 在这种情况下,它成为为交换预测解决方案定义一个单一而清晰的过程的标准。

    结论

    PMML支持即时部署预测解决方案。 它是代表预测分析模型的事实上的标准,并且目前得到所有顶级商业和开源统计工具的支持。 随着更多传感器的部署和数据的生成,预测分析和开放标准(例如PMML)是充分理解这一切的关键。 欺诈检测,电影推荐,挽救生命的医疗解决方案以及预测性维护只是可能的一些例子。 因此,卷起袖子开始工作吧!


    翻译自: https://www.ibm.com/developerworks/xml/library/ba-ind-PMML1/index.html

    pmml什么是pmml

    展开全文
  • pmml_再访PMML

    2020-07-08 18:55:52
    pmml 嗨伙计! 从今年年初开始,就有了重新设计Drools PMML模块的计划。 在这篇文章中,我将描述我们将如何处理它,目前的状态,未来发展的想法等,等等……敬请期待! 背景 PMML是一个标准,旨在“ 为分析应用...
  • PMML4S火花 PMML4S-Spark是Spark作为SparkML Transformer的PMML(预测模型标记语言)评分库。 产品特点 PMML4S-Spark是PMML4S星火包装,你可以看到了解详情。 先决条件 火花> = 2.0.0 安装 可从Maven Central获得...
  • sklearn2pmml

    2017-11-13 15:12:22
    sklearn2pmmlsklearn2pmmlsklearn2pmmlsklearn2pmmlsklearn2pmmlsklearn2pmmlsklearn2pmmlsklearn2pmmlsklearn2pmml
  • R2PMML R包,用于将模型转换为PMML 特征 该库是JPMML-R命令行应用程序的精简包装。 有关受支持的模型和转换类型的列表,请参考。 先决条件 Java 1.8或更高版本。 Java可执行文件必须在系统路径上可用。 安装 从...
  • sklearn-pmml-模型 一个将PMML模型解析为Scikit学习估计器的库。 安装 最简单的方法是使用pip: $ pip install sklearn-pmml-model 状态 该库非常Alpha,目前仅支持有限数量的模型。 该库当前支持以下模型: ( ...
  • 使用的api,这是仅针对已在序列化为PMML的任何其他模型中训练过的PMML模型(以R,python,Spark等)训练的PMML模型实现Predictor引擎。 这是高度实验性的代码,可作为概念证明,因此存在许多改进和错误的领域。 仅...
  • 关于sklearn2pmml 主页: : 软件包许可证:仅适用于AGPL-3.0 原料许可证: 简介:用于将Scikit-Learn管道转换为PMML的Python库 当前构建状态 所有平台: 当前发行信息 姓名 资料下载 版本 平台类 安装sklearn2...
  • sklearn2pmml, 用于将Scikit转换为PMML的python 库 SkLearn2PMML用于转换 scikit的python 库学习到 PMML 。特性这个库是一个围绕 jpmml-sklearn命令行应用程序的瘦包装器。 有关支持的scikit和变压器类型的列表,请...
  • 将经过训练的高斯过程回归(GPR)模型保存到PMML或从PMML加载。 该软件包公开了pmml.GaussianProcess类,该类用于表示训练有素的GPR模型。 可以使用GPML包或直接在任何GaussianProcess对象上优化模型超参数。 ...
  • brms-pmml-example 这个例子展示了如何用JBoss BRMS处理PMML模型。 该信息来自XLS文件或PMML文件。 根据来自测试 系统要求 玛文 运行示例 mvn test
  • pmml-implement-源码

    2021-06-05 06:04:34
    pmml-实现 MR 程序对 HDFS 数据执行 PMML 并将结果存储到 HDFS。
  • lr_demo.pmml

    2020-01-14 17:19:47
    这里是一个pmml的模型文件,配合csdn的谋篇博客而来,方便pmml的模型调用的展示。https://editor.csdn.net/md/?articleId=103975388
  • sklearn-pmml, 允许SciKit序列化的库将估计值学习为 PMML sklearn-pmml允许scikit序列化的库将估计值学习为 PMML安装最简单的方法是使用 pip:pip install sklearn-pmml支持模型DecisionTreeClas
  • PySpark2PMML 用于将Apache Spark ML管道转换为PMML的Python库。 特征 该软件包为库提供了Python包装器类和函数。 有关受支持的Apache Spark ML Estimator和Transformer类型的完整列表,请参考JPMML-SparkML文档。 ...
  • SkLearn2PMML 用于将管道转换为PMML的Python库。 特征 该库是JPMML-SkLearn命令行应用程序的精简包装。 有关受支持的Estimator和Transformer类型的列表,请参阅。 先决条件 Python 2.7、3.4或更高版本。 Java 1.8...
  • java调用pmml

    千次阅读 2019-10-21 15:02:51
    创建xgboost的模型,训练后保存为pmml文件,这个都没有什么问题的,网上也有很多资源,其实我这个也是抄来的(小声), import pandas from xgboost.sklearn import XGBClassifier,XGBRegressor from sklearn2pmml ...
  • 在理论研究的基础上,介绍了预测模型标记语言(PMML),探讨了PMML标准在数据挖掘系统中的应用,提出了基于PMML的语法描述,并对挖掘系统中的PMML标准进行了详细分析。最后对PMML在数据挖掘中的应用前景进行了展望,...
  • Nyoka是一个Python库,用于全面支持最新的PMMLPMML 4.4)标准。 使用Nyoka,数据科学家可以通过使用包括在内的众多即用型导出器中的任何一种,或者通过创建自己的专用于/专用模型类型的导出器,将流行的Python框架...
  • Python之sklearn-pmml:sklearn-pmml的简介、安装、使用方法之详细攻略 目录 sklearn-pmml的简介 1、分类 2、回归 sklearn-pmml的安装 sklearn-pmml的使用方法 1、保存GBDT模型为pmml文件并载入 ...
  • PMML 规则集生成器 设置 您将需要安装: node.js ( ) 鲍尔 ( ) 咕噜声( ) 然后在结帐目录中运行: npm install bower install 要为页面运行提供服务: sudo grunt serve
  • PMML简介 如今,传感器已无处不在,从家庭中的智能仪表到对深水石油钻机等设备和结构的监视。 为了理解从这些传感器收集的所有数据,预测分析需要开放标准,该标准允许系统进行通信,而不会妨碍专有代码和不兼容性...
  • PMML讲解及使用

    万次阅读 2019-01-10 21:35:39
    PMML讲解及使用 1. PMML概述 PMML全称预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。使用pmml储存好模型之后,任何软件栈都可以调用pmml...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,744
精华内容 697
关键字:

pmml