2019-08-26 15:03:49 BigDataDigest 阅读数 261
  • 软件测试基础

          主要讲解软件测基础信息,包括如下内容: *  软件测试的发展 * 软件测试定义、目标、原则 * 软件测试模型(V模型、W模型、H模型等)      * 软件测试准入准出的标准(包括缺陷的生命周期、测试用例的相关属性字段) * 测试方法的分类 * 白盒测试(语句、条件、判定、条件/判定、条件组合、路径等覆盖) * 黑盒测试(等价类、边界值、因果图)       通过该系列课程,能达到对软件测试有一个简单的认识,知道通过一些方法来分析需求,编写测试用例,来管理缺陷,有一个简单的测试流程体系,知道如何测试、如何编写测试用例等。

    1761 人正在学习 去看看 王恩龙

大数据文摘出品

来源:searchenterpriseai

编译:张大笔茹


生活经验告诉我们,相关关系并不能直接推导出因果关系,但不管是日常生活还是学术研究,对于因果关系的解释要远比相关关系重要得多。很多时候,我们也会对事件之间的因果关系捉襟见肘。


如果,把这个过程交给AI来处理会怎样呢?


AI可以利用深度学习技术来构建相关关系模型。但是,用于确定事情发生原因的因果深度学习目前仍处于起步阶段,而且它的自动化比普通神经网络也困难许多。


大部分AI都是通过分析大量数据寻找其中隐藏的规律。全球IT服务公司L&T Infotech的执行副总裁兼首席数据分析官苏门德拉·莫汉蒂(Soumendra Mohanty)表示,“显然,这能使我们能了解到‘是什么’,但却很少能理解‘为什么’”。


这个区别的影响是很大的。建造人工智能的最终目的是训练AI回答为什么这个因素会影响那个因素,这就是许多研究人员现在将注意力转向这儿的原因。


加州大学洛杉矶分校的教授朱迪亚·珀尔(Judea Pearl)的关于实施贝叶斯网络统计分析的研究取得重要成绩,他在开发一个可以在可计算框架中区分事件原因的、用于绘制因果关系图的框架。


分析因果关系的最大挑战之一是通过专家判断一件事情的原因,此为主观意见,然后再通过各种分析技术将其分开。这与统计机器学习所追求的“客观”形成鲜明对比。长远来看,因果关系研究可以帮助我们更好地理解世界;短期内,因果分析也可以更好地解释机器学习模型的结果。


不再期待AI奇迹般地预测未来


Information Builders营销副总裁杰克·弗赖瓦尔德(Jake Freivald)说:“商业精英通常不相信黑盒子技术,但他们却对人工智能技术有着异乎寻常的期待。”他表示,企业家意识到将业务流程交给人工智能算法可能就像让他们两岁的孩子驾驶自己的汽车一样冒险。


问题在于,分析型AI主要用于查找数据集中的相关性,而相关性仅仅能暗示因果关系,无法准确解释事情为什么发生。相关性只能告诉你接下来可能会发生什么。


“我们越能在模型中梳理出因果关系,就越能在现实基础上准确评估事情发生的原因以及接下来会发生什么,”弗雷瓦德说,“只有到那时,将业务交给人工智能就可以很好地完成工作。否则,结果可能是灾难性的。”



不再仅仅是拟合曲线


拟合曲线在回答诸如“下一个最佳报价是什么?”、“这会是诈骗吗?” 或者“它是猫吗?”这类问题上表现出色。


“但现实世界中,很多问题是无法仅通过曲线拟合度解决的,”莫汉蒂说。如果几个因素都可以预测产品偏好,那企业应该选择哪些因素以及如何确定其重要性顺序呢?简单地将不同变量按强度排列与独立选择一些因素并单独评估其对预测结果的贡献程度的结果是不同的。


“我们可以观察相关性,但并不能证明甚至解释因果关系,”莫汉蒂说。因果关系回答的是“我应该采取什么行动才能实现改变?”或“如果我改变模型的一些基本假设会怎样?”


因果深度学习技术(又称结构方程模型SEM)已存在多年了。然而,这些技术或多或少地局限于学术研究,目前还没有应用到商业领域。


蒙特卡罗模拟,马尔可夫链分析,朴素贝叶斯和随机建模是当今常用的一些技术,但它们几乎都不能分析因果关系。还有一些开源软件包,如DAGitty(一个基于浏览器的环境,用于创建,编辑和分析因果模型以及Microsoft的DoWhy库的软件包)也用于因果推理。但这些仍在发展中。


自动库存管理系统的制造商Pinsa Systems的首席执行官兼总裁理查德·施瓦茨(Richard Schwartz)表示,在整体上看,AI应用程序会根据其观察到的模式执行一系列操作。深度学习使用统计技术来发现规律。在AI中嵌入因果理解的不同方法需要开发基于规则的系统。这种系统可以从其他类型的客观事实中得出结论,例如“右转三次等同于左转”。


规则可以是因果关系或认知关系,它们有助于根据输入对结果进行建模,但它们也有缺点:“因果规则很难界定的,明确定义往往更难。”



潜在的解决方案是两种方法的组合,例如,为神经网络创建可解释性模块。这种系统的因果深度学习模式是以更加艰苦的方式构建如何达成结论的认知模型。


另外一种比较好的因果AI技术是通过强化学习领域的“从示范中学习”(Learning from demonstration),这种方法首先输入一些计算机完成某些事情的例子,然后让计算机适应该技术,自己解决问题。


彭萨(Pensa)在其库存管理工具中使用两种类型的人工智能来解决与商店货架上重新进货库存相关的问题。主要产品使用神经网络,用以解决摄像机的计算机视觉输入识别货架上的物品(例如,亨氏牌番茄酱)以及货架的摆放方式(例如,亨氏牌产品通常在亨特牌产品的旁边)等问题。


使用因果模型生成自动提示,例如“亨氏番茄酱快要缺货”,或者“亨氏番茄酱已经完全缺货”。为了得出这个结论,系统不仅需要识别产品,还需要理解货架上物品的相关库存控制规则以及重新进货的意义。


人类通常非常擅长得到认知型结论,例如制定经验法则,从而得出结论。“这是人工智能的瓶颈,”施瓦茨说。


无需模型的因果关系


德克萨斯大学奥斯汀分校的人工智能教授斯科特·尼克姆(Scott Niekum)说,强化学习本质上是因果关系,因为智能体会尝试不同的方式并通过反复试验来了解其是如何得到结果的。这种类型的学习被称为“非模型学习”,很受欢迎,因为它可以学习正确的或有效的行为而无需学习世界是如何运作的。


换句话说,智能体学习行动与后果之间的因果关系,而不是行动如何直接影响世界的。例如,它可以在不了解水和火之间的关系的情况下翻转火上方的水桶将水倒出用来灭火。


非模型学习是一把双刃剑。如果没有模型,智能体就必须从头学习如何在问题发生变化时解决问题。


在前面的例子中,如果给智能体一个水管而不是一桶水,它就不知道怎么办了而需要从头开始学习,因为它只学习了“翻桶”行动与扑灭火灾,并没有学习水和火之间的因果关系。



尼克姆说:“由于这些原因,人们越来越关注基于模型的强化学习,尽管它也有缺点,例如,如何衡量模型的置信度,模型错误时该怎么做,如何管理大范围长线计划的不确定性?”


解释机器学习模型


可解释性的核心是这样的:解释必须能够识别和量化所有对深度学习模型的行为负有因果关系的因素。在这方面,因果关系是指模型函数本身,而不是模型正在解决的任务,Fiddler Labs(一家可解释的AI引擎公司)的数据科学负责人安库尔·泰利(Ankur Taly)表示。


由于模型的复杂性,完整地解释深度学习模型很难。难以分析推断模型函数中每个特征的重要性,早期的因果深度学习方法是通过观察模型对数据集的预测,在其中拟合一个更简单、可解释的模型来解释它。


“不幸的是,这些方法容易受到从观察数据推断因果关系的影响,”泰利说,人们无法将与模型预测真正相关的特征与那些与之相关的特征区分开来。


最近出现了一套基于合作博弈理论的Shapley值的不同算法。这些算法使用反事实输入探测模型。然而,FiddlerLabs的研究发现,如果数据集不是正态分布的,这些算法大多数情况下都会导致偏差。泰利说他们正在研究将解释模型与特定数据集分离的方法。


这种研究有助于识别模型学会依赖的虚假相关性。例如,黑客最近可以通过添加某些类型的数据来伪造Cylance反恶意软件引擎。减轻这种风险的第一步是确定显著影响模型预测的因果特征。


“然后人们可以通过研究这些特征来检查它们是否也是这项任务的原因,或者它们是否被对手利用了,就像Cylance一样,”泰利说。


不可盲目迷信AI


据Information Builders的弗赖瓦尔德说,目前人类可以比AI更好地通过深度学习建立因果关系。这涉及到限制数据集,剔除可能导致偏差的字段,并塑造学习过程。人类关注因果关系,让算法完成学习过程。这是一个反馈循环,但人是必不可少的。


如果因果关系可以由人工智能决定,那么人工智能可以重塑学习过程而不再需要人类。理论上,AI可以使用任意数据集来确定因果关系,并以人类完全没意料到的方式进行学习。


目前还是存在很多未知的。人类可以用自己广泛的智慧解决问题,而机器尚无法做到。最近的尝试还产生了不少令人头疼的并发症。“我们希望人工智能越万能,需要的数据就越多,误报的可能性也就越大——这是机器的局限,我们不能盲目的迷信机器,”弗赖瓦尔德说。


相关报道:

https://searchenterpriseai.techtarget.com/feature/Causal-deep-learning-teaches-AI-to-ask-why

2016-10-27 09:40:47 eengel 阅读数 4836
  • 软件测试基础

          主要讲解软件测基础信息,包括如下内容: *  软件测试的发展 * 软件测试定义、目标、原则 * 软件测试模型(V模型、W模型、H模型等)      * 软件测试准入准出的标准(包括缺陷的生命周期、测试用例的相关属性字段) * 测试方法的分类 * 白盒测试(语句、条件、判定、条件/判定、条件组合、路径等覆盖) * 黑盒测试(等价类、边界值、因果图)       通过该系列课程,能达到对软件测试有一个简单的认识,知道通过一些方法来分析需求,编写测试用例,来管理缺陷,有一个简单的测试流程体系,知道如何测试、如何编写测试用例等。

    1761 人正在学习 去看看 王恩龙

在学习或者使用机器学习的方法时,回归分析可以说是最常用的一种方法了。今天朋友推荐Dr. Paul Allison的一篇博文,讲回归分析最常用的两种方式:预测和因果分析。觉得对医学信息学里面对回归分析的使用有很大的帮助,于是拜读了一下。下面是对于其中主要观点的总结。Dr. Allison是统计学方面的大牛,写了很多本统计学方面的。最厉害的是他的教学。不管面对什么样的学生,他都能很有效地教授统计学方法。

 

对我来说,本文的最大贡献是:指出了回归分析的两个用途(预测和因果分析)应当分开对待。在医学信息学领域,回归分析一般被用来做疾病风险预测模型建模,以及评估模型中的变量对最终临床结局的影响。而从本文中可以推测的是:我们并不能期望一个风险预测模型,能同时回答这两种用途所针对的问题。原因就是用途不一样,进行回归分析的很多方面的设计和考量就不一样。Dr.Allison在文中列举了5大需要区别对待的地方。

 

 

预测

因果分析

遗漏的变量

遗漏变量对于预测的影响小的多。预测的目标是基于可用的变量的线性组合,得到优化的预测。因此不存在对预测来说“真正的”系数进行优化估计的说法。除非如果加入遗漏的变量,可以改进预测。

因果分析的主要目标是得到回归系数的无偏倚估计。因此遗漏的变量造成的偏倚是极具威胁的。特别是那些既影响因变量,又和自变量相关的变量。这些变量的遗漏往往会导致无效结论。

R2

R2反映了预测模型对数据的拟合度。最大化R2对预测建模是关键性的。

当R2 小的时候,也能做好因果分析,检验自变量对因变量效果的假设。可以通过大样本量抵消小R2的短处。

多重共线性

预测不管多重共线性。看的是所有自变量的组合对因变量的预测能力。因此可以不一个个地拆开对待自变量。

多重共线性是因果分析的一个主要问题。当两个或更多自变量高度相关时, 对每个自变量独立的系数估计就能难得到可靠的结论。

缺失数据

缺失数据对预测的影响可能有两个方面。首先,某个数据缺失了本身对预测来说是一个有用的信息。其次,不仅仅训练数据会缺失,测试数据也会有缺失。

以前对缺失数据的研究都是为了做参数估计和假设检验。

测量误差

测量误差对预测肯定有影响。但如何干预要看情况。很多时候做预测的数据就长成那样,也没法干预。

测量误差会对因果分析的参数估计带来误差。因此需要尽量控制。

 

由于这是一篇博文,Dr. Allison并没有展开讲具体如何更好地用回归分析做预测和因果分析。对于将回归分析用于预测,目前工业界的实践也很多。比如预测建模的主要目标是提高模型的准确度。像医学信息学领域会使用AUROC去衡量一个模型。但对于因果分析,如何才算准确估计自变量对因变量的效果,本人还没有找到特别好的答案。
2019-11-29 16:36:19 yoggieCDA 阅读数 8
  • 软件测试基础

          主要讲解软件测基础信息,包括如下内容: *  软件测试的发展 * 软件测试定义、目标、原则 * 软件测试模型(V模型、W模型、H模型等)      * 软件测试准入准出的标准(包括缺陷的生命周期、测试用例的相关属性字段) * 测试方法的分类 * 白盒测试(语句、条件、判定、条件/判定、条件组合、路径等覆盖) * 黑盒测试(等价类、边界值、因果图)       通过该系列课程,能达到对软件测试有一个简单的认识,知道通过一些方法来分析需求,编写测试用例,来管理缺陷,有一个简单的测试流程体系,知道如何测试、如何编写测试用例等。

    1761 人正在学习 去看看 王恩龙

作者 | George Lawton
编译 | CDA数据科学研究院

​大多数AI都基于模式识别,但是正如任何高中生都会告诉您的那样,关联不是因果关系。研究人员现在正在寻找方法,以帮助AI深入到更深层次。生活经验告诉我们,相关关系并不能直接推导出因果关系,但不管是日常生活还是学术研究,对于因果关系的解释要远比相关关系重要得多。很多时候,我们也会对事件之间的因果关系捉襟见肘。如果,把这个过程交给AI来处理会怎样呢?

​AI可以利用深度学习技术来构建相关关系模型。深度学习技术通过关联数据点在构建模型方面做得很好。但是许多AI研究人员认为,需要更多的工作来理解因果关系,而不仅仅是相关性。现场因果深度学习(对确定某件事发生的原因很有用)仍处于起步阶段,并且自动化比神经网络困难得多。许多AI都是关于在大量数据中查找隐藏模式的。全球IT服务公司L&T Infotech的执行副总裁兼首席数据分析官Soumendra Mohanty说:“显然,这方面将我们带向了“什么”,但很少有人去理解“为什么”。

​这种区别的含义可能很重要。最终,要创造出模仿人类智能的机器,就需要训练AI来询问为什么一种观察会影响另一种观察。这就是为什么许多研究人员现在将注意力转向这个问题的原因。

​加州大学洛杉矶分校(UCLA)教授朱迪亚·珀尔(Judea Pearl)激发了该领域的兴奋,他从事了一些实施贝叶斯网络以进行统计分析的形成性工作。最近,他一直在开发一个框架,用于绘制因果关系图,并在可计算框架中找出导致观察到的事件的因素。

​分析因果关系的最大挑战之一是将范式更改为一种,其中专家对观察的原因提出主观意见,然后通过各种分析技术将其分开。这与统计机器学习所追求的更加客观的方法形成了鲜明的对比。从长远来看,因果关系研究可以为理解世界提供更好的模型。在短期内,因果分析将使解释机器学习模型为何能提供结果的原因变得更加容易。

克服魔术思维

​Information Builders营销副总裁杰克·弗赖瓦尔德(Jake Freivald)说:“商业精英通常不相信黑盒子技术,但他们却对人工智能技术有着异乎寻常的期待。”他表示,企业家意识到将业务流程交给人工智能算法可能就像让他们两岁的孩子驾驶自己的汽车一样冒险。

​问题在于分析和AI主要用于查找数据集中的相关性。由于关联仅暗示因果关系,因此这些关联无法帮助您理解发生某事的原因-如果无法做到,则只能告诉您接下来会发生什么的可能性。

​弗赖瓦尔德说:“我们越能发现模型中的因果关系,在评估事情发生的原因和下一步将发生的事情时,我们就越能基于现实。” “在那之前,将我们的业务交托给AI模型可能会非常有效,直到失败为止,结果可能是灾难性的。”

超越曲线拟合

曲线拟合在回答“下一个最佳报价是什么?”、“这是欺诈吗?” 或“是猫吗?”等重要问题方面做得很好。莫汉蒂说:“但是,在现实世界中,有很多问题无法通过曲线拟合来解决。” 如果有几个因素可以预测对产品的偏爱,那么企业应该尝试影响哪个因素,以及重要性的顺序如何?简单地对不同变量的预测目标能力进行排名与选择独立预测变量并评估其对结果的相对贡献不同。

​莫汉蒂说:“我们可以观察到相关性,但这并不能证明甚至暗示因果关系。” 因果关系回答的问题是“我应该拉什么杠杆来实现改变?” 或“如果我更改了模型的某些基本假设,将会发生什么?”

​因果深度学习技术(也称为结构方程模型(SEM))已经存在了很多年。莫汉蒂说:“但是,这些技术或多或少地局限于学术界和研究领域,我们还没有看到这些技术可以转化为商业或商业用例。”

​蒙特卡洛模拟,马尔可夫链分析,朴素贝叶斯和随机建模是当今使用的一些技术,但它们几乎没有涉及因果关系的表面。还有一些开源软件包,例如DAGitty(基于浏览器的环境,用于创建,编辑和分析因果模型),以及Microsoft的DoWhy库以进行因果推断。但是这些也在发展。

用AI灌装经验法则

​自主库存管理系统制造商Pensa Systems的首席执行官兼总裁Richard Schwartz表示,在较高的层次上,AI应用程序会根据观察到的模式执行一系列操作。深度学习使用统计技术来发现模式。在因果关系中嵌入因果理解的另一种方法涉及开发基于规则的系统。这种方法从其他类型的客观事实中得出结论,例如“向右转3次与向左转相同”。

​规则可以是因果关系的,也可以是认知的,可以帮助对输入的结果进行建模,但是它们也有缺点。Schwartz说:“因果规则很难被理解,即使您确实定义了因果规则,它们也会变得更加脆弱。”潜在的解决方案在于两种方法的结合-例如,为神经网络创建可解释性。这种类型的因果深度学习涉及以更加艰苦的方式建立关于如何得出结论的认知模型。

​AI引起人们注意的另一种因果技术是一种强化学习,称为从示范学习(Learning from demonstration)。这种方法有效地显示了如何完成某事的计算机示例,并使计算机尝试使该技术适应其自身的问题解决方法。

​Pensa在其库存管理工具中同时使用两种AI,以解决与在商店货架上重新库存库存有关的问题。该公司的主要产品使用神经网络来解释来自摄像机和货架上物品的计算机视觉输入(例如,亨氏番茄酱)以及货架的组织方式(例如,亨氏通常位于亨特的旁边)。

​它还使用因果模型来生成自动提示,例如“ Heinz电量不足”或“ Heinz电量完全耗尽”。为了得出这个结论,系统不仅需要产品,还需要与货架上需要的物品以及重新库存的意义有关的规则。人们非常擅长认知结论,例如制定规则拇指,从而可以得出结论。Schwartz说:“ Pensa用AI来装瓶。”

无模型因果关系

​德克萨斯大学奥斯汀分校的AI助理教授Scott Niekum表示,强化学习本质上是因果关系,因为代理会尝试不同的动作并通过反复试验来了解它们如何影响性能。这种类型的学习称为“无模型”学习,之所以流行,是因为它可以学习积极或有效的行为,而不必学习明确的世界运转模式。换句话说,它只是在学习行为与绩效之间的因果关系,而不是行为如何直接影响世界。例如,这可能涉及了解在不了解水与火之间的关系的情况下将整个水桶翻转到火上而将其扑灭的情况。

​无模型学习是一把双刃剑。如果没有模型,则代理商可能必须从头开始学习如果问题完全改变时如何实现其目标。在较早的示例中,如果为代理提供了软管而不是一桶水,则不从头开始学习就不会知道该怎么做,因为它没有学习水与火之间的因果关系,而只是学习了这种关系在“翻转斗”动作和灭火目标之间。

Niekum说:“由于这些原因,尽管基于模型的强化学习有其自身的挑战,但人们对它的兴趣越来越大。例如,您如何衡量对模型的信心,当模型出错时该怎么办?试图跨越长远视野时,您会处理不确定性吗?”

解释ML模型

​可解释性的核心思想是,解释必须能够识别和量化导致深度学习模型行为的所有因果关系。在这一点上,因果关系指的是模型功能本身,而不是模型要解决的任务,Fiddler Labs的数据科学负责人Ankur Taly说,该研究提供了可解释的AI引擎。

​由于其复杂性,忠实地解释深度学习模型具有挑战性。这使得很难分析推理模型功能中每个功能的重要性。早期的因果深度学习方法通过在数据集上观察模型的预测,并为其拟合一个更简单,可解释的模型来获得解释,从而应对了这一挑战。塔利说:“不幸的是,这样的方法容易受到众所周知的从观测数据中推断因果关系的陷阱。” 人们无法从与模型相关的特征中分离出与模型预测真正相关的特征。

​最近,出现了一组基于合作博弈的Shapley值的不同方法。这些方法使用反事实输入来探查模型。但是,Fiddler的研究发现,如果数据集存在偏差,那么大多数方法都可能导致偏差。塔利说,他们正在研究将模型解释与任何特定数据集分离的方法。这种研究可以帮助识别模型已学会依赖的虚假关联。例如,黑客最近展示了通过添加某些类型的数据来伪造Cylance反恶意软件引擎的功能。减轻此风险的一个好步骤是确定显着影响模型预测的因果特征。塔利说:“然后,人们可以研究这些功能,以检查它们是否也是任务的诱因,或者是否可以被对手利用,例如Cylance。”

教学AI迷信

​如今,在指导深度学习过程建立因果关系建模方面,人类可以比AI做得更好。InformationBuilders的Freivald说。这可能涉及限制数据集,删除可能导致偏差的字段以及通常影响学习过程的过程。人类专注于因果关系,而算法则负责学习。有一个反馈回路,但人的方面至关重要。

​如果可以通过AI工具确定因果关系,则AI可以塑造学习过程,而不是由人来做。从理论上讲,AI可以开始使用任意数据集,确定因果关系并以人类会完全忽略的方式应用学习。目前有很多问题。人类将通用智能应用于任务,而机器尚无法做到这一点。最近这样做的尝试造成了麻烦。弗赖瓦尔德说:“我们希望人工智能越通用,它就需要越多的数据,并且出现误报的可能性就越大-机器迷信。”

2019-09-16 11:05:17 devcloud 阅读数 311
  • 软件测试基础

          主要讲解软件测基础信息,包括如下内容: *  软件测试的发展 * 软件测试定义、目标、原则 * 软件测试模型(V模型、W模型、H模型等)      * 软件测试准入准出的标准(包括缺陷的生命周期、测试用例的相关属性字段) * 测试方法的分类 * 白盒测试(语句、条件、判定、条件/判定、条件组合、路径等覆盖) * 黑盒测试(等价类、边界值、因果图)       通过该系列课程,能达到对软件测试有一个简单的认识,知道通过一些方法来分析需求,编写测试用例,来管理缺陷,有一个简单的测试流程体系,知道如何测试、如何编写测试用例等。

    1761 人正在学习 去看看 王恩龙

作为人工智能最前沿的技术之一,图深度学习被公认是人工智能认识世界实现因果推理的关键,也是深度学习未来发展的方向。但深度学习对图数据模型的支持性差一直是众多研究者难以攻克的难点,因此图深度学习在实际生产中一直难以得到普及。

  不过,图深度学习的瓶颈即将被打破。华为云计划9月推出的一站式AI开发平台ModelArts多个关键新特性中,将新增图深度学习功能。ModelArt联合图引擎打造的“图神经网络”,让图深度学习真正落地,加速实现普惠AI。

  强大图引擎助力突破图深度学习瓶颈

  尽管图深度学习的前沿性和重要性已受到业界普遍认同,但是在实际落地过程中存在诸多困难:

  ▶已知的图神经网络(GNN)框架多从深度学习框架衍生图的数据组织,但深度学习框架本身对非规则数据考虑欠周,不会提供原生的图数据的支持,存在图数据访问中数据局部性差和对延时敏感等问题。

  ▶某些开源框架中,真正用于训练的计算时间仅占20%~40%,一天之中大量的时间都在等待,并且占用大量的资源数据局部采样、负样本采集等IO密集的操作,人力、时间、资金成本耗费巨大,利用率极低;在图规模大时尤为如此,严重影响了系统端到端的性能。

  想要突破图深度学习的瓶颈,就必须有一个强大的图分析引擎来弥补深度学习的缺陷。

  华为云GES图引擎高性能图计算平台,最大支持万亿规模图查询,查询分析一体化,兼顾图计算和图查询的高并发、低延时要求;能对接标准的查询接口和查询语言;可集成实现计算、查询、存储等一体化功能需求。并且拥有丰富的图分析算法,充分满足关系分析、关系挖掘,路径规划等图深度学习场景需求。

  Ewya图引擎重新审视了图神经网络的数据访问模式,以及潜在的端到端性能制约因素,进而创新的设计了属性图数据模型上的机器学习原生支持,开发了新型的高性能图神经网络(或称为图深度学习)平台能力,并成功对图深度学习技术存在的缺陷做出突破。

  当遭遇百亿边以上规模的大图时,华为云图引擎分布式优化Parallel Sliding Window(PSW)的图计算框架能够高效加载图数据,并且兼顾图计算与点查询效率,使用基于边集流(edge-set)的块状数据组织合理的组织数据;实现秒级多跳查询。以ModelArts中的高效神经网络训练算子为基础,结合GES既有的高性能图计算框架平台能力,构建了图深度学习的新框架,将GNN的训练过程高度并行化,提升了系统的总体吞吐量,极大缩短了训练时间。

  凭借高性能,丰富功能性算法、图优化算法的加持,Eywa图引擎使以往难以实现的高难度图分析成为可能,并把高效的图计算应用在城市工业生产,管道监控,商品推荐,社交推荐,项目分析,企业洞察,知识图谱,金融风险管控,企业IT应用,关系挖掘等多项领域并获得客户的广泛认可。正因如此,Eywa图引擎成为华为云实现图深度学习落地的最强支柱。

  双重黑科技加持的的华为云图深度学习

  作为ModelArts的关键新特性之一,ModelArts图深度学习的核心是华为云图神经网络,底层则是业界领先的华为云GES图引擎和ModelArts深度学习技术,可以说是强强联合。

  华为云图引擎曾获得2018年数博会“新技术”和“黑科技”两大奖项。华为云一站式AI开发平台ModelArts则夺得2019年数博会“黑科技”奖和全球智博会产品金奖。

  结合华为云两大重量级人工智能技术,经历漫长时间研发与测试,在2019中国人工智能峰会(CAIS 2019)上,“华为云新型图神经网络平台”斩获了峰会最高奖项——紫金龙蟠奖。这也标志着ModelArts图深度学习服务的推出已经做好了准备。

  ModelArts图深度学习典型应用场景

  华为云图神经网络搭配高效神经网络训练算子构建了ModelArts图深度学习新框架,充分解决图深度学习计算性能低,学习耗时长,算法场景少的难题,实现一体化的图神经网络处理、大规模图分析、图数据存储管理和企业级图神经网络分析的能力。

  以图深度学习典型应用场景——交通业务为例,路网信息可以抽象为图结构。将图结构状态下的路网信息进行建模,在交通模拟的基础上,ModelArts图深度学习能提供关键道路、拥堵预测、因果分析、区域划分等分析任务的支持。

      此外,利用图深度学习GCN建模道路上的多维属性,能有效预测了道路拥堵情况,准确率达93%,算法效率比开源框架提升8~10倍。

  图网络可从多源数据中构建用户关系图,采用图深度学习等技术挖掘犯罪团伙、人与事件/物品关系,重点人员关系变化,如工地安全帽检测和识别: ModelArts图深度学习支持多样性数据输入,可以进行各类图像之间的关系表达;大幅度减小传统检测中繁琐的对比操作,降低人工成本。快速准确捕捉视频/图像内容关联性,提供高效的安全监测服务。大数据规模下检测速度更快;可以实现非监督/弱监督/小样本下的异常检测,有效解决监督信息获取困境,提高生产、运营安全等级。

  金融业务场景下,ModelArts图深度学习可以从用户资金交易、关系网络、媒介关系中挖掘欺诈、洗钱、循环转账、信用卡Tao现等行为。通过图深度学习算法,结合图的可视化手段,帮助分析网络中的异常交易行为,相比CNN算法精度提升5%以上。

  9月18日-20日,一年一度的华为全联接大会(HUAWEI CONNECT 2019)将在上海世博中心世博展览馆隆重开幕。本次华为全联接大会以“共创智能新高度”为主题,将发布云和AI的最新产品与解决方案,分享如何应用云和AI的技术,推进数字化转型的最新实践。此次大会上,ModelArts图深度学习也将作为重头戏为大家展示。

   访问华为云微认证官网(https://edu.huaweicloud.com/certifications/),学习更多Modelarts、图深度学习知识,还能在线考取华为云官方发布的微认证,场景技能get!

 

2018-12-08 16:45:53 weixin_39837402 阅读数 851
  • 软件测试基础

          主要讲解软件测基础信息,包括如下内容: *  软件测试的发展 * 软件测试定义、目标、原则 * 软件测试模型(V模型、W模型、H模型等)      * 软件测试准入准出的标准(包括缺陷的生命周期、测试用例的相关属性字段) * 测试方法的分类 * 白盒测试(语句、条件、判定、条件/判定、条件组合、路径等覆盖) * 黑盒测试(等价类、边界值、因果图)       通过该系列课程,能达到对软件测试有一个简单的认识,知道通过一些方法来分析需求,编写测试用例,来管理缺陷,有一个简单的测试流程体系,知道如何测试、如何编写测试用例等。

    1761 人正在学习 去看看 王恩龙

  随机对照试验是发现因果关系的黄金准则,然而现实世界中很多问题往往由于道德伦理的原因不允许我们设置干预进行试验,这就引发了在观测数据上学习因果关系的需求。贝叶斯网络是概率论与图论相结合的产物,它用图论的方式直观地表达各变量之间的因果关系,为多个变量之间的复杂依赖关系提供了紧凑有效、简洁直观的统一框架,是表示因果关系的常用工具。当前贝叶斯网络因果图结构学习方法主要分为基于约束的方法、基于评分的方法以及混合学习方法。从观测数据中学习贝叶斯网络的本质在于利用统计学方法建立图形模型,以拟合观测数据,通常需要做出以下假设:
(1)因果充分性假设:假定在给定观测数据上不存在无法观测到的隐藏变量,即排除对确定因果关系造成干扰的隐藏混杂因子。
(2)因果忠实性假设:若网络G蕴含且仅蕴含数据分布P上的所有条件独立性,则G与P是相互忠实的;忠实性假设保证了可以采用G的图结构和条件概率分布来描述概率分布P所蕴含的条件独立性。
(3)因果马尔科夫假设:对网络中任一变量,若其父节点取值确定,则该变量条件独立与其他非后裔节点,该假设确保贝叶斯网络中任意变量及其非后裔节点之间存在D-分离。

基于约束的方法

  基于约束的学习算法[5]通过变量之间的条件独立性来判断特定结构的存在性,测试条件独立性的方法通常采用统计或者信息论的度量来实现,故其也称为基于条件独立性的方法。
  此类算法一般从无向完全连接图出发,通过条件独立性测试中的置信度来排除噪声数据引起的虚假因果关系从而去除部分无向边,然后基于奥卡姆剃刀准则利用V-结构确定因果方向,定向的原则是网络中不产生回路和新的V-结构。常用的条件独立性测试为基于统计分析的卡方检验或是基于信息论的互信息检验方法。
  算法的原始思想是针对每对节点从剩余节点中寻找二者的有向分离集合,对于一个有n个节点的网络来说,每对节点共需进行最多2^(n-2)次条件测试,不同的算法主要区别于进行条件独立测试的顺序不同,通过排除不可能的条件集来降低算法复杂度。典型的算法包括PC算法、IC算法等。基于约束的算法在原理上更接近于贝叶斯网的语义特性,它的效率高,并在实际中获得较好的效果,其缺点是这类方法存在无法判断的因果关系方向,即存在马尔科夫等价类难题。

基于评分的方法

  基于评分的方法通过组合优化来学习因果图结构,首先定义评分函数来量化贝叶斯网络与给定数据分布的拟合程度,通过搜索算法找到与数据拟合最好的图结构,评分函数通常满足两大性质:
(1)可分解性:网络的评分可分解为各个节点与其父节点之间的评分的和。可分解性有效提高贝叶斯网络学习的速度,尤其在爬山算法等局部搜索算法中。
(2)评分等价性:由于同一个马尔科夫等价类中的DAG在统计上是不可区分的,因此由统计学方法得到的评分函数对于马尔科夫等价的网络应具有相同的评分值。
常用的评分函数有BIC,BD、MDL等。
  搜索策略是为了搜索某个评分函数下分值最高的网络结构,当节点的个数大于1时,寻找最优的模型是NP问题,所以常常采用启发式搜索而非暴力搜索。最基本的方法是贪婪搜索算法,该算法从一个初始模型(可以是空图、随机初始化的图或是利用先验知识人工构建的图)出发开始搜索,搜索的每一步首先利用搜索算子对当前模型进行局部更新,得到一系列候选模型,然后计算每个候选模型的评分,将其中最优模型与当前模型进行比较,若最优候选模型评分更高,则在它基础上进行下一次搜索,反之停止搜索返回当前模型。此外还有FGES算法、爬山算法等。
  基于评分的方法避免了高阶条件测试,可以得到较高的精度,但是复杂性较高,运行时间长且易陷入局部最优。

混合方法

  混合方法融合上述两种方法来弥补它们各自的缺点,首先利用条件独立性检验来缩小候选图搜索空间的复杂度,接着使用基于评分的方法来找到最佳的网络结构。由于充分利用了基于约束的方法的效率高的特点,并采用评分方法有效避免了容易出现谬误的高阶条件测试,因此能够有效地将计算资源用于搜索解空间最有潜力的区域,进而提高网络学习的精度和效率。典型的混合方法包括最大最小爬山算法、稀疏候选算法等。

因果

阅读数 15

没有更多推荐了,返回首页