精华内容
下载资源
问答
  • 机器学习用户行为分析的实践与实际运用。通过机器学习算法建立行为基线
  • 在参考业界的同时,我们也在UBA的核心算法上做了一番研究,要知道UBA之所以号称下一代SIEM,其核心就是将机器学习引入行为数据检测,本文简要总结一下近期研究的适用于UBA的机器学习算法和效果。 UBA产品并不依赖...

    【摘要】最近看到越来越多的安全圈的同学开始关注UBA或者UEBA的相关产品和技术,恰好这一段时也一直在跟进UBA产品的状况,正如Gartner报告所述,最具创新能力的UBA供应商往往都是一些初创公司,我们比较了IBM、HPE、Splunk这类大公司的UBA产品,但是感觉无非就是SIEM产品的更新升级罢了,相反一些名不见经传的初创公司如Balabit、Sqrrl等的UBA产品到让人眼前一亮。在参考业界的同时,我们也在UBA的核心算法上做了一番研究,要知道UBA之所以号称下一代SIEM,其核心就是将机器学习引入行为数据检测,本文简要总结一下近期研究的适用于UBA的机器学习算法和效果。

    UBA产品并不依赖某个“银弹”算法,其必定是一系列机器学习算法的有机融合,稍微了解机器学习的同学都清楚,像贝叶斯家族、线性回归这类有监督学习算法往往都需要大量的训练样本,但是网络安全领域APT攻击的样本一年抓不住两个,要说大量训练几乎没可能,因此UBA产品大量采用非监督学习算法,通过聚合行为数据巧妙的达到异常检测的目的。下面简要介绍一下在行为检测过程中常用的机器学习算法。

    首先我们假设一个用户场景,张三,是一个SO的系统管理员,他的账号有很多出入IT系统的权限,某天他的账号被黑客盗用了,黑客通过VPN等通道接入内网,并且将数据偷盗到公司外出售给竞争对手。

    一个低风险用户的正常业务活动通常没什么可关注的,但是一些高风险人群的正常活动或者低风险账号进行的高危操作则足以值得调查人员关注,更近一步,如果一个高风险用户做了一些高危并且不长出现的动作,那就绝对需要安全人员介入调查了。这里有一个问题,我们如何知道一个用户风险等级是高还是低?这便是UBA及其算法要解决的核心问题,通过建立动态行为基线发现用户偏离正常模式的行为,并根据风险累计的数值判断用户风险级别。综上,构建用户的特征行为矩阵是第一步,也即User-Profile,特征行为矩阵的构建方法五花八门,考虑到HBase支持数据量大,列式存储等特点,我们选择将特征矩阵保存在HBase里。

    张三,像其他特权用户一样,利用其账号的权限登录到某一台主机或者服务器,主机登录算法用以检测每个用户经常使用的主机或者服务,DBA通常倾向于登录固定的几台机器,并且都是使用相似的命令,同时销售人员都是使用天兔或者某个XX系统的服务,两者使用方式完全不同。这里张三登录的是一台保存销售数据的服务器,而显然,这与他之前的模式或者与他所在的Peer-Group都是格格不入的。这里我们使用KMeans算法根据用户行为数据的特征矩阵对用户划分Peer-Group,行为模式类似的人群会划分到一个动态群组。

    除了动态群组,根据现有的系统权限组进行风险评估同样是一种有效方式,我们从LDAP或者AD获取用户组以及组的成员数,通常规模较小的组比成千上万用户的组风险系数更高。当张三的账号被黑客从普通管理员组提升到超级管理员组的时候,他的账号瞬间进入了一个人烟罕至的群组,这时候他的风险值会瞬间提升。

    除了用户登录的机器,登录时间也是行为特征中非常重要的一个环节,基于时间序列的分析方法有很多,这里我们使用KDE(核心概率密度估计)算法来统计和预测用户在某个时间段登录的概率,这种方法可以有效的克服离散数据在模式匹配过程中容易过耦合的问题。比如张三作为一个系统管理员,通常的登录时间是上班时间以及晚饭以后的时间,早上7:30属于正常登录时间,而凌晨0点登录就会被标记为高度反常和可疑。KDE曲线如下图:

    张三登录系统以后进行了一系列的操作,通常一个用户在一段时间内能够产生的操作个数也是一个人的典型特征,User-Profile聚合一个用户在一段时间内产生的所有行为数据的数量,使用KDE重新组织统计数据,并检测这个模式是否发生明显改变。如果这里张三在一小时内接连登录了30+台服务器,而他通常也就登录2、3台,那么这里就与正常的行为有明显的偏移。

    基于频繁项集的聚类算法(如Aprior/FP-Growth)在零售行业很早以前就有广泛应用,比如沃尔玛对顾客购买商品的模式发掘发现啤酒和尿布经常一起出售。基于频繁项集的机器学习算法在UBA领域也有广泛应用,比如,张三通常在周末的时候通过SSH协议登录,而在工作日通过RDP协议登录,那么有一天他在周末通过RDP登录就是一个行为模式的偏移。

    主成分分析(PCA)是一种应用广泛的降维算法,其在行为数据异常检测的过程中有很好的效果,首先用户行为的特征矩阵往往都有成千上万个维度,如果我们想从海量数据的特征矩阵中找出异常也即离群的点,计算难度会比较大,我们采用PCA对特征进行降维并结合KMeans等聚类算法找出离群点。比如,张三通常会长时间使用前台的服务器,而运维后台服务器的时候比较短,如果他长时间停留在后台服务器上我们的算法会将其潜在的风险值提高。

    上面介绍的几个算法Spark的MLlib提供的全部的实现,不得不感叹一下Spark确实是解放程序猿双手的良心之作。再往后,基于图数据的分析挖掘是我们后续的研究方向,安全调查人员时常需要看到用户和实体之间的数据关联,或者所谓的Kill-Chain,图数据库和基于Graph的算法天然支持这一点,好在Spark GraphX又替我们做到了这一步。图数据的挖掘我想业界应该没有比Palantir做的更好的了,就是那个号称帮助美军找到*** 的那家传奇数据公司

    作者:菊花茶

    展开全文
  • 基于机器学习用户行为可预测性研究,徐帅,崔鸿雁,针对人类行为的可预测性问题,基于分布式爬虫抓取的二十万Github网站用户贡献行为轨迹数据,在利用XGBoost和随机森林两个机器学习方��
  • 基于机器学习用户行为的室内指纹定位.pdf
  • 型智能电表普及后,为了准确检测出电网中的窃电用户,可以结合机器学习的方法.为此,选择了支 持向量机、随机森林和迭代决策树3种机器学习中较常用的大数据算法进行分析,通过不断调整试验数据集 的大小,对3种算法...
  • 基于大数据和机器学习的微博用户行为分析系统.pdf
  • 机器学习用户行为审计中的应用.pdf
  • 基于机器学习及电商数据预测用户行为.pdf
  • 基于机器学习用户行为异常检测模型.pdf
  • 基于机器学习的Web用户行为认证.pdf
  • 机器学习算法在用户行为中的应用.pdf
  • 基于机器学习技术的网站用户行为预测.pdf
  • 基于改进机器学习算法的电商用户购买预测,胡智超,杨福兴,近年来,电商平台陡增的巨额订单量容易导致快递爆仓,也极大地超过了物流系统的运载能力。本文采用现有的数据挖掘技术分析用户
  • 基于机器学习用户窃电行为预测.pdf
  • 机器学习增强的电子商务平台用户行为预测.pdf
  • 基于机器学习的智能终端用户行为分析研究,周勇帆,唐碧华,移动智能终端的网络数据流量特性在某种程度上可以反映用户的网络访问行为,进而能够体现用户自身的特征。在研究传统网络流量分类
  • 本文使用三种已有的机器学习算法,针对可穿戴传感器采集用户日常行为数据,进行训练和测试等,涉及支持向量机、神经网络和隐藏马尔可夫模型等的研究
  • 基于机器学习的企业私有云用户行为分析模型.pdf
  • 突发事件前Twitter用户言语行为研究:基于机器学习的方法.pdf
  • 数据分析—用户行为分析

    万次阅读 2018-04-17 19:57:58
    电商网站用户购物路径如下:    用户行为分析定义:对用户购物路径日志信息进行统计... 用户行为分析目的:通过对用户行为监测获得的数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而找出网...

     电商网站用户购物路径如下:

       

            用户行为分析定义对用户购物路径日志信息进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。 

            用户行为分析目的通过对用户行为监测获得的数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而找出网站、推广渠道等企业营销环境存在的问题,有助于企业发掘高转化率页面,让企业的营销更加精准、有效,提高业务转化率,从而提升企业的广告收益 

    一下图片来自空白女侠

    重点分析内容:

          * 来源:城市、渠道、页面等;

    * 在平台信息:1.流量,2.顾客,3.销售,4.营销

    分析应用场景:

    一、顾客维度

    拉新:获取新用户,通过用户行为对注册未购、浏览未购的用户进行处理使之成为平台新客

    各种率:订单转化率、二跳率、加车率、支付成功率等,便于运营人员找到问题

    促活:提高用户活跃度,成为平台忠实顾客

    留存:提前发现可能流失用户,降低流失率,(顾客流失预警模型,未购用户触达等)

    变现:发现高价值用户,提高销售效率(可以结合RFM模型一起使用)

    二、流量

    站外:渠道,各站外引流情况和转化情况分布

    站内流量漏斗,通过流量漏斗可以定位流量转化出现问题的购物路径,便于产品改进和优化,站内导航的转化情况

    三、营销:营销活动效果评估

    以上这些数据分析师不仅分析完,还要去跟进分析后的数据变化,来达到数据驱动业务增长的目的。

    展开全文
  • 本文的话题是一个看似简单的行为识别模型给我带来的“惊喜”。为了便于理解,本文对问题进行的简化。本文不涉及用到的理论和方法的详细描述,只是讲述了在解决问题中遇到的问题和收获的知识。模型功能:识别急加速...

    一直想写点东西和大家交流,但是又怕自己才疏学浅,写出的东西让大家笑话,今天突然有感,被笑话也是督促自己进步的途径。

    本文的话题是一个看似简单的行为识别模型给我带来的“惊喜”。

    为了便于理解,本文对问题进行的简化。本文不涉及用到的理论和方法的详细描述,只是讲述了在解决问题中遇到的问题和收获的知识。

    模型功能:识别急加速行为。
    输入:三轴加速计数据x,y,z,采样频率10条/秒;
    输出:是否发生急加速行为。
    应用环境:智能手机

    做为一个受过一点教育的工程师,接到这个任务满心欢喜,So easy(领导一定也这么觉得,So easy)。

    模型方案信手拈来,搜集急加速行为的数据,标记为1,正常驾驶数据标记为0,建个分类模型,搞定!问题来了,数据要怎么搜集呢?整个几台车出去跑,一个人开车,一个人记录?跑10天,20天…,这样也不是不可以,但是没车没人浪费钱啊。于是乎有人提议了,不如众稠吧,于是一个急加速行为识别的应用诞生了,聪明的读者要发问了,急加速行为识别的模型还没有数据呢,应用是怎么诞生的?是的,这就是本文的一个主题,没有数据的情况下如何建立模型。

    没有数据的情况下如何建立模型

    机理+规则。看看输入数据的物理意义,输入和输出之间的关联,定义行为判定规则。三轴加速计数据其实就是三个轴的加速度(三轴分别是横向加速度-y轴、前向加速度-x轴、纵向加速度-z轴)

    急加速时前向加速度会突变,一定程度的突变就是急加速了,哈哈,读到这里估计有的读者也会觉得不就这么简单吗,这不就是一个信号突变检测吗,检测出来前向加速度突变,定了程度就完事了。大家不要忘了,我们的应用环境是手机啊,手机坐标系和车辆坐标系重合时(手机的x、y、z轴和车辆的x、y、z轴重合)前向加速度突变才是急加速。那你做一下坐标变换就好了,嗯,我也是这么想的。通过旋转坐标变换,将手机的数据变换到车辆的坐标系,变换后的y轴数据突变就是急加速行为,于是乎,数据经过旋转矩阵的转啊转,终于和车辆坐标系重合了。数据搜集硬件也是各种电路吧,会有高频干扰,导致信号突变,加个滤波功能,选小波滤波还是滑动窗口滤波呢(就知道他俩),小波变换可以去除高频噪音,我们这个数据搜集频率就10HZ,还是选滑动窗口滤波。一个滤波+旋转坐标变换的数据变换功能实现了,小小的成就感。

    可爱的队友将第一版模型集成到手机,检测结果的提示音相当刺耳,一拿起手机就响,嗯嗯,竟然忽略了如此频繁的场景。要怎么规避使用手机场景的误判呢?使用手机时手机在手里,没有使用手机时手机在车上,车应该比手抖得厉害吧(暂时不考虑手抖的用户了),于是万能的小波分析有派上了用场。在现有模型基础上增加了一层小波分析,又兴致勃勃地拿给队友测试,玩手机不误报了哎,好开心。

    看似问题已经解决了,其实并不然,经过测试发现,模型只适用于抗干扰性较好的硬件,然而不同手机抗干扰性差异很大,真的有很不靠谱的硬件啊,自己抽风发抖的,我们又增加了数据源,设计了相应的算法,这里不再赘述了,结论是好手机的用户是我们的好朋友,破手机的用户我们也尽力了(信号分析的方法本人已经技穷了,有高手还希望多多指点)。还有一个问题,几乎每个客户都会问我,加速什么程度算急加速,这个值你们是怎么确定的,说我自己定的,我不够权威,说看别人论文定的,好像自己很Low,技穷。

    总结一下本节,有的时候确实需要我们在没有数据的时候做模型,其实大家都不想这样,但是没办法,机理模型、信号分析、专家规则等可以帮助我们过渡这个困难的时期,注意不是渡过。

    有一点数据的情况下如何建立模型

    经过上面的努力,依然存在没有解决和没有答案的问题,于是乎我们觉得,还是需要一点数据做支撑的,拉着我们组的大哥,搜集了一点点急加速行为数据,实在是太珍贵了,向上采样将数据扩充了几倍,进行了均匀处理,在时域和频域对数据进行特征提取,运用机器学习分类模型进行分类;于是乎,数据的可贵映入眼帘。与之前的信号分析方法相比,特征提取环节提取的特征更加丰富,特征的有效性具有可检测性,就是得试来试去,及其费体力,虽然也有各种各样的选择方法,什么熵增、与因变量关联关系、降维,但依然费体力。与此同时,什么程度的加速是急加速的问题也得到了一定程度上的解决,和我们采集的急加速行为有一定相似度的就是了,这样好像比阈值方法高明一点吧。估计大家又要发问了,你之前为什么不这么做,因为我没有想到硬件差异会这么大,还有就是之前提到的没车没人没钱啊。

    一次和别人的合作,让我有幸接触到了Tensoflow、卷积神经网络,顿时感觉,这东西好啊,完全省去了特征提取的体力活了,把输入准备好,调参,期待完美的输出吧。卷积神经网络在图像领域表现突出,通过卷积、池化、连接实现对图像的特征提取和分类。图像可以表示成三维数组,而我们的输入数据属于时域信号,这个输入该如何构造呢?博士运用手机检测碰撞的模型思路,将时域信号构造成满足Tensorflow-CNN输入结构,按照同样的方法进行尝试,果然省时省力啊。经过深入研究CNN,感觉博士构造输入数据结构和网络结构的方式,只能实现对每个变量的单独特征提取,到最后的全连接层才能融合所有输入特征,能不能在构造输入时能够使卷积实现不同变量之间的特征提取呢?因为再对图像进行特征提取时就是邻近区域的特征提取;那么CNN是否支持多输入呢?之前研究过Siamese网络就是多输入的,那么通过构建不同的输入,融合一些先验的信息,来减少网络深度,降低模型的复杂度是否可行呢,我还没有验证啊,感觉应该可行的,有兴趣的读者可以尝试啦。有的读者该发问了,深度学习不就是用深度网络来提升分析的准确性吗?你这是倒退了。但是我并不觉得这是倒退了,我们解决问题的宗旨永远都是用最少的投入获得最大的产出,现实并没有您想象的那么完美,数据足够多、足够全、资源随便用是不现实的,当我们有一些先验知识有助于降低对数据的需求、对资源的需求就要把这些知识融入到模型。

    数据的价值在于它蕴含的信息和知识,而先验的知识有助于降低对数据的需求,我不赞同那些抛弃机理盲目追求数据的主张,大家对数据太迷恋了,就像我的老公,一个画配电图的都觉得不懂点大数据都不好意思出门,不得不说,大数据的宣传绝对是成功的。我的意思并不是数据不重要,看到我前面的分析也能感受到数据是重要的,但是数据应该是针对我们解决的问题搜集的数据才有价值。总是看到报导称大部分大数据产品都是伪价值,究其原因各个领域的大数据并没有发展到可以产生价值的阶段,好多行业的现状是,觉得数据有价值,然后随随便便的搜集着,最后交给数据分析师说,你去挖掘一下数据的价值,最后结论往往都是数据分析师水平不行~~,哈哈,我想说如果真的想做大数据就找个领域数据分析专家好好规划一下。

    有的时候条件确实是艰苦的,就像创业一样,只有让投资者感受到价值他们才愿意掏钱。先创立一个新方向的时候,就是需要我们从零开始,从一无所有开始解决问题,但是知识和经验就是在磨练中积累,喝下这碗鸡汤吧。

    之后我会对工作中遇到的问题,学到的知识进行总结,和大家交流,希望大家能够多多指教。

    写博客的目的是学习的总结和知识的共享,如有侵权,请与我联系,我将尽快处理

    展开全文
  • 机器学习(概述一)——定义

    万次阅读 2019-05-28 16:18:17
    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要...


    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

    何谓机器学习

    那究竟何谓机器学习呢?在给概念之前先来看几张图,看看不同人对机器学习的认识:

    不同人的认知

    What society thinks I do

    What society thinks I do


    What my friend thinks I do

    What my friend thinks I do


    What my parents thinks I do

    What my parents thinks I do


    thinks I do

    What other programmers thinks I do


    What I thinks I do

    What I thinks I do


    What I really do

    What I really do

    可见,不同人对机器学习的认识截然不同。正所谓外行看热闹,内行看门道,就像最后一张图,看似高大上的内容,在功能实现上,可能就需要一两行代码。

    与人类认知过程的对比

    而真实的机器学习,其实跟人的认知过程是样的:
    人的认知过程

    人的认知过程

    人们通过所经历事总结出规律,当遇到新的问题时,就可以运动规律就进行判断或预测。你的阅历越丰富,你可能会走得越远。想到韩雪说过的一句话:“喜欢看过世界的男生,不喜欢对世界还蠢蠢欲动的男生”。

    而机器学习的基础是数据,通过对历史数据总结出规律(这个规律在机器学习中叫模型,总结的过程用到的是算法),当遇到新数据时,就可以模型进行预测:
    机器学习的原理

    机器学习的原理

    基本定义

    通过上面的大概认真,现在给出机器学习的基本定义:

    Machine Learning(ML) is a scientific discipline that deals with the construction and study of algorithms that can learn from data.

    机器学习是一门从数据中研究算法的科学学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。就像上面说的,直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测。

    基本概念

    在这里插入图片描述
    可看出,跟我们初高中学的函数是一样的,就是通过一些手段进行训练找到这个函数 g(也就是模型),当有新数据 x 时,代入函数 g 就可以得到 y 。(当然这里是以有监督学习为例说的,毕竟机器学习主要还是以有监督学习为主;对于无监督学习相当于只有 x ,没有 y

    比如说预测房价,我们根据房源的一些信息,通过机器学习的算法,得到一个函数 g ,当有一个新的房源,代入到函数中,就可以得到它的房价。

    因为真实的目标函数 f 是未知的无法得到的,根本不可能通过机器学习找到这个完美的函数 f,我们只是找到了一个假设公式 g ,通过机器学习算法达到的最优假设,使其非常接近目标函数 f 的效果。
    机器学习的目标

    机器学习的目标

    模型的好坏,需要进行评估(评估相关的内容,下一篇文章会进行介绍),效果不好话,需要再次进行训练。随着训练次数的增加,该系统可以在性能上不断学习和改进。

    算 法
    模 型
    评 估

    机器学习能用来干吗

    • 个性化推荐:个性化指的是根据各种因素来改变用户体验和呈现给用户内容,这些因素可能包含用户的行为数据和外部因素;推荐常指系统向用户呈现一个用户可能感兴趣的物品列表。比如刷抖音,我们会发现,怎么某些类型(像美食)的内容特别多呢?其实就是根据你的操作数据(点赞量、评论量、转发量、完播率等),认为你可能对美食等类型的内容感兴趣,因此会更多的推荐相关的内容。
    • 精准营销:从用户群众中找出特定的要求的营销对象。
    • 客户细分:试图将用户群体分为不同的组,根据给定的用户特征进行客户分组。比如你打算去银行贷款,银行会根据你的个人信息、信用卡使用情况等判断你是否有还款能力,决定是否贷给你钱。
    • 预测建模及分析:根据已有的数据进行建模,并使用得到的模型预测未来。
    • 当然,机器学习还能做一些听起来更高大上的事:
      机器学习的使用场景
      机器学习的使用场景

    机器学习的常见应用框架

    因为常用的算法都封装好,多数情况下使用相应的框架就能实现,很少有自己手写某某算法。就像文章开始时“What I really do”的那张图,我们想使用SVM(一种机器学习算法)这个算法,只需引入进来即可。

    • sciket-learn
      scikit-learn(简记sklearn),是用python实现的机器学习算法库。sklearn可以实现数据预处理、分类、回归、降维、模型选择等常用的机器学习算法,并且易于安装与使用。sklearn是基于NumPy, SciPy, matplotlib的。一般用于相对小规模数据量的。
      网址:http://scikit-learn.org/stable/

    scikit-learn algorithm cheat-sheet

    scikit-learn algorithm cheat-sheet

    • Mahout
      Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,使用了Taste来提高协同过滤算法的实现,它是一个基于Java实现的可扩展的,高效的推荐引擎。Mahout提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。主要用于大规模数据量。(没用过这个,就从其他地方抄来的这段话)
      网址:http://mahout.apache.org/

    • Spark MLlib
      MLlib是Spark的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。主要用于大规模数据量。(没用过这个,同样也从其他地方抄来的这段话)
      网址:http://spark.apache.org/mllib/

    机器学习的分类

    机器学习有多种分类角度,像什么基于学习策略的分类、基于所获取知识的表示形式分类、基于应用领域分类等等。这里只提两种比较觉的分类:

    基于学习形式分类

    1. 有监督学习
      在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。
      监督学习一般使用两种类型的目标变量 :标称型(也叫离散型)和数值型(也叫连续型)。标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合 { 爬行类、鱼类、哺乳类、两栖类 } ;数值型目标变量则可以从无限的数值集合中取值,如 0.100、42.001、1000.743 等。数值型目标变量主要用于回归分析。
      有监督学习根据生成模型的方式又可分为判别式模型生成式模型
      1.1 判别式模型:直接对条件概率p(y|x)进行建模,常见判别模型有线性回归、决策树、支持向量机SVM、k近邻、神经网络等;
      1.2 生成式模型:对联合分布概率p(x,y)进行建模,常见生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。
      生成式模型更普适;判别式模型更直接,目标性更强。
      生成式模型关注数据是如何产生的,寻找的是数据分布模型;判别式模型关注的数据的差异性,寻找的是分类面。
      由生成式模型可以产生判别式模型,但是由判别式模式没法形成生成式模型。

    2. 无监督学习
      监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
      与有监督学习“对于输入数据 X 能预测变量 Y”不同的是,这里要回答的问题是 :“从数据 X 中能发现什么?” 这里需要回答的 X 方面的问题可能是 :“构成 X 的最佳 6 个数据簇都是哪些?”或者“X 中哪三个特征最频繁共现?”
      无监督学习试图学习或者提取数据背后的数据特征,或者从数据中抽取出重要的特征信息,常见的算法有聚类、降维、文本处理(特征抽取)等。
      无监督学习一般是作为有监督学习的前期数据处理,功能是从原始数据中抽取出必要的标签信息。

    3. 半监督学习
      考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,是有监督学习和无监督学习的结合。
      主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
      缺点:抗干扰能力弱,仅适合于实验室环境,其现实意义还没有体现出来;未来
      的发展主要是聚焦于新模型假设的产生。

    基于目的分类

    1. 分类
      通过分类模型,将样本数据集中的样本映射到某个给定的类别中
    2. 聚类
      通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大
    3. 回归
      反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
    4. 关联规则
      获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。

    分类和回归属于有监督学习,而聚类和关联规则属于无监督学习:

    • 回归与分类的不同,就在于其目标变量是连续数值型。
    • 聚类就是将相似项聚团,关联分析可以用于回答“哪些物品经常被同时购买?”之类的问题。

    机器学习中的十大经典算法

    算法名称算法描述
    C4.5分类决策树算法,决策树的核心算法,ID3算法的改进算法
    CART分类与回归树(Classification and Regression Trees),决策树的变种,可做回归
    kNNK近邻分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别,那么该样本也属于该类别。简单来说就是:近朱者赤,近墨者黑
    NaiveBayes贝叶斯分类模型;一般用于文本数据,要求属性(特征)间相关性小,如果相关性大的话,用决策树更好(原因:贝叶斯模型假设属性之间是互不影响的)
    SVM支持向量机,一种有监督学习的统计学习方法,广泛应用于统计分类和回归分析中
    EM最大期望算法,常用于机器学习和计算机视觉中的数据集聚领域
    Apriori关联规则挖掘算法
    K-Means聚类算法,是最大似然估计上的一个提升,功能是将n个对象根据属性特征分为k个分割(k<n),属于无监督学习
    PageRankGoogle搜索重要算法之一,其实和机器学习关系不是很大
    AdaBoost迭代算法;利用多个分类器进行数据分类

    说明
    以上十个是基础,更基础的是线性回归。
    SVM转换一下就是感知器,感知器变换一下就是逻辑回归,逻辑回归再变换一下就是线性回归。
    深度学习最基础的是神经网络,神经网络最基础的是神经元,神经元就是感知器。深度学习的总体思想和AdaBoost类似。
    HMM 和EM有些相似。
    ……

    补充

    术语

    拟合:构建的算法符合给定数据的特征
    鲁棒性:也就是健壮性、稳健性、强健性,是系统的健壮性;当存在异常数据的时候,算法也会拟合数据
    过拟合:算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合
    欠拟合:算法不太符合样本的数据特征
    三种数据形式:标量向量矩阵
    在这里插入图片描述
    x ( i ) x^{(i)} x(i):表示第 i 个样本的 x 向量;
    x i x_{i} xix 向量的第i维度的值。

    关系

    1. 数据分析、数据挖掘、机器学习
      数据分析:是指用适当的统计分析方法对收集的大量数据进行分析,并提取有用的信息,以及形成结论,从而对数据进行详细的研究和概括过程。在实际工作中,数据分析可帮助人们做出判断;数据分析一般而言可以分为统计分析、探索性数据分析和验证性数据分析三大类。简单来说:有目的性,特别明确
      数据挖掘:一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。通常通过统计、检索、机器学习、模式匹配等诸多方法来实现这个过程。简单来说:面对大量数据,不知有什么信息,没什么方向目的
      机器学习:是数据分析和数据挖掘的一种比较常用、比较好的手段

    2. 人工智能、机器学习、深度学习
      在这里插入图片描述

      AI ML DL 三者的关系

    一张图已经能很好的说明问题了。但随着深度这两年的火爆发展,现在一些内容已不属于机器学习的范畴了,如迁移学习。

    总结

    本文主要是机器学习中的一些概念内容,比较基础,好多内容也仅仅是一带而过。下一篇介绍机器学习的开发流程。

    展开全文
  • 机器学习实践应用

    万次阅读 多人点赞 2018-04-12 10:04:41
    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为机器学习是人工智能的核心,是使计算机具有 智能的根本途径。 本书通过对...
  • 机器学习7个主要领域

    万次阅读 2019-06-13 08:24:58
    机器学习是识别隐藏在数据中的可能性并将其转化为完全成熟机会的技术。巧合的是,机会是促进业务运营并在竞争对手中脱颖而出的因素。 了解机器学习算法如何应用于各个领域以获得可带来合法业务优势的结果至关重要。...
  • 当然了,截止到目前,机器学习中尚没有出现一个明确称之为“去中心化机器学习”的专用名词,但是意思相近的概念是有的,譬如说分布式,这也算是去中心化的近义词了,机器学习就有“分布式机器学习”,而且已经是个老...
  • 而这类问题正是机器学习所能够解决的。 传统上来讲,计算机编程指在结构化的数据上执行明确的程序规则。软件开发人员动手编写程序,告诉计算机如何对数据执行一组指令,并输出预期的结果,如图1-1所示。这个过程与...
  • ​ UEBA用户实体行为分析,更多UEBA相关概念参考《UEBA白皮书》 UEBA的核心点 1.跨越SIEM/ROC产品,UEBA产品考虑更多的数据源。 ​ 从网络设备、系统、应用、数据库和用户处收集数据,有更多的数据,是其成功的...
  • 距离上次介绍机器学习相关的内容,已经过了一年的时间了,而这篇博客目前的阅读量也将近3000k,这样数据看起来似乎也还算不错,可惜因为我当时没有足够的时间和精力去完整把这篇博客写完,只介绍了机器学习的基础...
  • 机器学习实战》总结篇

    千次阅读 2019-07-17 09:02:37
    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识...
  • 机器学习和深度学习概念入门

    万次阅读 多人点赞 2017-06-03 11:27:28
    作者:谭东  对于很多初入学习人工智能的... 人工智能包括了机器学习机器学习包括了深度学习,他们是子类和父类的关系。  先看什么是人工智能。人工智能(Artificial Intelligence),英文缩写为AI。是计算机

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 118,020
精华内容 47,208
关键字:

机器学习用户行为