精华内容
下载资源
问答
  • 摘自网络,版权归作者所有。 1. 机器学习为什么要使用概率 2. 概率学派和贝叶斯学派 3. 何为随机变量和何又为概率分布? 4. 条件概率,联合概率和全概率公式: 5. 边缘概率 6. 独立性和条件独立性 ...
  • 数据挖掘之基本数学知识

    热门讨论 2011-10-31 14:35:44
    数据挖掘用到的基础数学知识,主要是向量和线性代数
  • 数据挖掘相关基础数学知识

    千次阅读 2018-07-25 17:11:58
    最早在物理学里使用,表示速度、力等有大小和方向的,后引申到数学。与标量对应,标量只有大小。 复数:对实数的扩充,为了表示x^2=-1的解的标注。 ||w|| 范数,w数组值平方的开平方(标准差?)。 ...

    函数可导的?

    满足3个条件:
    1)x点函数有值
    2)x附近范围内函数是连续的
    3)x的左(x减小一点点)、右(x增大一点点)导数是相同的
    

    偏导数
    partial derivative(直译部分导数),对多元方程求导,因为增加了自变量求导难度变大。为了简化求导,把除一个变量外的其他变量都看做常量求导。
    已z=x^2+2xy+y^2为例,z关于x的偏导=2x+2y;z关于y的偏导=2y+2x。
    几何意义,上例的方程是一个三维曲面,一个点在不同的角度有不同的变化率。偏导就是考察在x不变(或y不变)情况下变化率。即垂直于x轴切面曲线的导数。
    p’Lp/p’w : p’表偏导数;Lp表函数;即综合起来是Lp关于w的偏导数。

    梯度:

    多元函数,各个参数的偏导数的向量表示,就是梯度。
    就是在不同方向的变化率(貌似对上了!) 
    

    凸函数:

    二阶导函数>0,则该函数为凸函数。二阶导数是变化率的变化率,只要>0,则表示增加的速度是更快的。        
    几何意义,f(x)在[a,b]上有定义,f(x1)+f(x2)>=2f((x+y)/2),即连线f(x1)、f(x2),函数的所有点在连线一下。
    

    法线、法向量

    法线:平面的垂直线;如果是曲线,则是曲线上点切线的垂直线。
    法向量:法线上的向量。
    向量:有大小、有方向的线段。最早在物理学里使用,表示速度、力等有大小和方向的,后引申到数学。与标量对应,标量只有大小。
    复数:对实数的扩充,为了表示x^2=-1的解的标注。
    

    ||w||

    范数,w数组值平方的开平方(标准差?)。
    

    梯度下降法

    &:梯度:就是函数某点的斜率,微分的概念。
    梯度下降法的原理:就是不知道全局最优路线,但基于当前点选择最陡峭的方向(斜率)前进一步,然后在新点在迭代进行,知道函数值变化不大,说明已经到了一个至少局部极点。
    y=x^2用梯度下降法求极值,初始点(1,1),步长0.4
    y’=2x。
    step1 1,1
    step2 x2=1-0.4*(2*1)=0.2 (0.2,0.04)
    step3 x3=0.2-0.4*(2*0.2)=0.04 (0.04,0.0008), 进阶0.04-0.0008=0.0392
    step4 x4=0.04-0.4*(2*0.04)=0.008 (0.008,0.000064) 进阶0.0032-0.000064=0.003136
    越逼近(0,0),变化越小,说明已经逼近极值。

    凸优化问题?

    &:凸优化问题:目标函数是凸函数。同时满足:值域连续、约束条件函数也是凸函数。
       凸函数:函数上的任意2点划线,直线都在函数之上。
       为什么是否是凸优化很重要:凸函数表示可以找到全局最优解,同时凸函数最优有很多成熟的方法。是凸优化,即意味着可以找到最优解。
    

    拉格朗日乘数法?

    &:用来求解有等式限定条件的最优问题。把函数和限定条件整合到一个函数,然后分别求偏导数。
       在极值点,任何偏导数=0。顾得到n个方程式,然后带入就可以求得极值。
       eg:一根绳子长4米,折成矩形,如何面积最大?
       函数f(x,y)=xy,等值限定x+y=2,转换成g(x,y)=x+y-2=0,
       合并函数,l(x)=xy+n(x+y-2)
       x'l(x)=y+n=0
       y'l(x)=x+n=0
       n'l(x)=x+y-2=0
       转换成3个方程组,解的n=-1,y=1,x=1。即maxf(x,y)=xy=1*1=1。
    

    超平面

    简单例子:在3维空间里,2个维就确定一个平面;平面中的直线、空间中的平面都是例子。
    维度大于3才能成为超平面。      
    
    展开全文
  • 摘要:数据挖掘知识清单,分别是数据挖掘的基本流程、十大算法和数学原理. 一、数据挖掘的基本流程. 数据挖掘的过程可以分成以下 6 个步骤。 1.商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,...

    摘要:数据挖掘的知识清单,分别是数据挖掘的基本流程、十大算法和数学原理.
    一、数据挖掘的基本流程.
    数据挖掘的过程可以分成以下 6 个步骤。
    1.商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
    2.数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
    3.数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
    4.模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
    5.模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
    6.上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。
    二、数据挖掘的十大算法.
    为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。按照不同的目的,可以将这些算法分成四类。
    l 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
    l 聚类算法:K-Means,EM
    l 关联分析:Apriori
    l 连接分析:PageRank

    1.C4.5 算法是得票最高的算法,可以说是十大算法之首。C4.5 是决策树的算法,它创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理。它可以说是决策树分类中,具有里程碑式意义的算法。
    2.朴素贝叶斯(Naive Bayes)模型是基于概率论的原理,它的思想是这样的:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于哪个分类。
    3.SVM 的中文叫支持向量机,英文是 Support Vector Machine,简称 SVM。SVM 在训练中建立了一个超平面的分类模型。
    4.KNN 也叫 K 最近邻算法,英文是 K-Nearest Neighbor。所谓 K 近邻,就是每个样本都可以用它最接近的 K 个邻居来代表。如果一个样本,它的 K 个最接近的邻居都属于分类 A,那么这个样本也属于分类 A。
    5. AdaBoost 在训练中建立了一个联合的分类模型。boost 在英文中代表提升的意思,所以 Adaboost 是个构建分类器的提升算法。它可以让我们多个弱的分类器组成一个强的分类器,所以 Adaboost 也是一个常用的分类算法。
    6. CART 代表分类和回归树,英文是 Classification and Regression Trees。像英文一样,它构建了两棵树:一棵是分类树,另一个是回归树。和 C4.5 一样,它是一个决策树学习方法。
    7. Apriori 是一种挖掘关联规则(association rules)的算法,它通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系,被广泛应用到商业挖掘和网络安全等领域中。频繁项集是指经常出现在一起的物品的集合,关联规则暗示着两种物品之间可能存在很强的关系。
    8. K-Means 算法是一个聚类算法。比如想把物体划分成 K 类。假设每个类别里面,都有个“中心点”,即意见领袖,它是这个类别的核心。现在我有一个新点要归类,这时候就只要计算这个新点与 K 个中心点的距离,距离哪个中心点近,就变成了哪个类别。
    9. EM 算法也叫最大期望算法,是求参数的最大似然估计的一种方法。原理是这样的:假设我们想要评估参数 A 和参数 B,在开始状态下二者都是未知的,并且知道了 A 的信息就可以得到 B 的信息,反过来知道了 B 也就得到了 A。可以考虑首先赋予 A 某个初值,以此得到 B 的估值,然后从 B 的估值出发,重新估计 A 的取值,这个过程一直持续到收敛为止。EM 算法经常用于聚类和机器学习领域中。
    10.PageRank 起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强。同样 PageRank 被 Google 创造性地应用到了网页权重的计算中:当一个页面链出的页面越多,说明这个页面的“参考文献”越多,当这个页面被链入的频率越高,说明这个页面被引用的次数越高。基于这个原理,我们可以得到网站的权重划分。
    三、数据挖掘的数学原理.
    1.概率论与数理统计.在数据挖掘里使用到概率论的地方就比较多了。比如条件概率、独立性的概念,以及随机变量、多维随机变量的概念。很多算法的本质都与概率论相关,所以说概率论与数理统计是数据挖掘的重要数学基础。
    2.线性代数.向量和矩阵.是线性代数中的重要知识点,它被广泛应用到数据挖掘中,比如经常会把对象抽象为矩阵的表示,一幅图像就可以抽象出来是一个矩阵,也经常计算特征值和特征向量,用特征向量来近似代表物体的特征。这个是大数据降维的基本思路。基于矩阵的各种运算,以及基于矩阵的理论成熟,可以帮解决很多实际问题,比如 PCA 方法、SVD 方法,以及 MF、NMF 方法等在数据挖掘中都有广泛的应用。
    3.图论.社交网络的兴起,让图论的应用也越来越广。人与人的关系,可以用图论上的两个节点来进行连接,节点的度可以理解为一个人的朋友数。当然图论对于网络结构的分析非常有效,同时图论也在关系挖掘和图像分割中有重要的作用。
    4.最优化方法.最优化方法相当于机器学习中自我学习的过程,当机器知道了目标,训练后与结果存在偏差就需要迭代调整,那么最优化就是这个调整的过程。一般来说,这个学习和迭代的过程是漫长、随机的。最优化方法的提出就是用更短的时间得到收敛,取得更好的效果。
    总结:
    在这里插入图片描述

    展开全文
  • 能说出数学的名称就是了,例如应用统计学、数学建模什么的。当然了回答者如果能给出除了学习数学还需要学什么专业知识的回答就更加感谢了
  • 本文不对数据挖掘的具体数学知识做全面的总结,根据网路上前辈的理解,对其需要的数学方面的知识做一个一般性的总结。 引言 数据挖掘,是指从大量数据中获取隐含的、潜在的是有价值信息的过程,是近年来计算机领域...

     本文不对数据挖掘的具体数学知识做全面的总结,根据网路上前辈的理解,对其需要的数学方面的知识做一个一般性的总结。

    引言

    数据挖掘,是指从大量数据中获取隐含的、潜在的是有价值信息的过程,是近年来计算机领域火热的研究内容。

    数据挖掘方法在游戏工业领域最初的应用,常常是游戏中的人工智能的开发。例如游戏中的电脑对手,对战类游戏的天梯系统,游戏开发时的关卡自动生成器。这些功能对应着数据挖掘方法中的专家系统、机器学习、模式识别、自然语言理解、自动定理证明、自动程序设计、机器人学、博弈、人工神经网络等。

    事实上,数据挖掘的方法本质上就是人工智能的方法,数据挖掘的出现是人工智能发展史上具有重大意义的事件。传统人工智能的研究在20世纪末期事实上进入了一个低谷,这是因为20世纪80年代初,美国、欧洲和日本制定的一批针对人工智能的大型项目都面临了重重困难:一是所谓的交叉问题,即传统方法只能模拟人类深思熟虑的行为,而不包括人与环境的交互行为;二是所谓的扩展问题,即传统人工智能方法只适合于建造领域狭窄的专家系统,不能把这种方法简单地推广到规模更大、领域更宽的复杂系统中去。以上两个根本性问题使人工智能研究进入低谷。而数据挖掘的出现使人们又重新看到了人工智能的希望。 原因就在于数据挖掘方法将人工智能方法带进了广域数据集中,突破了专家系统的限制。

    在最近的研究中,游戏行业的研究者们更多地使用数据挖掘方法去分析用户行为,从而进行更精准的商业方案定制。一方面这是因为资本的逐利性使然,现代游戏开发已经走进了一个不断推升制作成本和玩家期望之间的循环,高额的开发费用已经使很多游戏公司不堪重负。另外一方面,大数据时代的数据采集,令大量用户行为成为保存在服务器端的数据,令我们有能力进行分析与研究。通过数据挖掘方法,我们可以做到对游戏用户行为进行建模,并进行自动程序设计。典型的应用例如分析玩家行为和动机,探寻在线角色扮演游戏中的玩家社交群体的变化,识别玩家人物和公会的命名模式,检测游戏玩家感到沮丧的原因,揭露游戏中玩家的社会关系。

    数据挖掘过程中相关的主要数学领域

    面对复杂数据,数据挖掘的基本流程是:

    1,数据预处理:首先对原始数据进行填补遗漏、消除异常、平滑噪声,数据变换等处理,提高数据挖掘的有效性和准确性。

    2,模型的构建,使用专门的算法对原始数据进行归纳抽象,去掉取之过多且不均匀的属性和概念层次树中不存在的属性,最终得到一个关系模型。当新的数据加入数据集中时,可以根据该关系模型决定新数据的分类和处理模式。同时,新数据也将带来对整体模型的变化,数据和模型处于动态对应的状态。

    从以上过程中可以明显感到,所谓数据挖掘,就是一个典型的数学建模过程。当然,这里已经有较为成熟的工具、方法和理论。例如,统计机器学习所需要的主要理论和技术:泛函分析、逼近论与测度论、统计理论、VC维理论、覆盖数、描述长度理论与算法复杂度研究、核方法、非线性规划技术、几何变换。下文简要介绍涉及的数学学科。

    数学建模的过程就是一个构建系统的过程,这里有简单的系统(无反馈的),例如逻辑回归,SVM等 和复杂的系统(带反馈调节的),例如神经网络等。但是无论哪种系统,其本质都是一个抽象出概率密度函数来对数据进行拟合的过程。

     下边分析下数据挖掘或者机器学习经常要用到的数学知识。

    1. 线性代数和统计学

    在这个建模过程中,基础是两大数学学科:线性代数和统计学。这代表了机器学习中最主流的两大类方法的基础。

    一种是以研究函数和变换为重点的代数方法,比如降维,特征值提取等

    一种是以研究统计模型和样本分布为重点的统计方法,比如图模型、信息理论模型等。

    它们侧重虽有不同,但是常常是共同使用的,对于代数方法,往往需要统计上的解释,对于统计模型,其具体计算则需要代数的帮助。以代数和统计为出发点,继续往深处走,我们会发现需要更多的数学。传统的统计学所研究的主要是渐进理论(大样本情况下的统计性质),而样本数目通常有限(甚至还十分有限)。人们过去一直采用样本数目无穷为假设条件推导各种算法,然后将算法用于样本较小的情况,希望能有较好的效果,然而,算法往往不令人满意。由此,人们提出了学习的推广能力(泛化能力)的重要问题。过去多数工作集中在对大样本统计学习方法的改进和修改,或利用启发式方法设计特殊算法。

    2、微积分

    微积分只是数学分析体系的基础。其基础性作用不言而喻。机器学习研究的大部分问题是在连续的度量空间进行的,无论代数还是统计,在研究优化问题的时候,对一个映射的微分或者梯度的分析总是不可避免。

     

    3、泛函分析

    泛函分析体现了数学模型从特殊到一般的发展过程。

    函数在19世纪前期的定义还是数与数的对应关系,空间的概念也只有欧几里德空间。十九世纪以来,数学的发展进入了一个新的阶段。这就是,由于对欧几里得第五公理的研究,引出了非欧几何这门新的学科;对于代数方程求解的一般思考,最后建立并发展了群论;对数学分析的研究又建立了集合论。这些新的理论都为用统一的观点把古典分析的基本概念和方法一般化准备了条件。泛函分析作为数学分析的分支,将函数扩展到函数与函数之间的关系,乃至任意两个集合之间的关系,空间则从有限维空间拓展到无限维空间。

    在这个地方,函数以及其所作用的对象之间存在的对偶关系扮演了非常重要的角色。机器学习发展至今,也在向无限维延伸——从研究有限维向量的问题到以无限维的函数为研究对象。SVM中用到的内核学习和以及高斯过程是其中典型的例子。

     

    4、测度理论

    这是和实分析关系非常密切的学科。概率本身就是一种测度。测度理论对于机器学习的意义是根本的,现代统计学整个就是建立在测度理论的基础之上——虽然初级的概率论教科书一般不这样引入。在一些统计方面的文章中它们会把统计的公式改用测度来表达,这样做有两个好处:所有的推导和结论不用分别给连续分布和离散分布各自写一遍了,这两种东西都可以用同一的测度形式表达:连续分布的积分基于Lebesgue测度,离散分布的求和基于计数测度,而且还能推广到那种既不连续又不离散的分布中去。而且,即使是连续积分,如果不是在欧氏空间进行,而是在更一般的拓扑空间(比如微分流形或者变换群),那么就不能使用传统的黎曼积分了,需要使用,比如哈尔测度或者Lebesgue-Stieltjes积分。

     

    5、拓扑学

    这是学术中很基础的学科。它一般不直接提供方法,但是它的很多概念和定理是其它数学分支的基石。看很多别的数学的时候,会经常接触这样一些概念:开集,闭集,连续函数度量空间,柯西序列,邻接性,连续性。很多这些也许在大学一年级就学习过一些,当时是基于极限的概念获得的。但是看过拓扑学之后,对这些概念的认识会有根本性的拓展。值得一提的是,计算机学科的基础布尔代数与拓扑学有重要的联系。

     

    6、图论

    图,由于它在表述各种关系的强大能力以及优雅的理论,高效的算法,越来越受到数据挖掘领域的欢迎。而从目前我所接触的范围内,图论仅在数据结构这门课中提到过。经典图论,在数据挖掘领域中的一个最重要应用就是图模型了,它被成功运用于分析统计网络的结构和规划统计推断。例如,分析社交网络的用户关系,常用邻接链表和邻接矩阵综合表示。在遍历时也离不开深度优先和广度优先算法。

    转载于:https://www.cnblogs.com/uestc020907/p/7441302.html

    展开全文
  • Data Mining and Knowledge Discovery(简称:DMKD)中文名字:数据挖掘知识发现01主成分分析与可视化展示 主成分分析 (PCA, principal component analysis)是一种数学降维方法, 利用正交变换 (orthogonal ...
  • 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。 利用了如下领域的思想: 1)来自统计学的抽样,估计和假设检验 2)人工智能,模式识别和机器学习的搜索算法,建模技术和学习理论 3)最优化,进化...
  • EM 算法推论和相关数学知识1.1. Describe1.2. Theory1.2.1. 先验概率&后验概率1.2.2. 极大似然估计/条件概率 (通过原因求结果)1.2.3. Jensen不等式1.2.4. 联合概率密度&边缘概率密度1.2.5. 数学期望相关...
  • 数据挖掘和数据分析的不同之处: 在应用工具上,数据挖掘一般要通过自己的编程来实现...数据挖掘更多的是注重技术层面的结合以及数学和计算机的集合 数据挖掘和数据分析的相似之处: 数据挖掘和数据分析都是对
  • 六、【案例分享】 这章《估计》理论知识是比较玄乎,实际如何运用,我们可以拿一个案例出来举例。以下是数据下载地址: https://pan.baidu.com/s/1W7o3ahpcOBzu31dIQRVpeQ 密码:az2t
  • 关于数据挖掘相关知识汇集

    千次阅读 2015-05-09 16:06:19
    数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。注意每一分
  • 一名普通的IT工程师要跨入商业分析、数据科学或者数据挖掘领域,他必须学习或复习哪些基本的数学知识。基础代数,函数,集合理论,绘图,几何学让我们从最基础的内容开始。现代数学的大厦是建立在一些基本内容如集合...
  • 在上一篇文章中我们给大家讲述了数据挖掘知识以及数据挖掘需要的数学基础,当然了,数据挖掘只靠统计学是远远不够的,还需要微积分、泛函分析以及测度理论等等知识,下面我们就给大家讲述一下这些内容。...
  • 在学习数据挖掘的时候,我们一定要掌握一些数学基础,毕竟数据挖掘中涉及到了很多的算法。说到这里我们要给大家说一说数据挖掘的概念,数据挖掘就是从大量数据中获取隐含的、潜在的是有价值信息的过程,数据挖掘也是...
  • 当然,如果能够掌握数学基础知识,那么在数据挖掘工作中一定会轻松不少,这也正是数据挖掘工作需要掌握的基础层级的知识。关于数据挖掘需要的数学基础我们给大家介绍了不少,下面我们就给大家介绍剩余的内容。 首先...
  • 文章目录数据挖掘numpy中需要学习的线性代数知识x.dotnp.dot@符numpy.linalg常用的numpy.linalg函数 数据挖掘numpy中需要学习的线性代数知识 线性代数(如矩阵乘法、矩阵分解、⾏列式以及其他⽅阵数学 等)是任何...
  • 数据挖掘与数据分析

    2021-02-26 02:34:31
    数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点...数据挖掘更多的是注重技术层面的结合以及数学和计算机的集合数据挖掘和数据分析的相似之处:1、数据挖掘和数据分析都是对数
  • 数据挖掘

    2018-08-23 00:29:44
    数据挖掘:数据,数据的前期处理     爬虫挖掘、数据清洗、整合,数据有效性检测,数据的可视化,统计的机器学习的算法来抽取有用知识。前期数据处理工作比较多     覆盖学科:   统计学、计算机程序...
  • 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,利用统计、计算机、数学等领域的方法提取隐含在其中的信息和知识的过程。 数据挖掘特点:处理的数据规模十分庞大,非精确性查询(分析),快速响应...
  • 作者 | 宋莹来源 | 数据派THU(ID:DatapiTHU)本文为你介绍数据挖掘知识及应用。引言最近笔者学到了一个新词,叫做“认知折叠”。就是将复杂的事物包装成最简单的样子,让大家不用关心里面的细节就能方便使用。...
  • 本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。 第二章第七节上-LDA(线性判别方法): 上篇所讲述的PCA并不适用于分类问题,不考虑分类类别的,...
  • 数据挖掘

    2018-09-20 11:12:08
    知识点1:数据挖掘基础,微积分、概率论、线性代数基础 实战项目:用numpy进行矩阵运算 第2课 数据处理/分析/可视化 知识点1:数据获取、数据格式、数据内容处理与分析、数据的可视化 实战项目:用python解析和...
  • 数据挖掘学习路线

    千次阅读 2015-07-28 10:17:08
    (比如是不是一定要会用R进行简单编程、掌握哪些基本的数学知识等) 喜欢数学,本科有最基本的数学基础(数学分析、线代、概率论与统计、数论…),本身对数据挖掘很有兴趣,如果掌握了,对现在的工作也会很有...
  • ##分析了近五年中考数学考点后,2021将会这样考!(附考点分析)#01数与式易错点1有理数、无理数以及实数的有关概念理解错误,相反数、倒数、绝对值的意义概念混淆。弄不清绝对值与数的分类。选择题考得比较多。易错点...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 636
精华内容 254
关键字:

数据挖掘数学知识