精华内容
下载资源
问答
  • 数据挖掘之基本数学知识

    热门讨论 2011-10-31 14:35:44
    数据挖掘用到的基础数学知识,主要是向量和线性代数
  • 数据挖掘相关基础数学知识

    千次阅读 2018-07-25 17:11:58
    最早在物理学里使用,表示速度、力等有大小和方向的,后引申到数学。与标量对应,标量只有大小。 复数:对实数的扩充,为了表示x^2=-1的解的标注。 ||w|| 范数,w数组值平方的开平方(标准差?)。 ...

    函数可导的?

    满足3个条件:
    1)x点函数有值
    2)x附近范围内函数是连续的
    3)x的左(x减小一点点)、右(x增大一点点)导数是相同的
    

    偏导数
    partial derivative(直译部分导数),对多元方程求导,因为增加了自变量求导难度变大。为了简化求导,把除一个变量外的其他变量都看做常量求导。
    已z=x^2+2xy+y^2为例,z关于x的偏导=2x+2y;z关于y的偏导=2y+2x。
    几何意义,上例的方程是一个三维曲面,一个点在不同的角度有不同的变化率。偏导就是考察在x不变(或y不变)情况下变化率。即垂直于x轴切面曲线的导数。
    p’Lp/p’w : p’表偏导数;Lp表函数;即综合起来是Lp关于w的偏导数。

    梯度:

    多元函数,各个参数的偏导数的向量表示,就是梯度。
    就是在不同方向的变化率(貌似对上了!) 
    

    凸函数:

    二阶导函数>0,则该函数为凸函数。二阶导数是变化率的变化率,只要>0,则表示增加的速度是更快的。        
    几何意义,f(x)在[a,b]上有定义,f(x1)+f(x2)>=2f((x+y)/2),即连线f(x1)、f(x2),函数的所有点在连线一下。
    

    法线、法向量

    法线:平面的垂直线;如果是曲线,则是曲线上点切线的垂直线。
    法向量:法线上的向量。
    向量:有大小、有方向的线段。最早在物理学里使用,表示速度、力等有大小和方向的,后引申到数学。与标量对应,标量只有大小。
    复数:对实数的扩充,为了表示x^2=-1的解的标注。
    

    ||w||

    范数,w数组值平方的开平方(标准差?)。
    

    梯度下降法

    &:梯度:就是函数某点的斜率,微分的概念。
    梯度下降法的原理:就是不知道全局最优路线,但基于当前点选择最陡峭的方向(斜率)前进一步,然后在新点在迭代进行,知道函数值变化不大,说明已经到了一个至少局部极点。
    y=x^2用梯度下降法求极值,初始点(1,1),步长0.4
    y’=2x。
    step1 1,1
    step2 x2=1-0.4*(2*1)=0.2 (0.2,0.04)
    step3 x3=0.2-0.4*(2*0.2)=0.04 (0.04,0.0008), 进阶0.04-0.0008=0.0392
    step4 x4=0.04-0.4*(2*0.04)=0.008 (0.008,0.000064) 进阶0.0032-0.000064=0.003136
    越逼近(0,0),变化越小,说明已经逼近极值。

    凸优化问题?

    &:凸优化问题:目标函数是凸函数。同时满足:值域连续、约束条件函数也是凸函数。
       凸函数:函数上的任意2点划线,直线都在函数之上。
       为什么是否是凸优化很重要:凸函数表示可以找到全局最优解,同时凸函数最优有很多成熟的方法。是凸优化,即意味着可以找到最优解。
    

    拉格朗日乘数法?

    &:用来求解有等式限定条件的最优问题。把函数和限定条件整合到一个函数,然后分别求偏导数。
       在极值点,任何偏导数=0。顾得到n个方程式,然后带入就可以求得极值。
       eg:一根绳子长4米,折成矩形,如何面积最大?
       函数f(x,y)=xy,等值限定x+y=2,转换成g(x,y)=x+y-2=0,
       合并函数,l(x)=xy+n(x+y-2)
       x'l(x)=y+n=0
       y'l(x)=x+n=0
       n'l(x)=x+y-2=0
       转换成3个方程组,解的n=-1,y=1,x=1。即maxf(x,y)=xy=1*1=1。
    

    超平面

    简单例子:在3维空间里,2个维就确定一个平面;平面中的直线、空间中的平面都是例子。
    维度大于3才能成为超平面。      
    
    展开全文
  • 摘自网络,版权归作者所有。 1. 机器学习为什么要使用概率 2. 概率学派和贝叶斯学派 3. 何为随机变量和何又为概率分布? 4. 条件概率,联合概率和全概率公式: 5. 边缘概率 6. 独立性和条件独立性 ...
  • 在学习数据挖掘的时候,我们一定要掌握一些数学基础,毕竟数据挖掘中涉及到了很多的算法。说到这里我们要给大家说一说数据挖掘的概念,数据挖掘就是从大量数据中获取隐含的、潜在的是有价值信息的过程,数据挖掘也是...
    13825820-92edc37fc563e14c.jpg

    在学习数据挖掘的时候,我们一定要掌握一些数学基础,毕竟数据挖掘中涉及到了很多的算法。说到这里我们要给大家说一说数据挖掘的概念,数据挖掘就是从大量数据中获取隐含的、潜在的是有价值信息的过程,数据挖掘也是这些年计算机领域主要的研究内容。那么数据挖掘需要什么数学基础呢?下面我们就为大家讲解一下这些知识。

    首先给大家说一下数据挖掘的基本流程吧,数据挖掘的基本流程就是对原始数据进行填补遗漏、消除异常、噪声等处理,提高数据挖掘的有效性和准确性。然后使用特定的算法对原始数据进行归纳抽象,去掉肮脏数据,最终得到一个关系模型。当新的数据加入数据集中时,可以根据该关系模型决定新数据的分类和处理模式。同时,新数据也将带来对整体模型的变化,数据和模型处于动态对应的状态。看到这里,我们不难发现,数据挖掘就是一个典型的数据建模的过程,这就需要我们使用一些工具、方法、理论知识来进行解决这些问题。

    一般来说,数据挖掘需要的数据基础有很多,比如统计机器学习所需要的主要理论和技术:泛函分析、覆盖数、描述长度理论与算法复杂度研究、与测度论、统计理论、VC维理论、非线性规划技术、几何变换等等,下面我们就给大家说一下数据挖掘涉及到的数学基础。

    我们先要给大家说的就是线性代数和统计学,在数据挖掘过程中,我们少不了建模,而在这个建模过程中,我们需要掌握两个基础的数据学科,这两大数学学科就是线性代数和统计学。这两门学科代表了机器学习中最主流的两大类方法的基础。第一种是以研究函数和变换为重点的代数方法,而另一种是以研究统计模型和样本分布为重点的统计方法。这两个学科侧重虽有不同,但是常常是共同使用的,对于代数方法,往往需要统计上的解释,对于统计模型,其具体计算则需要代数的帮助。以代数和统计为出发点,继续学习的话,就很容易会发现需要更多的数学。而这些数学基础都是我们需要掌握的知识。

    在这篇文章中我们给大家讲述了数据挖掘的知识以及数据挖掘需要的数学基础。如果想要走进数据分析行业的话,还是需要了解这些知识的,由于篇幅原因我们就给大家讲到这里了,在下一篇文章中我们继续给大家讲述更多有用的知识。

    展开全文
  • 高等学校研究生系列教材《数据挖掘知识发现》 李雄飞 李军 编著 高等教育出版社
  • 前段时间,花了很多精力在了解、学习和思考有关——大数据/数据挖掘/知识发现/人工智能等等的知识/概念。思维上很受启发,对一些曾经很模糊的概念,也有了较为清晰的认识。 另一方面,作为一个程序员,我开始认真...

    1 引言

      前段时间,花了很多精力在了解、学习和思考有关——大数据/数据挖掘/知识发现/人工智能等等的知识/概念。思维上很受启发,对一些曾经很模糊的概念,也有了较为清晰的认识。

      另一方面,作为一个程序员,我开始认真思考一些比较深层次的问题,比如,“信息的本质”,“软件的本质”,“数据的本质”,“语言的本质”,“系统的本质与系统论”,“编程语言原理”,信息在传输过程中的损耗,“对象与关系”,“如何评估智能化的程度”,“神经网络”,“计算机与大脑”等等等等。很有趣,也很有意义,而且让我对现实生活和现实世界有了新的认知。

      另外,对“冯.诺依曼”体系结构,也有了进一步的认知,它与现代计算机结构的关系,以及对编程语言的影响。

    本文主要是把自己学习中遇到的工具、概念、过程,做一些整理和记录。

    2 统计工具的学习

      首先,以运维监控信息为原数据,以关联性分析为切入点,展开分析,希望在大量、静态的数据中获取有价值的信息。在这一需求背景下,学习了 R 语言,并通过 R 语言完成了一些简单的分析工作。

    图1 R语言编程环境
    这里写图片描述

      R 语言更专注和适应于统计学领域,是做学术和实验的绝佳选择,在产品化和集成方面稍显不足。于是,将关注点转向 Python 的数据分析模块,Numpy&Pandas,Scipy,Matplotlib等。Python 由于其自身的开放、简洁、和灵活性,使其在数据分析领域拥有着得天独厚的优势,相对于 R 在统计方面的专业性,Python 更均衡,更全面。

      此外,数据分析毕竟是一门专业性很强的工作,需要掌握很多统计学、数学相关的领域知识。比如,如何建立相关模型,如何进行回归,如何理解检验参数,一般线性模型与广义线性模型,非参数校验与参数校验,ROC曲线等等。Python 和 R 只不过是个工具,它们提供了所有可用的方法和函数,但如何使用它们,如何有效的建立模型,得出结论,则需要大量的时间、精力,以及统计分析经验。作为一名程序员,这些才是真正的挑战。

    图2 Python大数据学习路线
    这里写图片描述

      除了 Python 和 R,还花了不少时间学习和使用SPSS。

      SPSS 是一个可视化的统计分析平台,其分析结果清晰、直观、易学易用,可对一些简单的数据进行快速建模分析,对于掌握和理解一些专业术语有极大的帮助。它整合集成了统计分析中最常用、最主流的算法、过程、和工具,特别适合对分析、建模的方案进行快速验证。

    图3 SPSS软件视图
    这里写图片描述

      SPSS更适合那些传统统计领域的从业人员,重心放在对工具的使用上,点一点,选一选,无需编程。但是 SPSS 缺少灵活性,尤其是在大数据分析时,SPSS所能完成的功能,也都可以通过python来编程实现。

      除了以上三种在数据分析领域普遍使用的工具,还花时间学习了杭州奇越数据科技有限公司的SPM软件。总体来说,SPM与SPSS有很多相似之处,但它比SPSS更专注于算法和大数据分析,能更灵活的应对数据的不同规模、复杂度和结构,对数据进行描述性分析,构建分析模型,或者预测。

      SPM内含了多种先进的数据挖掘、机器学习算法模块,如CART、TreeNet、MARS、Random Forests等,学习起来明显比SPSS更难,非统计学专业人员,一般只能使用经典模型进行分析,很难根据数据特征进行调参、优化,或者创建新的分析模型。

    图3 SPM软件视图
    这里写图片描述

      统计分析相关的工具主要了解了以上四种,数据分析是一个极其广泛的领域,社会、金融、互联网、娱乐、气象等等,不同领域都有各式各样定制化的分析工具或系统方案,另外还有很多开源工具,各具特色,但万变不离其宗,数据分析的基本规律、结构和算法原理都一样。

      研究了这些统计工具之后,我的感触是,我们毕竟是程序员,很难做好统计专业的事情,一句话隔行如隔山,我花了挺多时间去看高等数学、概率论与数理统计,也看了不少的技术文档,可以理解一些术语,一些算法,但是很难去使用它们、去建模、去做其他有创造性的事情,尤其是涉及到大数据和复杂结构时。

      而且,数据的统计分析是指导我们如何去分析、处理和理解数据,是一个技术概念、一个方法论。那么如何跳出晦涩的、统计相关的技术范畴?有没有系统化的解决方案?

      于是,开始进入了第二阶段的探索——知识发现。知识发现是数据分析的目的。

    3 知识发现

      知识发现就是在数据中发掘知识,将低层次的原始数据转换为高层次的信息。

      比如运维系统中,常常几百G的历史记录躺在数据库中,死气沉沉,毫无价值,因为客户根本不关心半年前的主机或者网络设备到底是什么状态,有没有告警,cpu高了还是低了,因为那都是陈年往事了。

      那么这些数据中,有没有蕴藏着某些天机呢?可能有,也可能没有,这就需要进行知识发现。沃尔玛尿不湿与啤酒的经典案例,就是知识发现的最佳实践。

    图4 知识发现过程图
    这里写图片描述

      知识发现过程可以概括为三个部分:数据准备、数据挖掘、结果的表达和解释(数据展示)。

    3.1 数据准备与数据仓库

      数据准备其实就是把原始数据提取并转换为可分析数据!当数据量小,数据结构简单的时候,我们甚至可以通过excel来完成数据准备,无非就是进行数据规整、合并、填充、转换等等操作呗;但是随着数据量的增大,比如几百M甚至几G,或者多种不同结构的信息,excel就无能为力了,不过,还可以通过数据库的sql语句来完成。

      当数据量进一步增大,数据结构进一步复杂,甚至数据来源于不同结构的存储体系,有些在分布式数据库中,有些在关系型数据库中,有些可能在mysql里,有些可能在oracle里,要对这些不同来源,不同形式的数据进行综合分析,很显然,传统的sql查询也无能为力了。

      以淘宝网站的架构变迁为例,在最开始的时候,由于业务规模很小,电商系统的技术门槛是非常低的,简单的前端设计+Apache+几台应用服务器+mysql,网站就可以运营了。这个时候业务量不大,每天的订单数,订单金额,访问量,畅销商品排行,客户消费能力排行等等信息,几张excel表就可以做了,一目了然。

      然后,客户和订单越来越多,查询开始变慢,系统开始卡顿,这个时候就需要对网站架构进行升级,增加服务器,增加数据库(分库分表)。业务数据和指标依然可以从数据库中查询,基于数据表信息进行数据的查询处理。

      接下来,随着网购时代的真正来临,业务规模指数级增长,数据量陡增,管理团队的规模也越来越大,高层管理人员关心的问题,已经不再是流量,收入,PV,UV这些细枝末节的技术指标了,逐渐演变为趋势性的、集群性、战略性的分析。而这样的需求,再也无法通过传统的数据查询来实现了,因为数据量太大了,原始数据必须抽象转换为更高级的知识才能发挥价值。

      此时,数据仓库技术应运而生!

      数据仓库,简单的说就是为了知识发现与辅助决策而构建的数据加工系统,支持复杂的分析操作,并且提供直观易懂的查询结果。数据仓库的建立标识着一家公司真正进入信息化阶段!

    图5 数据仓库结构视图
    这里写图片描述

      IBM、Oracle、Sybase、Microsoft、和SAS等IT巨头都曾先后通过收购或研发推出了自己的数据仓库解决方案,可见IT公司对数据仓库的重视。

      Hive 是一个基于Hadoop的数据仓库基础架构,它提供了一系列的工具,可以用来进行数据ETL(Extract-Transform-Load),是一种可以存储、查询和分析 Hadoop中数据的技术方案。

      在了解和学习Hive时,专门使用了4台服务器搭建了一个Hadoop集群,并安装了Hive工具,进行了简单功能的使用。

    图6 Hive体系结构
    这里写图片描述

      当然,建立数据仓库最重要的工作并非工具使用,而是对业务系统和决策需求的分析,确定数据仓库所要解决的真正问题,不同主题下的查询需求等等。

    3.2 数据挖掘

      当数据准备结束,就开始进行数据挖掘了。数据挖掘是知识发现中的核心工作,它利用一系列的方法或算法从数据中获取知识。

      数据挖掘的概念来源于机器学习。学习是人类才具有的智能行为,目的在于获取知识。机器学习是研究如何使用计算机来模拟或实现人类的学习行为的技术,是人工智能领域中的重要研究方向。

    图7 机器学习的方向
    这里写图片描述

      数据挖掘根据任务目的的不同,可以分为聚类、分类、关联规则发现等。

      聚类算法是将没有类别的数据按照距离的远近亲疏聚集成若干类别,典型的方法有K-means。分类方法是对有类别的数据,找出各类别的描述知识,典型的算法有ID3,C4.5,IBLE等。关联规则是对多个数据项重复出现的概率进行评测,超过指定的阈值时,建立这些数据项之间的关联,典型的算法是Apriori。此外,人工神经网络的相关算法也被应用于数据挖掘中。

      在学习过程中,深入的了解和学习了决策树与人工神经网络这两类算法。

      决策树是用样本的属性作为结点,用属性的取值作为分支的树结构,利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。ID3,C4.5都属于决策树算法。

      人工神经网络算法,由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。目前广泛应用于模式识别、智能机器人、预测估计、自动控制等领域,并成功解决了许多现代计算机难以解决的实际问题。

      Keras是目前比较流行、易学易用的python 深度学习框架,可以通过Keras对数据进行网络建模和训练。我在公司环境里搭建了Keras环境,并构建了简单的网络模型,实现图片分类功能。对理解人工神经网络的原理与应用有极大的帮助。

    3.3 智能决策系统

      知识发现的最后一步是结果的表达和解释,其实就是数据展示。

      对于小公司或者创业公司的初期,业务数据非常简单,可以通过excel进行图表展示,比如直方图,饼图等就能满足需求了。对于中型公司,它们的数据量已经大到了一定程度,就需要报表系统来进行数据的展示。那么对于阿里、腾讯这样的互联网巨头呢?马云思考的一定是那些战略性的、趋势性的问题,他所想要看的数据已经不再是存储在数据库中的定量的、技术性的数据了,他需要一个智能决策系统。

      部署并实际操作体验了以下两个智能决策系统:FineBI和Pentaho。

    1. FineBI

    图8 FineBI主界面
    这里写图片描述

      FineBI是帆软公司的产品,是一个初级的、易学易用的决策系统,更准确的应该说是加强版的智能报表系统,更适合中小规模企业使用。

      总的来说,FineBI是个入门级的决策系统,基本做到了数据的展现与存储的隔离,能支持多种数据源与数据格式。
    2. Pentaho

      Pentaho是世界上最流行的开源商务智能软件,以工作流为核心的,强调面向解决方案而非工具组件的,它包括一个web server平台和几个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以说包括了商务智能的方方面面。它偏向于与业务流程相结合的BI解决方案,侧重于大 中型企业应用。它允许商业分析人员或开发人员创建报表,仪表盘,分析模型,商业规则和 BI 流程。

    图9 Pentaho BI组成
    这里写图片描述

      开源BI或者说决策系统是越来越多IT公司的选择,因为其不逊于商业BI的功能,以及天生的开放性和灵活性,当然Pentaho的部署和使用需要投入非常多的技术成本。

    4 业务拓扑

      业务拓扑是一个实践任务,简单的说就是主动探索环境中对象间的拓扑关系。可以是网络环境中的不同网络节点间的关系,也可以是服务器中不同进程间的关系。建立业务拓扑,本质上是要依靠“关系”去剖析“系统”,是个逆向分析与解构的过程。

      关系具有这些特征:方向性、强度、频度、成本、周期。

      可以根据采集的关系数据,对网络节点进行数据分析,如聚类、分类,或者关联分析等。能够建立一个初始的关系网,然后再结合节点本身的信息,进一步的检索、匹配业务信息,丰富关系网的属性。

      第一阶段,是发现服务器内部进程间的关系。
      使用tcpdump,scapy,netstat,ps等系统工具采集所需的业务信息,以数据流信息为关系,通过graphviz工具对BTSO系统中进程进行拓扑。

    图10 进程间的业务关系图
    这里写图片描述

      业务拓扑的后续工作还没有展开,如果是预研性质的去探索可行性、做技术储备和选型,可以继续深入研究。但如果想结合业务场景进行开发、集成,可能还需要花更多的时间在业务需求的分析上。

    5 总结

      智能化是件复杂的事儿,有些事情要想明白,说清楚,这样讨论和交流业务问题时才会有思想基础和共鸣。

    图11 冯.诺伊曼结构
    这里写图片描述

      上图是冯.诺依曼结构,该结构指明了人工智能探索的方向。我们要进行运维智能化,我们的方向在哪里?我结合自己这半年的体会,开个脑洞,胡乱说说。

      1. 智能输入系统:我们要开发智能探针,snmp,wmi这些都太落伍了,智能指针能语音识别,能文字解析,能图像识别,要能联网,能爬各种互联网信息,要能监控移动终端,比如智能手机、手环、手表等等。

      2. 智能存储系统:想要单纯的基于pgsql/cassandra去做大数据分析,去做业务智能化,确实是有点浪漫,巧妇难为无米之炊啊!要智能化,怎么说也得分布式、集群之类的吧!首先把规模搞上去,横向扩展起来,然后再纵向分层,读写分离,搞个智能化的数据仓库之类的,这样就比较有感觉了。

      3. 智能运算系统:运算这一块是技术活,搞个算法团队,专门琢磨怎么去优化决策树,如何重构卷积网络模型。开源的、经典的算法,组件,统统想办法集成进来,就两个字,准!快!

      4. 智能控制系统:除了智能探针,再开发个智能帮手,专门负责实施。运算系统中出来的指令直接分发到智能帮手那里,有令必行,令行禁止。什么升级啊,更新啊,远程配置,控制,全部能干,包省心!

      5. 智能展示:既然都智能了,语音识别是必须的吧,领导站在大屏幕前,说到哪里就展示到哪里。画面就更不用说了,必须炫酷,有视觉冲击力。等等等等吧。

      脑洞就开到这儿,书归正传,智能这件事儿,大了可以很大,小了也可以很小。空调连上网就变成智能家具了,电视连上网就变成智能电视了,本质上他们只是增加了一种输入方式而已。

    展开全文
  • 2018年泰迪杯总结——最全的数学建模、数据挖掘比赛入门 期待已久的泰迪杯数据挖掘比赛从3月1日开启到今天4月15日已经结束了,不同于美赛等数学建模比赛,它耗时更长,赛题难度更大,需要处理的数据更加庞大(奖金...

    2018年泰迪杯总结——最全的数学建模、数据挖掘比赛入门

    期待已久的泰迪杯数据挖掘比赛从3月1日开启到今天4月15日已经结束了,不同于美赛等数学建模比赛,它耗时更长,赛题难度更大,需要处理的数据更加庞大(奖金也超级丰厚hhh)。
    笔者通过一个半月的投入、沉浸,收获颇丰,在此记录一番,希望对各位有兴趣参加下年的泰迪杯或相同类型的数学建模、数据挖掘比赛的童鞋们有实质帮助!

    一、队友的选择

    俗话说,不怕神一样的对手,就怕猪一样的队友!笔者就碰到了极品猪队友!!!早在2月时就和两个女性队友(没错,猪脚我是男的)愉快地决定了共同参加泰迪杯,然而到了3月份报名后,其中一个队友就以各种课多、作业多等理由来搪塞我们,交给她的找指导老师任务迟迟3个星期没完成,之后她展现了惊天操作:开会直接不来!!!没错,整个泰迪杯只有我和另外一个强劲队友(可爱、美丽、大方的小师姐)艰辛地完成了。现已删了那个奇葩的微信好友,为她动怒也是不值得。

    回归正题。选择好的队友关乎到你能不能拿奖,一般参照如下:

    • 寻找用共同编程语言的队友,一般有python,matlab、R等。
    • 有数学建模参赛经历,不然你就是在带小朋友!
    • 寻找一名paper写手,能事半功倍。
    • 若寻找编程好手,问清他博客量/撸码量/专研领域!

    ps:队友找好后先不急着报名,一定要看看是否合适,一旦有猪队友一定要更换,不要觉得难为情,不然到后期要哭死!!!

    二、指导老师的选择

    指导老师对于参加比赛、科研项目是十分重要的。很多比赛小白担心怎么找指导老师,或者害怕老师会不会不答应。一般来说,只要指导老师不是很忙,他都会答应的。学院老师是有义务并且乐意帮助、鼓励学生参加比赛、科研项目的,何况学院导师内部是有评审机构,评价一名老师是否优秀是要看所带过的团队、项目获奖的数目。所以大胆地找老师,不必害羞。

    找指导老师可以参照如下:

    • 学院网站一定会有学院老师的研究领域、获奖、论文量,并且有老师的联系方式。
    • 询问下师兄师姐对该指导老师的评价。

    三、赛前准备

    很多建模小白可能都有一个疑问,机器学习能用于数学建模吗?答案是没问题的。当初我第一次参加美赛时,觉得用机器学习一行代码一个模型有点大材小用,参加完后才觉得简直不要太好用啊。

    泰迪杯是3月1日开题,开题前主要准备有:

    • 广猎各种建模知识,例如回归、分类、聚类等,不求精。
    • 学习好一种数据框架,笔者是用python,强烈推荐pandas(笔者写了很多pandas博客,觉得有用关注走一波~)
    • 提前弄懂文件读写,比赛文件一般为excel,pandas的.read_excel()简直不要太好用!

    重要的是开题后的准备:

    • 开题后仔细审阅每个题目,弄清题目所属领域,比如今年A题的电力挖掘是有关时间序列、分类和识别问题的。
    • 尝试建立整个解题框架,但不求细节,把握整体。
    • 查阅并准备好相关文献,常见的有知网、Google学术、SCI-hub、OAlib等。
    • 对所选赛题所属领域进行知识储备,最好能做笔记、写博客。如果用的是python,详见这篇:学习Python的做笔记神器——Jupyter Notebook

    四、赛中建议

    能否取到好成绩,关键就在比赛期间了。泰迪杯时间长达一个半月,但不需要拉这么长的战线。一般仅需最后的一个星期。注意,是一个星期的全心全意投入,若课程较多,作业繁杂,只能提前一定的时间,所以一定要留足一个星期解题的时间。最好提前把所有繁杂的事务、作业完成好,把解题时间挤在一起是最好的,效率也会最高。

    笔者从比赛中出现的问题中总结如下:

    • 一定要审核好题目要求,琢磨好题目的含义才能动手,漏了、搞混了将会使你竹篮打水一场空!
    • 明确团队每个人的分工,一般队长为解题、建模高手,队员二为编程好手,队员三为paper写手。明确分工,效率会超高,事半也会功倍!
    • 队长的责任最为重大,不仅需要解题、建模,还要负责协调、促进整个团队的工作。
    • 编程好手不需理会论文的编写和成型,只需编程实现团队确定好的解题思路。
    • paper写手不需理会编程细节、实现过程,只需以论文的规范性地、完整性地、逻辑性地将模型、解题步骤等表达出来。
    • 对于专有名词、关键词,每个人有每个人的理解,团队之间一定要明确和统一,这样可减少不必要的误解甚至争吵。
    • 解题期间,一定要和指导老师跟进进度,询问老师的意见。
    • 编写程序时一定要写好注释,不然代码堆起来看不懂自己写的是什么玩意。。
    • 解开一道题时即可让paper写手立即写论文了,节省时间。
    • 当卡在某个问题上时,善用网络搜索、交流群,若还未解决一定要及时寻求指导老师的帮助。
    • 当完成并审核论文时一定要让指导老师帮忙审核,再做最后的修改。
    • 最后,一定要注意提交时间,提交文件格式等重大问题,以免比赛后期手忙脚乱。

    五、赛后准备

    还准备什么?当然去浪啊!!!hhhh

    谢谢大家的浏览,
    希望我的努力能帮助到您,
    共勉!

    展开全文
  • 要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,着实难以下手、非常头大!我们不妨先跳过数学公式,看看我们了解数据挖掘的目的——...
  • 本书全面介绍了数据挖掘的理论和方法,着重介绍如何用数据挖掘知识解决各种实际问题,涉及学科领域众多,适用面广。, 书中涵盖5个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:...
  • 能说出数学的名称就是了,例如应用统计学、数学建模什么的。当然了回答者如果能给出除了学习数学还需要学什么专业知识的回答就更加感谢了
  • 数据挖掘与数据分析

    2021-02-26 02:34:31
    数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点...数据挖掘更多的是注重技术层面的结合以及数学和计算机的集合数据挖掘和数据分析的相似之处:1、数据挖掘和数据分析都是对数
  • 数据挖掘(1)知识点总结

    千次阅读 2018-05-24 10:39:15
    详细文章转自:https://blog.csdn.net/sinat_22594309/article/details/74923643数据挖掘的一般过程包括以下这几个方面:1、 数据预处理2、 数据挖掘3、 后处理一、数据预处理主要手段分为两种:选择分析所需的数据...
  • 人工智能-必备数学基础视频教程

    千人学习 2017-11-09 12:43:05
    一套完整的数学基础课合集,解决与人工智能相关的所有...AI人工智能之数学基础视频培训课程概况:讲解人工智能、机器学习和深度学习过程中用到的数学知识。包括线性代数、微积分、信息论等等人工智能相关的数学知识
  • 数据几乎无处不在。当前存在的数字数据量正在快速增长。这个数字每两年翻一番,完全改变了我们的基本生存方式。根据IBM的一篇论文,2012年每天生成约25亿千兆字节的数据。《福布斯》的另一篇文章告诉我们,数据的...
  • 过往当中,我们总是担心学习大数据既要掌握复杂的数学知识,也是熟悉编程技术。但本次课程将颠覆你以往的概念,本次课程不但包含了数学统计知识的传授,也囊括了机器学习的实践案例,最重要的是所有课时都将利用轻松...
  • 第二,知识律:业务知识数据挖掘过程每一步的核心。 第三,准备律:数据预处理比数据挖掘其他任何一个过程都重要。 第四,试验律(NFL律:No Free Lunch):对于数据挖掘者来说,天下没有免费的午餐,一个正确的...
  • 基于大数据挖掘----浅谈大数据与大数据挖掘

    万次阅读 多人点赞 2019-01-21 14:38:51
    基于大数据挖掘----浅谈大数据与大数据挖掘 一、大数据技术 1.1大数据的定义 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现...
  • 数据挖掘必备基础知识

    万次阅读 2016-08-13 16:06:10
    数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多、哪个省的女生胸罩最大等,进一步,可以基于...
  • 数据挖掘考题汇总

    千次阅读 多人点赞 2019-06-07 16:34:06
    文章目录数据挖掘习题汇总一 数据挖掘概述二 认识数据 数据挖掘习题汇总 一 数据挖掘概述 数据与知识的区别与联系? 数据: 指描述事物的符号记录, 它涉及到事物的存在形式, 是关于事物的一组离散且客观的事实描述。...
  • 学好机器学习需要哪些数学知识

    千次阅读 2019-02-24 11:10:42
    很多同学谈数学色变,但数学是机器学习绕不开的基础知识。今天我们来谈谈这个话题:学好机器学习究竟需要哪些数学知识?  
  • 数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库...
  • 数据挖掘算法 算法目录 18大DM算法 包名 目录名 算法名 AssociationAnalysis DataMining_Apriori Apriori-关联规则挖掘算法 AssociationAnalysis DataMining_FPTree FPTree-频繁模式树算法 BaggingAndBoosting ...
  • 数据挖掘概念汇总及数据预处理

    万次阅读 2017-03-24 17:49:51
    数据挖掘概念汇总及数据预处理
  • 第一部分 数据挖掘与机器学习数学基础3 第一章 机器学习的统计基础3 第二章 探索性数据分析(EDA) .11 第二部分 机器学习概述14 第三章 机器学习概述14 第三部分 监督学习---分类与回归16 第四章 KNN(k 最邻近分类...
  • 数据挖掘简介及模型介绍(一)

    千次阅读 2020-02-26 15:43:05
    1. 简介 大数据时代正在唤醒企业通过利用客户数据获得竞争优势的机会。数据的广泛使用性和高度复杂性让仅...与此同时,强大的计算机和互联网技术,海量数据和高效算法的融合,催化了数据科学和数据挖掘技术的发展...
  • 第11章贝叶斯网络 贝叶斯网络是1986年由Pearl提出的根据各个变量之间的概率关 丨 系使用图论方法表示变量集合的联合概率分布的图形模型 它提供了 | 一种自然的表示因果信息的方法用来发现数据间的潜在关系 I 在这个...
  • 机器学习和数据挖掘是紧密相关的,要进行数据挖掘需要掌握一些机器学习所用的方法和模型知识,通过模型的训练可以得到处理数据的最优的模型。数据挖掘常用的模型如下: 3.1 监督学习模型 就是人们常说的分类,通过已...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 33,343
精华内容 13,337
关键字:

数据挖掘数学知识