精华内容
下载资源
问答
  • 数学建模大数据统计

    千次阅读 2020-07-28 11:43:42
    EverydayOneCat ...切记在全国大学生数学建模赛中不要用绝对路径 num = xlsread(filename, -1) 这个是打开excel表让你自己选择区域,也很常用 将数据A.xlsx放入默认路径下,读取文件A.xlsx第1个

    EverydayOneCat

    卡其脱离太!

    知识点

    1.大数据的MATLAB导入导出

    1.1调用xlsread函数读取数据

    常用格式:

    • num = xlsread(filename, sheet, range)
      • sheet可省略,默认是’Sheet1’
      • range是左上角到右下角
      • 切记在全国大学生数学建模赛中不要用绝对路径
    • num = xlsread(filename, -1)
      • 这个是打开excel表让你自己选择区域,也很常用

    将数据A.xlsx放入默认路径下,读取文件A.xlsx第1个工作表中单元格A2:H4中的数据

    num=xlsread('A.xlsx', 'A2:H4')
    

    1.2把数据写入Excel文件

    • xlswrite(filename, M, sheet, range)
      • M是需要插入的数据名称
      • 如果没有该文件,会自动创建一个

    把矩阵x写入文件B.xls(放在默认路径下)的第2个工作表中的单元格区域D6:I10,并返回操作信息

    [s,t] = xlswrite(‘B.xls', x, Sheet2, 'D6:I10‘)
    

    定义一个元胞数组,将它写入Excel文件B.xls的自命名工作表的指定区域;把元胞数组x写入文件D盘的B.xls的指定工作表(Sheet1)中的单元格区域A3:F5

    x = {1,60101,6010101,'陈亮',63,'';2,60101,6010102,'李旭',73,'';3,60101,...
    6010103,'刘鹏飞',0,'缺考'} % 定义一个元胞数组,这种有中文的用大括号
    x =
    [1] [60101] [6010101] '陈亮' [63] ''
    [2] [60101] [6010102] '李旭' [73] ''
    [3] [60101] [6010103] '刘鹏飞' [ 0] '缺考'
    xlswrite('D:\B.xls',x,'Sheet1','A3:F5')
    

    2.大数据的清洗

    2.1缺失值处理:插值

    在实际中,常常要处理由实验或测量所得到的一些离散数据。插值与拟合方法就是要通过这些数据去确定某一类已知函数的参数或寻求某个近似函数,使所得到的近似函数与已知数据有较高的拟合精度。此类问题为插值问题。

    MATLAB 实现:实现分段线性插值不需要编制函数程序,它自身提供了内部的功能函数:
    interp1 (一维插值) intep2 (二维) interp3 (三维) intern (n维)

    image-20200727140428703

    例:从1点12点的11小时内,每隔1小时测量一次温度,测得的温度的数值依次为:5,8,9,15,25,29,31,30,22,25,27,24.试估计每隔1/10小时的温度值。

    hours=1:12;
    temps=[5 8 9 15 25 29 31 30 22 25 27 24];
    h=1:0.1:12;
    t=interp1(hours,temps,h,'spline');
    plot(hours,temps,'+',h,t,hours,temps,'r:')
    xlabel('Hour'),ylabel('Degrees Celsius')
    
    image-20200727141037113

    +++

    image-20200727141113311

    例:测得平板表面3×5网格点处的温度分别为:
    82 81 80 82 84
    79 63 61 65 81
    84 84 82 85 86
    试作出平板表面的温度分布曲面z=f(x,y)的图形.

    1.先在三维坐标画出原始数据,画出粗糙的温度分布曲线图

    x=1:5;
    y=1:3;
    temps=[82 81 80 82 84;79 63 61 65 81;84 84 82 85 86];
    mesh(x,y,temps)
    
    image-20200727141242753

    2.以平滑数据,在x、y方向上每隔0.2个单位的地方进行插值,接着画图的图像就更有观测性

    xi=1:0.2:5;
    yi=1:0.2:3;
    zi=interp2(x,y,temps,xi,yi','cubic');%这里xi,yi必须有一个要逆
    mesh(xi,yi,zi)
    
    image-20200727141446271

    +++

    image-20200727141502758

    例:在某海域测得一些点(x,y)处的水深z由下表给出,船的吃水深度为5英尺,在矩形区域(75,200)×(-50,150)里的哪些地方船要避免进入.

    image-20200727141610212

    做题步骤:

    1. 输入插值基点数据
    2. 在矩形区域(75,200)×(-50,150)进行插值。
    3. 作海底曲面图
    4. 作出水深小于5的海域范围,即z=5的等高线.
    %程序1:插值并作海底曲面图
    x =[129.0 140.0 103.5 88.0 185.5 195.0 105.5 157.5 107.5 77.0 81.0
    162.0 162.0 117.5 ];
    y =[ 7.5 141.5 23.0 147.0 22.5 137.5 85.5 -6.5 -81 3.0 56.5 -66.5
    84.0 -33.5 ];
    z =[ 4 8 6 8 6 8 8 9 9 8 8 9 4 9 ];
    x1=75:1:200;
    y1=-50:1:150;
    [x1,y1]=meshgrid(x1,y1);%平面xy曲线
    z1=griddata(x,y,z,x1,y1,'v4');
    meshc(x1,y1,z1)
    

    海底曲面图:image-20200727141935022

    %程序2:插值并作出水深小于5的海域范围。
    x =[129.0 140.0 103.5 88.0 185.5 195.0 105.5 157.5 107.5 77.0 81.0 162.0
    162.0 117.5 ];
    y =[ 7.5 141.5 23.0 147.0 22.5 137.5 85.5 -6.5 -81 3.0 56.5 -66.5 84.0 -
    33.5 ];
    z =[ 4 8 6 8 6 8 8 9 9 8 8 9 4 9 ];
    x1=75:1:200;
    y1=-50:1:150;
    [x1,y1]=meshgrid(x1,y1);
    z1=griddata(x,y,z,x1,y1,'v4'); %插值
    z1(z1>=5)=nan; %将水深大于5的置为nan,这样绘图就不会显示出来
    meshc(x1,y1,z1)
    

    水深小于5的海域范围:image-20200727142044346

    2.2异常值处理

    异常是在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。

    异常挖掘(outlier mining)问题由两个子问题构成:
    • (1)如何度量异常;
    • (2)如何有效发现异常。

    (1)基于统计的异常检测

    image-20200727190443750

    基于统计方法异常点检测技术的优缺点:

    • 优点:
    1)异常点检测的统计学方法具有坚实的基础,建立在标准的
    统计学技术(如分布参数的估计)之上。
    2)当存在充分的数据和所用的检验类型的知识时,这些检验
    可能非常有效。
    • 缺点:
    1)大部分统计方法都是针对单个属性的,对于多元数据技术方法较少。
    2)在许多情况下, 数据分布是未知的。
    3)对于高维数据, 很难估计真实的分布。

    (2)基于聚类的异常检测

    物以类聚——相似的对象聚合在一起,基于聚类的异常点检测方法有两个共同特点:
    (1)先采用特殊的聚类算法处理输入数据而得到聚类,再在聚类的基础上来检测异常。
    (2)只需要扫描数据集若干次,效率较高,适用于大规模数据集。

    image-20200727190703883

    其中对象p到每个类之间的距离d(p,Ci)有两种计算方法:

    • p与类Ci的重心之间的距离;
    • p与类Ci中每个样本之间的距离的平均值。

    以上异常点检测方法也称为两阶段法,也简称为TOD。

    基于聚类的方法:具体程序见程序TOD.m

    function yichang=TOD(A)
    N=size(A,1);
    D=N;
    yichang=zeros(N,1);
    K=3;
    [u re]=kmeans(A,K);  %K-均值聚类,分为k类——u代表哪一类,re代表重心
    tt=sort(u);%排序
    %聚类结果
        [t1,t2]=find(u==1);
        class1=A(t1,:);
        [t1,t2]=find(u==2);
        class2=A(t1,:);
        [t1,t2]=find(u==K);
        classK=A(t1,:);
        N1=size(class1,1);
        N2=size(class2,1);
        NK=size(classK,1);
       for i=1:size(A,1)
           D1=0;
           D2=0;
           DK=0;
           for j=1:N1
              D1=sqrt((A(i,:)-class1(j,:))*(A(i,:)-class1(j,:))')+D1; 
           end
           temp1=N1/N*D1;
           for j=1:N2
              D2=sqrt((A(i,:)-class2(j,:))*(A(i,:)-class2(j,:))')+D2; 
           end
           temp2=N2/N*D2;
           for j=1:NK
              DK=sqrt((A(i,:)-classK(j,:))*(A(i,:)-classK(j,:))')+DK; 
           end
           tempK=NK/N*DK;
           op(i)=temp1+temp2+tempK;
       end
    xmean=mean(op);
    xvar=std(op);
    bata=1.28;
    for i=1:N
        if op(i)>xmean+bata*xvar
          yichang(i)=1;
        end
    end
      yichang 
    

    在命令窗口输入

    A=xlsread('A.xlsx'); yichang=TOD(A)
    

    运行,得到运行结果:yichang显示1的就是异常

    作业

    1.异常点

    用所学的方法找出book_A中的异常点(红色标号)

    文件链接:https://pluto-1300780100.cos.ap-nanjing.myqcloud.com/download/Book_A.xlsx

    A=xlsread('Book_A.xlsx','C2:R790');
    N=size(A,1);
    D=N;
    yichang=zeros(N,1);
    K=3;
    [u re]=kmeans(A,K);  %K-均值聚类
    tt=sort(u);
    %聚类结果
        [t1,t2]=find(u==1);
        class1=A(t1,:);
        [t1,t2]=find(u==2);
        class2=A(t1,:);
        [t1,t2]=find(u==K);
        classK=A(t1,:);
        N1=size(class1,1);
        N2=size(class2,1);
        NK=size(classK,1);
       for i=1:size(A,1)
           D1=0;
           D2=0;
           DK=0;
           for j=1:N1
              D1=sqrt((A(i,:)-class1(j,:))*(A(i,:)-class1(j,:))')+D1; 
           end
           temp1=N1/N*D1;
           for j=1:N2
              D2=sqrt((A(i,:)-class2(j,:))*(A(i,:)-class2(j,:))')+D2; 
           end
           temp2=N2/N*D2;
           for j=1:NK
              DK=sqrt((A(i,:)-classK(j,:))*(A(i,:)-classK(j,:))')+DK; 
           end
           tempK=NK/N*DK;
           op(i)=temp1+temp2+tempK;
       end
    xmean=mean(op);
    xvar=std(op);
    bata=1.28;
    for i=1:N
        if op(i)>xmean+bata*xvar
          yichang(i)=1;
        end
    end
      disp(yichang); 
    

    2.城市表层土壤重金属污染分析

    随着城市经济的快速发展和城市人口的不断增加,人类活动对城市环境质量的影响日显突出。对城市土壤地质环境异常的查证,以及如何应用查证获得的海量数据资料开展城市环境质量评价,研究人类活动影响下城市地质环境的演变模式,日益成为人们关注的焦点。

    按照功能划分,城区一般可分为生活区、工业区、山区、主干道路区及公园绿地区等,分别记为1类区、2类区、……、5类区,不同的区域环境受人类活动影响的程度不同。

    现对某城市城区土壤地质环境进行调查。为此,将所考察的城区划分为间距1公里左右的网格子区域,按照每平方公里1个采样点对表层土(0~10 厘米深度)进行取样、编号,并用GPS记录采样点的位置。应用专门仪器测试分析,获得了每个样本所含的多种化学元素的浓度数据。另一方面,按照2公里的间距在那些远离人群及工业活动的自然区取样,将其作为该城区表层土壤中元素的背景值。

    附件1列出了采样点的位置、海拔高度及其所属功能区等信息,附件2列出了8种主要重金属元素在采样点处的浓度,附件3列出了8种主要重金属元素的背景值。

    对2011年全国建模A的数据,进行插值,画出该地区的地形图,同时绘出各金属污染物的密度分布图

    地形图:

    x=xlsread('cumcm2011A附件_数据.xls','附件1','B4:B322');
    y=xlsread('cumcm2011A附件_数据.xls','附件1','C4:C322');
    z=xlsread('cumcm2011A附件_数据.xls','附件1','D4:D322');
    x1=min(x):200:max(x);
    y1=min(y):200:max(y);
    [x1,y1]=meshgrid(x1,y1);
    z1=griddata(x,y,z,x1,y1,'v4');
    meshc(x1,y1,z1)
    
    image-20200728104826032

    金属污染物密度分布图:

    x=xlsread('cumcm2011A附件_数据.xls','附件1','B4:B322');
    y=xlsread('cumcm2011A附件_数据.xls','附件1','C4:C322');
    z=xlsread('cumcm2011A附件_数据.xls','附件1','D4:D322');
    x1=min(x):200:max(x);
    y1=min(y):200:max(y);
    [x1,y1]=meshgrid(x1,y1);
    z1=griddata(x,y,z,x1,y1,'v4');
    figure(1);meshc(x1,y1,z1);title('地形图')
    As=xlsread('cumcm2011A附件_数据.xls','附件2','B4:B322');
    Cd=xlsread('cumcm2011A附件_数据.xls','附件2','C4:C322');
    Cr=xlsread('cumcm2011A附件_数据.xls','附件2','D4:D322');
    Cu=xlsread('cumcm2011A附件_数据.xls','附件2','E4:E322');
    Hg=xlsread('cumcm2011A附件_数据.xls','附件2','F4:F322');
    Ni=xlsread('cumcm2011A附件_数据.xls','附件2','G4:G322');
    Pb=xlsread('cumcm2011A附件_数据.xls','附件2','H4:H322');
    Zn=xlsread('cumcm2011A附件_数据.xls','附件2','I4:I322');
    As1=griddata(x,y,As,x1,y1,'v4');
    figure(2);meshc(x1,y1,As1);title('As分布图')
    Cd1=griddata(x,y,Cd,x1,y1,'v4');
    figure(3);meshc(x1,y1,Cd1);title('Cd分布图')
    Cr1=griddata(x,y,Cr,x1,y1,'v4');
    figure(4);meshc(x1,y1,Cr1);title('Cr分布图')
    Cu1=griddata(x,y,Cu,x1,y1,'v4');
    figure(5);meshc(x1,y1,Cu1);title('Cu分布图')
    Hg1=griddata(x,y,Hg,x1,y1,'v4');
    figure(6);meshc(x1,y1,Hg1);title('Hg分布图')
    Ni1=griddata(x,y,Ni,x1,y1,'v4');
    figure(7);meshc(x1,y1,Ni1);title('Ni分布图')
    Pb1=griddata(x,y,Pb,x1,y1,'v4');
    figure(8);meshc(x1,y1,Pb1);title('Pb分布图')
    Zn1=griddata(x,y,Zn,x1,y1,'v4');
    figure(9);meshc(x1,y1,Zn1);title('Zn分布图'
    

    As密度分布图image-20200728110945243

    Cd密度分布图image-20200728111015903

    Cr密度分布图image-20200728111144092

    Cu密度分布图image-20200728111155668

    Hg密度分布图image-20200728111214321

    Ni密度分布图image-20200728111225990

    Pb密度分布图image-20200728111243182

    Zn密度分布图image-20200728111301019

    结语

    Let life be beautiful like summer flowers and death like autumn leaves

    要为六级做准备了😥

    展开全文
  • 本文将尝试来梳理一下数据建模的步骤,以及每一步需要做的工作。 第一步:选择模型或自定义模式 这是建模的第一步,我们需要基于业务问题,来决定可以选择哪些可用的模型。 比如,如果要预测产品销量,则可以选择...

    概要

    PS: 本文转载自 https://www.sohu.com/a/198093510_783844

    本文将尝试来梳理一下数据建模的步骤,以及每一步需要做的工作。
    在这里插入图片描述

    第一步:选择模型或自定义模式

    这是建模的第一步,我们需要基于业务问题,来决定可以选择哪些可用的模型。

    比如,如果要预测产品销量,则可以选择数值预测模型(比如回归模型,时序预测……);如果要预测员工是否离职,则可以选择分类模型(比如决策树、神经网络……)。

    如果没有现成的模型可用,那么恭喜你,你可以自定义模型了。不过,一般情况下,自己定义模型不是那么容易的事情,没有深厚的数学基础和研究精神,自己思考出一个解决特定问题的数学模型基本上是幻想。所以,自定义模型的事情还是留给学校的教授们去研究和开发吧。当前绝大多数人所谓的建模,都只是选择一个已有的数学模型来工作而已。

    一般情况,模型都有一个固定的模样和形式。但是,有些模型包含的范围较广,比如回归模型,其实不是某一个特定的模型,而是一类模型。我们知道,所谓的回归模型,其实就是自变量和因变量的一个函数关系式而已,如下表所示。因此,回归模型的选择,也就有了无限的可能性,回归模型的样子(或叫方程)可以是你能够想到的任何形式的回归方程。所以,从某种意义上看,你自己想出一个很少人见过的回归方程,也可以勉强算是自定义模型了哈!

    那么,这么多可选的模型,到底选择哪个模型才好呢?

    我的答复是:天知道!

    天知道应该选择哪个模型会好一些!你问我,我问谁啊?如果在这个时候有人告诉你,你的业务应该选择哪个回归方程会更好一些,那么,我敢肯定,你遇上的肯定是“砖家”而不是“专家”。模型的好坏是不能够单独来评论的(你往下看就知道了)!就如小孩子讨论的你爸爸好还是我爸爸好一样,你说谁好?

    那么,是不是我们在选择模型时就得靠运气了?其实真有那么一点靠运气的成份,不过好在后续数学家们给我们提供了评估模型好坏的依据。

    现在,我们只能靠运气来选择某一个模型了。

    回归模型回归方程
    一元线性y=β0+β1x
    多元线性y=β0+β1x1+…+ βkxk
    二次曲线y=β0+β1x+β2x2
    复合曲线y=β0βx
    增长曲线y=eβ0+β1x
    对数曲线y=β0+β1ln(x)
    三次曲线y=β0+β1x+β2x2+β3x3
    S曲线y=eβ0+β1/x
    指数曲线y=β0eβ1x
    逆函数y=β0+β1/x
    幂函数y=β0xβ1

    第二步:训练模型

    当模型选择好了以后,就到了训练模型这一步。

    我们知道,之所以叫模型,这个模型大致的形状或模式是固定的,但模型中还会有一些不确定的东东在里面,这样模型才会有通用性,如果模型中所有的东西都固定死了,模型的通用性就没有了。模型中可以适当变化的部分,一般叫做参数,就比如前面回归模型中的α、β等参数。

    所谓训练模型,其实就是要基于真实的业务数据来确定最合适的模型参数而已。模型训练好了,也就是意味着找到了最合适的参数。一旦找到最优参数,模型就基本可用了。

    当然,要找到最优的模型参数一般是比较困难的,怎样找?如何找?这就涉及到算法了。哦,一想到算法,我的头就开始痛了,都怪当年数学没有学好呀!

    当然,最笨的办法,我们可以不断的尝试参数,来找到一个最好的参数值。一个一个试?这不是要试到生命结束?开玩笑啦,不可能去一个一个试的啦。反正有工具会帮你找到最优参数的,什么最优化算法中的什么梯度上升呀梯度下降呀,你就不用操心了呀,这些留给分析工具来实现就可以了!

    当然,一个好的算法要运行速度快且复杂度低,这样才能够实现快速的收敛,而且能够找到全局最优的参数,否则训练所花的时间过长效率低,还只找到局部最优参数,就让人难以忍受了。

    第三步:评估模型

    模型训练好以后,接下来就是评估模型。

    所谓评估模型,就是决定一下模型的质量,判断模型是否有用。

    前面说过,模型的好坏是不能够单独评估的,一个模型的好坏是需要放在特定的业务场景下来评估的,也就是基于特定的数据集下才能知道哪个模型好与坏。

    既然要评估一个模型的好坏,就应该有一些评价指标。比如,数值预测模型中,评价模型质量的常用指标有:平均误差率、判定系数R2,等等;评估分类预测模型质量的常用指标(如下图所示)有:正确率、查全率、查准率、ROC曲线和AUC值等等。

    对于分类预测模型,一般要求正确率和查全率等越大越好,最好都接近100%,表示模型质量好,无误判。
    在这里插入图片描述
    在真实的业务场景中,评估指标是基于测试集的,而不是训练集。所以,在建模时,一般要将原始数据集分成两部分,一部分用于训练模型,叫训练集;另一部分用于评估模型,叫测试集或验证集。

    有的人可能会想,为什么评估模型要用两个不同的数据集,直接用一个训练集不就可以了?理论上是不行的,因为模型是基于训练集构建起来的,所以在理论上模型在训练集上肯定有较好的效果。但是,后来数学家们发现,在训练集上有较好预测效果的模型,在真实的业务应用场景下其预测效果不一定好(这种现象称之为过拟合)。所以,将训练集和测试集分开来,一个用于训练模型,一个用于评估模型,这样可以提前发现模型是不是存在过拟合。

    如果发现在训练集和测试集上的预测效果差不多,就表示模型质量尚好,应该可以直接使用了。如果发现训练集和测试集上的预测效果相差太远,就说明模型还有优化的余地。

    当然,如果只想验证一次就想准确评估出模型的好坏,好像是不合适的。所以,建议采用交叉验证的方式来进行多次评估,以找到准确的模型误差。

    其实,模型的评估是分开在两个业务场景中的:

    一是基于过去发生的业务数据进行验证,即测试集。本来,模型的构建就是基于过去的数据集的构建的。

    二是基于真实的业务场景数据进行验证。即,在应用模型步骤中检验模型的真实应用结果。

    第四步:应用模型

    如果评估模型质量在可接受的范围内,而且没有出现过拟合,于是就可以开始应用模型了。

    这一步,就需要将可用的模型开发出来,并部署在数据分析系统中,然后可以形成数据分析的模板和可视化的分析结果,以便实现自动化的数据分析报告。

    应用模型,就是将模型应用于真实的业务场景。构建模型的目的,就是要用于解决工作中的业务问题的,比如预测客户行为,比如划分客户群,等等。

    当然,应用模型过程中,还需要收集业务预测结果与真实的业务结果,以检验模型在真实的业务场景中的效果,同时用于后续模型的优化。

    第五步:优化模型

    优化模型,一般发生在两种情况下:

    一是在评估模型中,如果发现模型欠拟合,或者过拟合,说明这个模型待优化。

    二是在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化。

    如果在评估模型时,发现模型欠拟合(即效果不佳)或者过拟合,则模型不可用,需要优化模型。所谓的模型优化,可以有以下几种情况:

    1)重新选择一个新的模型;

    2)模型中增加新的考虑因素;

    3)尝试调整模型中的阈值到最优;

    4)尝试对原始数据进行更多的预处理,比如派生新变量。

    不同的模型,其模型优化的具体做法也不一样。比如回归模型的优化,你可能要考虑异常数据对模型的影响,也要进行非线性和共线性的检验;再比如说分类模型的优化,主要是一些阈值的调整,以实现精准性与通用性的均衡。

    当然,也可以采用元算法来优化模型,就是通过训练多个弱模型,来构建一个强模型(即三个臭皮匠,顶上一个诸葛亮)来实现模型的最佳效果。

    实际上,模型优化不仅仅包含了对模型本身的优化,还包含了对原始数据的处理优化,如果数据能够得到有效的预处理,可以在某种程度上降低对模型的要求。所以,当你发现你尝试的所有模型效果都不太好的时候,别忘记了,这有可能是你的数据集没有得到有效的预处理,没有找到合适的关键因素(自变量)。

    不可能有一个模型适用于所有业务场景,也不太可能有一个固有的模型就适用于你的业务场景。好模型都是优化出来的!

    最后语

    正如数据挖掘标准流程一样,构建模型的这五个步骤,并不是单向的,而是一个循环的过程。当发现模型不佳时,就需要优化,就有可能回到最开始的地方重新开始思考。即使模型可用了,也需要定期对模型进行维护和优化,以便让模型能够继续适用新的业务场景。

    展开全文
  • 2016年数学建模美赛题目原文及翻译-C [个人思路]

    万次阅读 热门讨论 2016-01-29 10:02:18
    除了必需的单页摘要您的MCM提交,你的报告必须包括信Goodgrant基金,阿尔法蒋介石先生,介绍了最优投资策略的首席财务官(CFO),您的建模方法和主要结果,和你提出了一个回报率的投资回报率(ROI)的概念进行了简要...

    PROBLEM C: The Goodgrant Challenge

    原题下载:MCM-2016-C

    The Goodgrant Foundation is a charitable organization that wants to help improve educational performance of undergraduates attending colleges and universities in the United States. To do this, the foundation intends to donate a total of $100,000,000 (US100 million) to an appropriate group of schools per year, for five years, starting July 2016. In doing so, they do not want to duplicate the investments and focus of other large grant organizations such as the Gates Foundation and Lumina Foundation.

    Your team has been asked by the Goodgrant Foundation to develop a model to determine an optimal investment strategy that identifies the schools, the investment amount per school, the return on that investment, and the time duration that the organization’s money should be provided to have the highest likelihood of producing a strong positive effect on student performance. This strategy should contain a 1 to N optimized and prioritized candidate list of schools you are recommending for investment based on each candidate school’s demonstrated potential for effective use of private funding, and an estimated return on investment (ROI) defined in a manner appropriate for a charitable organization such as the Goodgrant Foundation.

    To assist your effort, the attached data file (ProblemCDATA.zip) contains information extracted from the U.S. National Center on Education Statistics (www.nces.ed.gov/ipeds), which maintains an extensive database of survey information on nearly all post-secondary colleges and universities in the United States, and the College Scorecard data set (https://collegescorecard.ed.gov) which contains various institutional performance data. Your model and subsequent strategy must be based on some meaningful and defendable subset of these two data sets.

    In addition to the required one-page summary for your MCM submission, your report must include a letter to the Chief Financial Officer (CFO) of the Goodgrant Foundation, Mr. Alpha Chiang, that describes the optimal investment strategy, your modeling approach and major results, and a brief discussion of your proposed concept of a return-on-investment (ROI) that the Goodgrant Foundation should adopt for assessing the 2016 donation(s) and future philanthropic educational investments within the United States. This letter should be no more than two pages in length.

    Note: When submitting your final electronic solution DO NOT include any database files. The only thing that should be submitted is your electronic (Word or PDF) solution.

    The ProblemCDATA.zip data file contains:

     Problem C - IPEDS UID for Potential Candidate Schools.xlsx

     Problem C - Most Recent Cohorts Data (Scorecard Elements).xlsx

     Problem C - CollegeScorecardDataDictionary-09-08-2015.xlsx

     IPEDS Variables for Data Selection.pdf

    You can download the data (ProblemCDATA.zip) on the following websites:

    http://www.comap-math.com/mcm/ProblemCDATA.zip

    http://www.mathismore.net/mcm/ProblemCDATA.zip

    http://www.mathportals.com/mcm/ProblemCDATA.zip

    http://www.immchallenge.org/mcm/ProblemCDATA.zip

    .

    优质基金挑战

    该Goodgrant基金会就是要帮助提高本科生参加在美国学院和大学教育表现的慈善组织。要做到这一点,该基金会拟共$ 100,000,000(US100万美元)捐给每年学校提供适当的小组,已经运行五年了,从2016年7月开始这样做,他们不希望重复投资和其他重点大型授予组织如盖茨基金会和Lumina的基础。

    您的团队已要求由Goodgrant基金会建立一个模型,以确定最佳的投资策略,确定了学校,每所学校的投资金额,对投资回报率,以及持续时间,该组织的资金应提供有最高可能产生对学生的表现有很强的正效应。该战略应包括学校,你是根据每个候选学校的证明潜力有效地利用私人资金,建议投资适当的方式定义的1到N优化并优先候选名单,和投资回报(ROI)的预计收益慈善组织如Goodgrant基金会。

    为了帮助你的努力,附加的数据文件(ProblemCDATA.zip)包含来自美国国家中心教育统计(www.nces.ed.gov/ipeds),它在几乎所有的后拥有大量的调查信息数据库中提取信息二级学院和大学在美国,与大学记分卡的数据集(https://collegescorecard.ed.gov),其中包括各种机构的性能数据。您的模型和随后的战略必须建立在这两个数据集的一些有意义的,可防御的子集。

    除了必需的单页摘要您的MCM提交,你的报告必须包括信Goodgrant基金,阿尔法蒋介石先生,介绍了最优投资策略的首席财务官(CFO),您的建模方法和主要结果,和你提出了一个回报率的投资回报率(ROI)的概念进行了简要的讨论Goodgrant基金会应该采取评估的2016年捐款(S)和未来的慈善教育投资在美国境内的。这封信应不大于长两页多。

    注意:当您提交最终的电子解决方案不包含任何数据库文件。应提交的唯一的事情就是你的电子(Word或PDF)的解决方案。

    该ProblemCDATA.zip数据文件包含:

    题C - IPEDS UID为潜在的候选Schools.xlsx

    题C - 最近客群组数据(记分卡元素)的.xlsx

    题C - CollegeScorecardDataDictionary-09-08-2015.xlsx

    IPEDS数据Selection.pdf变量

    您也可以下载基于以下网站的数据(ProblemCDATA.zip):

    http://www.comap-math.com/mcm/ProblemCDATA.zip  

    http://www.mathismore.net/mcm/ProblemCDATA.zip  

    http://www.mathportals.com/mcm/ProblemCDATA.zip

     http://www.immchallenge.org/mcm/ProblemCDATA.zip    

    ProblemCDATA.zip


    名词介绍:  

    ●ROI(Return On Investment)投资回报率,通过投资而应返回的价值,即企业从一项投资性商业活动的投资中得到的经济回报。计算公式:ROI=利润/投资×100%。公式:投入产出比(ROI)=总成交金额/花费 ‍

    个人看法:

    大数据问题, 确定 features  选择合适的 model 训练。 

    这个大数据问题可以抽象成一个投资回报率模型的问题,影响一个学校的 group 被投资的资金数量的因素有很多,我们可以通过赛题提供的数据抽取相关的 features。 归一化,并组合我们的训练向量集合,使用适合的算法进行训练,得出当前较优的方案集合。

    如何评价这个方案的回报呢,我觉得类似于 rank,将历史各个 group 各个成果作为之前投资选择的回报成果的打分,进一步优化投资方案,反而复之,将会把方案优化到一个不错的 rank 结果值

    参考:

    The Quest for Societal ROI in the Midst of the Perfect Storm: Can SCM Set the Standard for Twenty-First Century Business Education?

    Return on Investment (ROI) training evaluation in Malaysian SMEs: factors influencing the adoption process

    Estimating the financial return on a veterinary education

    展开全文
  • 最新2020年Mathercup杯数学建模挑战赛ABCD赛题及附件(含论文写作规范),可用于参赛者和数学建模爱好者做应用,解题思路后更
  • 2021年MathorCup大数据挑战赛A题是个十分典型的大数据类赛题,赛题所给数据文件超大,常规Excel只能部分显示(Excel只能显示1048576行),文件大小8.61GB。如果采用python直接读入的话,整个程序会卡死;Matlab导入...
  • 本文给出2020年MathorCup高校数学建模挑战赛——大数据竞赛中的赛道A移动通信基站流量预测的baseline,这个题目的具体描述和数据集请见链接。 整个程序是用python写的,步骤包括文件读取、数据处理、特征构造、模型...
  • Algorithm:数学建模大赛(CUMCM/NPMCM)之建模历年题目类型、数据分析及官方评阅要点之详细攻略 目录 历届题目类型及其思想 1、CUMCM 1.1、CUMCM 1992~2000 1.2、CUMCM 2001~2010 1.3、CUMCM 2011~2021 1.4、...
  • 数学建模中,往往会遇到大数据题目,数量级通常在六位数以上。若使用人工处理数据的方法,根本不可能在四天之内处理完,并且电脑内存不够Excel会很卡。 因此,要选大数据题目,必须要掌握Pandas的一些基本操作...
  • 那些数学建模中我们踩过的坑 阿汪先生,现是一名积极奔三的……哦,是奔大三的在校大学生,参加过2018数学建模国赛、小美赛、美赛,拿了小美赛二等奖和美赛H奖(也就是俗称的二等奖)。最近看到很多学弟学妹对...
  • 本人曾获得美赛m奖(大二取得)等5个建模竞赛一等奖,做过数学建模培训课。将从如下几个方面来分享一下如何准备美赛: •美国大学生数学建模竞赛相关介绍 •美国大学生数学建模竞赛准备 •美国大学生数学建模竞赛...
  • 2018数学建模国赛回顾(国一)

    万次阅读 多人点赞 2018-11-18 10:30:14
    2018年数学建模国赛终于尘埃落定,第一次参赛,非常幸运地拿到了国一,在这里记录下这段难忘的经历,分享一些个人的看法心得。 其实严格来说,我从接触数模到参赛只有一个月左右的时间,我之所以能拿奖很大程度上要...
  • C题中文翻译: 问题C:“合作和导航” 由于道路的数量,美国许多地区的交通容量有限。 例如,在大西雅图地区,司机在交通高峰时段遇到长时间的延误 因为交通量超过了道路网络的设计容量。...在州际公路5号,90号和...
  • 2020美赛数学建模C题参考思路及可用代码2020美赛数学建模C题参考思路及可用代码2020美赛数学建模C题参考思路及可用代码2020美赛数学建模C题参考思路及可用代码2020美赛数学建模C题参考思路及可用代码2020美赛数学...
  • 2020年“华数杯”全国大学生数学建模竞赛比赛背景:为了响应教育部对人工智能、大数据专业人才培养的倡导,中国未来研究会大数据与数学模型专业委员会决定举办华数杯全国大学生数学建模竞赛。竞赛的目标是为培养大学...
  • 2020年“华数杯”全国大学生数学建模竞赛比赛背景:为了响应教育部对人工智能、大数据专业人才培养的倡导,中国未来研究会大数据与数学模型专业委员会决定举办华数杯全国大学生数学建模竞赛。竞赛的目标是为培养大学...
  • 2020年“华数杯”全国大学生数学建模竞赛比赛背景:为了响应教育部对人工智能、大数据专业人才培养的倡导,中国未来研究会大数据与数学模型专业委员会决定举办华数杯全国大学生数学建模竞赛。竞赛的目标是为培养大学...
  • 数学建模感想篇

    千次阅读 多人点赞 2019-04-19 12:12:38
    数学建模篇 大三狗,一共参加了2次国赛,2次美赛。一次国赛省一,一次国赛国一。两次美赛都是h(qaq太菜了)。 首先谈谈数学建模这个比赛吧。现在的数学建模竞赛有很多,由于笔者所在的学校只组织参加国赛和美赛,...
  • 关于数学建模的一些想法关于数学建模 关于数学建模
  • 2021年美国大学生数学建模竞赛助力

    千次阅读 多人点赞 2020-11-05 12:47:25
    将从如下几个方面来分享一下如何准备数学建模竞赛: •各类数学建模竞赛介绍 •全国大学生数学建模竞赛介绍 •美国大学生数学建模竞赛相关介绍 •竞赛准备 •如何写好一篇论文 1、各类数学建模竞赛介绍(非常全!!...
  • 美国数学建模比赛建议

    千次阅读 多人点赞 2018-02-05 16:54:01
    一、选题(建议半天内确定) 美国数学建模大赛分为MCM和ICM,从2017年的题目来看,ICM的要求更加明确,题目描述更加详细。那么ICM在评奖的时候,就会有所谓的标准答案。并且ICM提供了大量的参考链接和数据。在国内的...
  • 为了响应教育部对人工智能、大数据专业人才培养的倡导,中国未来研究会大数据与数学模型专业委员会决定举办华数杯全国大学生数学建模竞赛。竞赛的目标是为培养大学生的创新精神及运用数学解决社会实际问题的能力,为...
  • 数学建模,通过大数据进行分析和规划,在数学建模掌握思路是最容易让分析简单化和合理化
  • 本资料收集了2020年华为杯中国研究生数学建模竞赛全部赛题(包括A、B、C、D、E、F题),可供准备数模比赛的同学学习与参考。
  • 数学建模的整体构思

    2020-09-22 10:17:16
    关于数学建模的一些步骤技巧小分享前言一、如何选题二、数据处理手段总结 前言 本文主要分享和讲解一下传统意义上数学建模的整个思想和步骤流程,这里以博主参加过的mathorcup和华为杯为例,简要的梳理一下流程和...
  • 2021美国大学生数学建模比赛详细思路/2021美赛思路

    千次阅读 多人点赞 2021-02-04 17:45:08
    本人曾获得美赛O奖(大二取得)等5个建模竞赛一等奖,做过数学建模培训课。将从如下几个方面来分享一下如何准备美赛: •美国大学生数学建模竞赛相关介绍 •美国大学生数学建模竞赛准备 •美国大学生数学建模竞赛...
  • 美国大学生数学建模竞赛(MCM/ICM)由美国数学及其应用联合会主办,是唯一的国际性数学建模竞赛,也是世界范围内最具影响力的数学建模竞赛。赛题内容涉及经济、管理、环境、资源、生态、医学、安全、等众多领域。...
  • 2018研究生数学建模成绩分析

    万次阅读 2018-11-11 19:29:41
    2018年第十五届 全国研究生数学建模成绩分析,数据来源:2018研究生数学建模成绩汇总。2018第十五届全国研究生数学建模竞赛完整赛题下载。2018研究生数学建模成绩汇总。统计每个学校的获奖数量,统计每个学校的获奖...
  • 只有少数是不能被取代的(比如求非线性回归问题、一致性分析),而上手和普适性的话spss和matlab更适合 3.3 数据分类与查找 需要一个会数据分析的,因为本科数学建模比赛基本都有大数据题,或者一致性分析和非线性规划...
  •   2020年“华为杯”中国研究生数学建模竞赛一共有A、B、C、D、E、F六道题,其中A题为华为题,题目详细资料 提取码:28x2。   各道题的题目信息如下:   A题:华为题_芯片相噪算法设计   B题:汽油辛烷值建模...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,532
精华内容 612
关键字:

数学建模大数据题目