精华内容
下载资源
问答
  • 本节书摘来异步社区《Python机器学习——预测分析核心算法》一书中第2章,第2.6节,作者:【美】Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。2.6 多类别分类问题:它属于哪种...

    本节书摘来异步社区《Python机器学习——预测分析核心算法》一书中的第2章,第2.6节,作者:【美】Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

    2.6 多类别分类问题:它属于哪种玻璃

    多类别分类问题与二元分类问题类似,不同之处在于它有几个离散的输出,而不是只有两个。回顾探测未爆炸的水雷的问题,它的输出只有两种可能性:声纳探测的物体是岩石或者水雷。而红酒口感评分问题根据其化学成分会产生几个可能的输出(其口感评分值是从3分到8分)。但是对于红酒口感评分问题,口感评分值存在有序的关系。打5分的红酒要好于打3分的,但是要劣于打8分的。对于多类别分类问题,输出结果是不存在这种有序关系的。

    此节将根据玻璃的化学成分来判断玻璃的类型,目标是确定玻璃的用途。玻璃的用途包括建筑房间用玻璃、车辆上的玻璃、玻璃容器等。确定玻璃的用途类型是为了鉴证。例如在一个车祸或犯罪现场,会有玻璃的碎片,确定这些玻璃碎片的用途、来源,有助于确定谁是过错方或者谁是罪犯。代码清单2-16为生成玻璃数据集的统计信息的代码。图2-20为归一化玻璃数据的箱线图,箱线图显示有相当数量的异常点。

    代码清单2-16 玻璃数据集的统计信息-glassSummary.py

    __author__ = 'mike_bowles'

    import pandas as pd

    from pandas import DataFrame

    from pylab import *

    import matplotlib.pyplot as plot

    target_url = ("https://archive.ics.uci.edu/ml/machine-"

    "learning-databases/glass/glass.data")

    glass = pd.read_csv(target_url,header=None, prefix="V")

    glass.columns = ['Id', 'RI', 'Na', 'Mg', 'Al', 'Si',

    'K', 'Ca', 'Ba', 'Fe', 'Type']

    print(glass.head())

    #generate statistical summaries

    summary = glass.describe()

    print(summary)

    ncol1 = len(glass.columns)

    glassNormalized = glass.iloc[:, 1:ncol1]

    ncol2 = len(glassNormalized.columns)

    summary2 = glassNormalized.describe()

    for i in range(ncol2):

    mean = summary2.iloc[1, i]

    sd = summary2.iloc[2, i]

    glassNormalized.iloc[:,i:(i + 1)] = \

    (glassNormalized.iloc[:,i:(i + 1)] - mean) / sd

    array = glassNormalized.values

    boxplot(array)

    plot.xlabel("Attribute Index")

    plot.ylabel(("Quartile Ranges - Normalized "))

    show()

    Output: [filename - ]

    print(glass.head())

    Id RI Na Mg Al Si K Ca Ba Fe Type

    0 1 1.52101 13.64 4.49 1.10 71.78 0.06 8.75 0 0 1

    1 2 1.51761 13.89 3.60 1.36 72.73 0.48 7.83 0 0 1

    2 3 1.51618 13.53 3.55 1.54 72.99 0.39 7.78 0 0 1

    3 4 1.51766 13.21 3.69 1.29 72.61 0.57 8.22 0 0 1

    4 5 1.51742 13.27 3.62 1.24 73.08 0.55 8.07 0 0 1

    print(summary) - Abridged

    Id RI Na Mg Al

    count 214.000000 214.000000 214.000000 214.000000 214.000000

    mean 107.500000 1.518365 13.407850 2.684533 1.444907

    std 61.920648 0.003037 0.816604 1.442408 0.499270

    min 1.000000 1.511150 10.730000 0.000000 0.290000

    25% 54.250000 1.516523 12.907500 2.115000 1.190000

    50% 107.500000 1.517680 13.300000 3.480000 1.360000

    75% 160.750000 1.519157 13.825000 3.600000 1.630000

    max 214.000000 1.533930 17.380000 4.490000 3.500000

    K Ca Ba Fe Type

    count 214.000000 214.000000 214.000000 214.000000 214.000000

    mean 0.497056 8.956963 0.175047 0.057009 2.780374

    std 0.652192 1.423153 0.497219 0.097439 2.103739

    min 0.000000 5.430000 0.000000 0.000000 1.000000

    25% 0.122500 8.240000 0.000000 0.000000 1.000000

    50% 0.555000 8.600000 0.000000 0.000000 2.000000

    75% 0.610000 9.172500 0.000000 0.100000 3.000000

    max 6.210000 16.190000 3.15000 0 0.510000 7.000000```

    玻璃数据的箱线图显示有相当数量的异常点,至少与前面的例子相比,异常点数量上是比较多的。玻璃数据集有几个因素可能会导致出现异常点。首先这是一个分类问题,在属性值和类别之间不需要存在任何连续性,也就是说不应期望在各种类别之间,属性值是相互接近的、近似的。另外一个玻璃数据比较独特的地方是它的数据是非平衡的。成员最多的类有76个样本,而成员最小的类只有9个样本。统计时,平均值可能是由成员最多的那个类的属性值决定,因此不能期望其他的类别也有相似的属性值。采取激进的方法来区分类别可能会达到较好的结果,但这也意味着预测模型需要跟踪不同类别之间复杂的边界。在第3章可以了解到,如果给定足够多的数据,集成方法可以比惩罚线性回归方法产生更复杂的决策边界。而在第5、第7章可以看到哪种方法可以获得更好的效果。

    平行坐标图可能对此数据集揭示的信息更多。图2-21为其平行坐标图。数据根据输出类别用不同的颜色标记。有些类别区分度很好。例如,深蓝色的线聚集度很好,在某些属性上与其他类别的区分度也很好。深蓝的线在某些属性上经常处于数据的边缘,也就是说,是这些属性上的异常点。浅蓝的线在某些属性上也与深蓝的线一样,处于边缘地带,但是数量上要比深蓝的少,而且两者都在边缘地带时的所属的属性也不尽相同。棕色的线聚集性也很好,但其取值基本上在中心附近。

    代码清单2-17为产生玻璃数据的平行坐标图的代码。针对岩石vs.水雷问题,平行坐标图的线用2种颜色代表了2种目标类别。在回归问题(红酒口感评分、鲍鱼预测年龄),标签(目标类别)取实数值,平行坐标图的线取一系列不同的颜色。在多类别分类问题中,每种颜色代表一种类别,共有6种类别,6种颜色。标签是1~7,没有4。颜色的选择与回归问题中的方式类似:将目标类别(标签)除以其最大值,然后再基于此数值选择颜色。图2-22为玻璃数据的关联热图。关联热图显示了属性之间绝大多数是弱相关的,说明属性之间绝大多数是相互独立的,这是件好事情。标签(目标类别)没有出现在热图中,因为目标(类别)只取几个离散值中的一个。不包括目标类别无疑减少了关联热图所能揭示的信息。

    代码清单2-17 玻璃数据的平行坐标图-glassParallelPlot.py

    author = 'mike_bowles'

    import pandas as pd

    from pandas import DataFrame

    from pylab import *

    import matplotlib.pyplot as plot

    target_url = ("https://archive.ics.uci.edu/ml/machine-"

    "learning-databases/glass/glass.data")

    glass = pd.read_csv(target_url,header=None, prefix="V")

    glass.columns = ['Id', 'RI', 'Na', 'Mg', 'Al', 'Si',

    'K', 'Ca', 'Ba', 'Fe', 'Type']

    glassNormalized = glass

    ncols = len(glassNormalized.columns)

    nrows = len(glassNormalized.index)

    summary = glassNormalized.describe()

    nDataCol = ncols - 1

    normalize except for labels

    for i in range(ncols - 1):

    mean = summary.iloc[1, i]

    sd = summary.iloc[2, i]

    glassNormalized.iloc[:,i:(i + 1)] = \

    (glassNormalized.iloc[:,i:(i + 1)] - mean) / sd

    Plot Parallel Coordinate Graph with normalized values

    for i in range(nrows):

    #plot rows of data as if they were series data

    dataRow = glassNormalized.iloc[i,1:nDataCol]

    labelColor = glassNormalized.iloc[i,nDataCol]/7.0

    dataRow.plot(color=plot.cm.RdYlBu(labelColor), alpha=0.5)

    plot.xlabel("Attribute Index")

    plot.ylabel(("Attribute Values"))

    plot.show()`

    对玻璃数据的研究揭示了一个有趣的问题。具体地说,箱线图以及平行坐标图暗示了如果给定足够多的数据,采用集成方法是一个很好的选择。一系列的属性用来区分一个类别,明显类别之间会有复杂的边界。哪种算法会产生最佳的预测性能还有待进一步观察。本章学习的分析数据的方法已圆满完成了任务。它们可以帮助加深对问题的理解,通过各种权衡后可以更好地预判哪种算法可以获得较好的性能。

    展开全文
  • 本节书摘来异步社区《Python机器学习——预测分析核心算法》一书中第2章,第2.6节,作者:【美】Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.6 多类别分类问题:它属于哪...

    本节书摘来异步社区《Python机器学习——预测分析核心算法》一书中的第2章,第2.6节,作者:【美】Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

    2.6 多类别分类问题:它属于哪种玻璃

    多类别分类问题与二元分类问题类似,不同之处在于它有几个离散的输出,而不是只有两个。回顾探测未爆炸的水雷的问题,它的输出只有两种可能性:声纳探测的物体是岩石或者水雷。而红酒口感评分问题根据其化学成分会产生几个可能的输出(其口感评分值是从3分到8分)。但是对于红酒口感评分问题,口感评分值存在有序的关系。打5分的红酒要好于打3分的,但是要劣于打8分的。对于多类别分类问题,输出结果是不存在这种有序关系的。

    此节将根据玻璃的化学成分来判断玻璃的类型,目标是确定玻璃的用途。玻璃的用途包括建筑房间用玻璃、车辆上的玻璃、玻璃容器等。确定玻璃的用途类型是为了鉴证。例如在一个车祸或犯罪现场,会有玻璃的碎片,确定这些玻璃碎片的用途、来源,有助于确定谁是过错方或者谁是罪犯。代码清单2-16为生成玻璃数据集的统计信息的代码。图2-20为归一化玻璃数据的箱线图,箱线图显示有相当数量的异常点。

    代码清单2-16 玻璃数据集的统计信息-glassSummary.py

    __author__ = 'mike_bowles'
    import pandas as pd
    from pandas import DataFrame
    from pylab import *
    import matplotlib.pyplot as plot
    
    target_url = ("https://archive.ics.uci.edu/ml/machine-"
                  "learning-databases/glass/glass.data")
    
    glass = pd.read_csv(target_url,header=None, prefix="V")
    glass.columns = ['Id', 'RI', 'Na', 'Mg', 'Al', 'Si',
                     'K', 'Ca', 'Ba', 'Fe', 'Type']
    
    print(glass.head())
    
    #generate statistical summaries
    summary = glass.describe()
    print(summary)
    ncol1 = len(glass.columns)
    
    glassNormalized = glass.iloc[:, 1:ncol1]
    ncol2 = len(glassNormalized.columns)
    summary2 = glassNormalized.describe()
    
    for i in range(ncol2):
        mean = summary2.iloc[1, i]
        sd = summary2.iloc[2, i]
    
    glassNormalized.iloc[:,i:(i + 1)] = \
           (glassNormalized.iloc[:,i:(i + 1)] - mean) / sd
    
    array = glassNormalized.values
    boxplot(array)
    plot.xlabel("Attribute Index")
    plot.ylabel(("Quartile Ranges - Normalized "))
    show()
    
    Output: [filename - ]
    print(glass.head())
    
     Id      RI    Na   Mg   Al    Si    K   Ca Ba Fe Type
    0 1 1.52101 13.64 4.49 1.10 71.78 0.06 8.75  0  0    1
    1 2 1.51761 13.89 3.60 1.36 72.73 0.48 7.83  0  0    1
    2 3 1.51618 13.53 3.55 1.54 72.99 0.39 7.78  0  0    1
    3 4 1.51766 13.21 3.69 1.29 72.61 0.57 8.22  0  0    1
    4 5 1.51742 13.27 3.62 1.24 73.08 0.55 8.07  0  0    1
    
    
    print(summary) - Abridged
                  Id         RI         Na         Mg         Al
    count 214.000000 214.000000 214.000000 214.000000 214.000000
    mean  107.500000   1.518365  13.407850   2.684533   1.444907
    std    61.920648   0.003037   0.816604   1.442408   0.499270
    min     1.000000   1.511150  10.730000   0.000000   0.290000
    25%    54.250000   1.516523  12.907500   2.115000   1.190000
    50%   107.500000   1.517680  13.300000   3.480000   1.360000
    75%   160.750000   1.519157  13.825000   3.600000   1.630000
    max   214.000000   1.533930  17.380000   4.490000   3.500000
                   K         Ca         Ba         Fe       Type
    count 214.000000 214.000000 214.000000 214.000000 214.000000
    mean    0.497056   8.956963   0.175047   0.057009   2.780374
    std     0.652192   1.423153   0.497219   0.097439   2.103739
    min     0.000000   5.430000   0.000000   0.000000   1.000000
    25%     0.122500   8.240000   0.000000   0.000000   1.000000
    50%     0.555000   8.600000   0.000000   0.000000   2.000000
    75%     0.610000   9.172500   0.000000   0.100000   3.000000
    max     6.210000  16.190000   3.15000  0 0.510000   7.000000```
    
    <div style="text-align: center"><img src="https://yqfile.alicdn.com/8840bbbaa931259fed4a2bd382e44a55531acf50.png" width="" height="">
    </div>
    
    玻璃数据的箱线图显示有相当数量的异常点,至少与前面的例子相比,异常点数量上是比较多的。玻璃数据集有几个因素可能会导致出现异常点。首先这是一个分类问题,在属性值和类别之间不需要存在任何连续性,也就是说不应期望在各种类别之间,属性值是相互接近的、近似的。另外一个玻璃数据比较独特的地方是它的数据是非平衡的。成员最多的类有76个样本,而成员最小的类只有9个样本。统计时,平均值可能是由成员最多的那个类的属性值决定,因此不能期望其他的类别也有相似的属性值。采取激进的方法来区分类别可能会达到较好的结果,但这也意味着预测模型需要跟踪不同类别之间复杂的边界。在第3章可以了解到,如果给定足够多的数据,集成方法可以比惩罚线性回归方法产生更复杂的决策边界。而在第5、第7章可以看到哪种方法可以获得更好的效果。
    
    平行坐标图可能对此数据集揭示的信息更多。图2-21为其平行坐标图。数据根据输出类别用不同的颜色标记。有些类别区分度很好。例如,深蓝色的线聚集度很好,在某些属性上与其他类别的区分度也很好。深蓝的线在某些属性上经常处于数据的边缘,也就是说,是这些属性上的异常点。浅蓝的线在某些属性上也与深蓝的线一样,处于边缘地带,但是数量上要比深蓝的少,而且两者都在边缘地带时的所属的属性也不尽相同。棕色的线聚集性也很好,但其取值基本上在中心附近。
    
    <div style="text-align: center"><img src="https://yqfile.alicdn.com/12a7f264e8e5791d4cda46d6f38b3bddad43428a.png" width="" height="">
    </div>
    
    代码清单2-17为产生玻璃数据的平行坐标图的代码。针对岩石vs.水雷问题,平行坐标图的线用2种颜色代表了2种目标类别。在回归问题(红酒口感评分、鲍鱼预测年龄),标签(目标类别)取实数值,平行坐标图的线取一系列不同的颜色。在多类别分类问题中,每种颜色代表一种类别,共有6种类别,6种颜色。标签是1~7,没有4。颜色的选择与回归问题中的方式类似:将目标类别(标签)除以其最大值,然后再基于此数值选择颜色。图2-22为玻璃数据的关联热图。关联热图显示了属性之间绝大多数是弱相关的,说明属性之间绝大多数是相互独立的,这是件好事情。标签(目标类别)没有出现在热图中,因为目标(类别)只取几个离散值中的一个。不包括目标类别无疑减少了关联热图所能揭示的信息。
    
    代码清单2-17 玻璃数据的平行坐标图-glassParallelPlot.py

    author = 'mike_bowles'
    import pandas as pd
    from pandas import DataFrame
    from pylab import *
    import matplotlib.pyplot as plot

    target_url = ("https://archive.ics.uci.edu/ml/machine-"

              "learning-databases/glass/glass.data")
    

    glass = pd.read_csv(target_url,header=None, prefix="V")
    glass.columns = ['Id', 'RI', 'Na', 'Mg', 'Al', 'Si',

                 'K', 'Ca', 'Ba', 'Fe', 'Type']
    

    glassNormalized = glass
    ncols = len(glassNormalized.columns)
    nrows = len(glassNormalized.index)
    summary = glassNormalized.describe()
    nDataCol = ncols - 1

    normalize except for labels

    for i in range(ncols - 1):

    mean = summary.iloc[1, i]
    sd = summary.iloc[2, i]
    

    glassNormalized.iloc[:,i:(i + 1)] = \

        (glassNormalized.iloc[:,i:(i + 1)] - mean) / sd
    

    Plot Parallel Coordinate Graph with normalized values

    for i in range(nrows):

    #plot rows of data as if they were series data
    dataRow = glassNormalized.iloc[i,1:nDataCol]
    labelColor = glassNormalized.iloc[i,nDataCol]/7.0
    dataRow.plot(color=plot.cm.RdYlBu(labelColor), alpha=0.5)
    

    plot.xlabel("Attribute Index")
    plot.ylabel(("Attribute Values"))
    plot.show()`

    4b24ba17eac6cf4b36c2a643b5c5e9203fe6face

    对玻璃数据的研究揭示了一个有趣的问题。具体地说,箱线图以及平行坐标图暗示了如果给定足够多的数据,采用集成方法是一个很好的选择。一系列的属性用来区分一个类别,明显类别之间会有复杂的边界。哪种算法会产生最佳的预测性能还有待进一步观察。本章学习的分析数据的方法已圆满完成了任务。它们可以帮助加深对问题的理解,通过各种权衡后可以更好地预判哪种算法可以获得较好的性能。

    展开全文
  • 科研项目申报书中立题依据 主要考察申请者对国内外与本项目有关研究概况与最新进展了解程度,及其综合分析、系统归纳、发现问题、预测研究动向能力。下列哪些内容属于立题依据撰写范围:更多相关问题压师...

    科研项目申报书中的立题依据 主要考察申请者对国内外与本项目有关研究概况与最新进展的了解程度,及其综合分析、系统归纳、发现问题、预测研究动向的能力。下列哪些内容不属于立题依据撰写的范围:

    更多相关问题

    压师未取得处方权开具药品处方的:由县级以上卫生行政部门责令暂停执业活动的时间为()

    硬盘在移动、安装、维修过程中很容易受到物理损坏。以下描述中,()不能断定硬盘存在物理损伤。

    气阀启闭时刻的动作规律直接是由()控制。

    CZ15型照明消防车主灯的最大移动距离为()。

    尘粒的驱进速度是指它在静电除尘器中()

    煤在重介质旋流器中运动时,作用于煤上的力主要有()

    CZ15型照明消防车主灯的最大移动距离为()。

    根据《建筑工程冬期施工规程》-JGJT104-2011规定,油漆、刷浆、棱糊、玻璃工程应在采暖条件下进行施工。当需要在室外施工时,其最低环境温度不应低于()℃。

    金属电缆桥架及其支架全长应不少于()于接地(PE)或接零(PEN)干线相连接。

    某机房温度不高,但BBU进出风口周围均被杂物堵塞,导致出现的告警是()

    改变回流比可以改变每一塔盘上的()两项平衡。

    2009年10月31日,世界上规模最大的隧桥结合工程()长江隧桥正式建成通车。

    建立科学的安全管理模式首先要解决的是()问题。

    什么是连续冷却相变曲线(CCT)?

    改革开放以来,我国计划与市场关系经历了怎样的演变过程?

    最接近于现代高等教育,被称为现代高等教育雏形的是产生于()世纪的西欧的()。

    强心苷减漫心率后对心脏的有利点是()

    洗苯塔后含苯要求不大于()g/m3。

    国标规定每1000t火车原煤采取子样数目为60个,如果这样一个采样单元每车运量按66t计,才15节车皮,所以在原来3点采样布置的基础上,应该适当增加子样数目直到60个。

    车牌号码为沪DT6767的小型汽车,该车车主因涉嫌合同诈骗分别被()列为网上逃犯。

    穿过股管下口的结构是()

    闭合电路的电流强度与电源电动势成正比,与整个电路的电阻()。

    声波在不同介质中传播的()差别很大。

    CZ15型照明消防车主灯的最大移动距离为()。

    ()是法律运行的起始性和关键性环节。

    穿过股管下口的结构是()

    简要叙述气割开始时的操作过程。

    闭合电路的电流强度与电源电动势成正比,与整个电路的电阻()。

    车牌号码为沪DT6767的小型汽车,该车车主因涉嫌合同诈骗分别被()列为网上逃犯。

    改变回流比可以改变每一塔盘上的()两项平衡。

    根据《建筑工程冬期施工规程》-JGJT104-2011规定,油漆、刷浆、棱糊、玻璃工程应在采暖条件下进行施工。当需要在室外施工时,其最低环境温度不应低于()℃。

    闭合电路的电流强度与电源电动势成正比,与整个电路的电阻()。

    病例对照研究中,如某因素的存在可提高其相应疾病的检出率,则可发生()

    声波在不同介质中传播的()差别很大。

    建立科学的安全管理模式首先要解决的是()问题。

    展开全文
  • 网站根据访问历史数据(包括新用 户注册量、老用户活跃度、网页内容的更新频率等)预测用户支 付转化率;医院根据患者病历数据(如体检指标、药物服用情况、平 时饮食习惯等)预测某种疾病发生概率。 ...

    线性回归模型属于经典的统计学模型,该模型的应用场景是根据已 知的变量(自变量)来预测某个连续的数值变量(因变量)。例如,餐 厅根据每天的营业数据(包括菜谱价格、就餐人数、预定人数、特价菜 折扣等)预测就餐规模或营业额;网站根据访问的历史数据(包括新用 户的注册量、老用户的活跃度、网页内容的更新频率等)预测用户的支 付转化率;医院根据患者的病历数据(如体检指标、药物服用情况、平 时的饮食习惯等)预测某种疾病发生的概率。
    站在数据挖掘的角度看待线性回归模型,它属于一种有监督的学习 算法,即在建模过程中必须同时具备自变量x和因变量y。

    相关性分析

    对样本变量(包括自变量和因变量)的相关性分析
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    一元线性回归模型

    一元线性回归模型也被称为简单线性回归模型,是指模型中只含有一个自变量和一个因变量,用来建模的数据集可以表示成{(x1,y1),(x2,y2),……,(xn,yn)}。其中,xi表示自变量x的第i个值,yi表示因变量y的第i个值,n表示数据集的样本量。当模型构建好之后,就可以根据其他自变量x的值,预测因变量y的值,该模型的数学公式可以表示成:
    y=a+bx+ε
    其中,
    a为模型的截距项,
    b为模型的斜率项,
    ε为模型的误差项。
    模型中的a和b统称为回归系数误差项ε的存在主要是为了平衡等号两边的值,通常被称为模型无法解释的部分。
    在这里插入图片描述
    在上图中,圆点是样本,斜线是一元线性拟合函数。上图反映的就是自变量YearsExperience与因变量Salary之间的散点图,从散点图的趋势来看,工作年限与收入之间存在明显的正相关关系,即工作年限越长,收入水平越高。图中的直线就是关于散点的线性回归拟合线,从图中可知,每个散点基本上都是围绕在拟合线附近。
    如果拟合线能够精确地捕捉到每一个点(即所有散点全部落在拟合线上),那么对应的误差项ε应该为0。
    所以,模型拟合的越好,则误差项ε应该越小。进而可以理解为:求解参数的问题便是求解误差平方和最小的问题

    拟合线的求解

    我们接下来要学会如何根据自变量x和因变量y,求解回归系数a和b。前面已经提到,误差项ε是为了平衡等号两边的值,如果拟合线能够精确地捕捉到每一个点(所有的散点全部落在拟合线上),那么对应的误差项ε应该为0。按照这个思路来看,要想得到理想的拟合线,就必须使误差项ε达到最小。由于误差项是y与a+bx的差,结果可能为正值或负值,因此误差项ε达到最小的问题需转换为误差平方和最小的问题(最小二乘法的思路)。误差平方和的公式可以表示为:
    在这里插入图片描述
    由于建模时的自变量值和因变量值都是已知的,因此求解误差平方和最小值的问题就是求解函数J(a,b)的最小值,而该函数的参数就是回归系数a和b。
    该目标函数其实就是一个二元二次函数,如需使得目标函数J(a,b)达到最小,可以使用偏导数的方法求解出参数a和b,进而得到目标函数的最小值。关于目标函数的求导过程如下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    如上推导结果所示,参数a和b的值都是关于自变量x和因变量y的公式。接下来,根据该公式,利用Pyhton计算出回归模型的参数值a和b。
    在这里插入图片描述
    作图

    import pandas as pd
    import matplotlib.pyplot as plt
    import seaborn as sns
    
    #设置绘图风格
    plt.style.use('ggplot')
    #处理中文乱码
    plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
    #坐标轴负号的处理
    plt.rcParams['axes.unicode_minus']=False
    #导入数据集
    income = pd.read_csv(r'Salary_Data.csv')
    #绘制散点图,用seaborn,默认拟合为一元
    sns.lmplot(x='YearsExperience', y='Salary', data=income, ci=None)
    #设置横纵坐标的刻度范围
    plt.xlim((0, 11))   #x轴的刻度范围被设为a到b
    plt.ylim((0, 130000))    #y轴的刻度范围被设为a'到b'
    plt.show()
    

    结果
    在这里插入图片描述
    计算回归系数:

    import pandas as pd
    
    #导入数据集
    income = pd.read_csv(r'Salary_Data.csv')
    
    #样本量
    n = income.shape[0]
    #计算自变量、因变量、自变量平方、自变量与因变量乘积的和
    sum_x = income.YearsExperience.sum()    #自变量x的和
    sum_y = income.Salary.sum()    #因变量y的和
    sum_x2 = income.YearsExperience.pow(2).sum()    #自变量平方的和
    xy = income.YearsExperience * income.Salary    #自变量与因变量乘积
    sum_xy = xy.sum()    #自变量与因变量乘积的和
    #计算回归系数a,b
    b = (sum_xy - (sum_x*sum_y)/n) / (sum_x2 - sum_x**2/n)
    a = income.Salary.mean() - b*income.YearsExperience.mean()
    print('一元拟合函数的斜率b:',b)
    print('一元拟合函数的截距a:',a)
    

    结果:

    一元拟合函数的斜率b: 9449.962321455081
    一元拟合函数的截距a: 25792.200198668666
    

    计算回归模型的第三方模块statsmodels中的ols函数

    如上所示,利用Python的计算功能,最终得到模型的回归参数值。你可能会觉得麻烦,为了计算回归模型的参数还得人工写代码,是否有现成的第三方模块可以直接调用呢?答案是肯定的,这个模块就是statsmodels,它是专门用于统计建模的第三方模块,如需实现线性回归模型的参数求解,可以调用子模块中的ols函数。有关该函数的语法及参数含义可见下方:

    ols(formula, data, subset=None, drop_cols=None)
    
    • formula:以字符串的形式指定线性回归模型的公式,如’y~x’就表示简单线性回归模型。
    • data:指定建模的数据集。
    • subset:通过bool类型的数组对象,获取data的子集用于建模。
    • drop_cols:指定需要从data中删除的变

    这是一个语法非常简单的函数,而且参数也通俗易懂,但该函数的功能却很强大,不仅可以计算模型的参数,还可以对模型的参数和模型本身做显著性检验、计算模型的决定系数等。接下来,利用该函数计算模型的参数值,进而验证手工方式计算的参数是否正确:

    import pandas as pd
    import statsmodels.api as sm
    #导入数据集
    income = pd.read_csv(r'Salary_Data.csv')
    #利用收入数据集,构建回归模型
    fit = sm.formula.ols('Salary ~ YearsExperience', data=income).fit()
    #返回模型的参数值
    print(fit.params)
    

    结果:

    Intercept          25792.200199
    YearsExperience     9449.962321
    dtype: float64
    

    如上结果所示,Intercept表示截距项对应的参数值,
    YearsExperience表示自变量工作年限对应的参数值。对比发现,函数计
    算出来的参数值与手工计算的结果完全一致,所以,关于收入的简单线
    性回归模型可以表示成:
    Salary = 25792.20 + 9449.96YearsExperience

    多元线性回归模型

    一元线性回归模型反映的是单个自变量对因变量的影响,然而实际情况中,影响因变量的自变量往往不止一个,从而需要将一元线性回归模型扩展到多元线性回归模型。
    如果构建多元线性回归模型的数据集包含n个观测、p+1个变量(其中p个自变量和1个因变量),则这些数据可以写成下方的矩阵形式:
    在这里插入图片描述
    其中,xij代表第个i行的第j个变量值。如果按照一元线性回归模型的逻辑,那么多元线性回归模型应该就是因变量y与自变量X的线性组合,即可以将多元线性回归模型表示成:
    y=β01x12x2+…+βpxn
    根据线性代数的知识,可以将上式表示成y=Xβ+ε。
    其中,
    β为p×1的一维向量,代表了多元线性回归模型的偏回归系数;
    ε为n×1的一维向量,代表了模型拟合后每一个样本的误差项。

    回归模型的参数求解

    在多元线性回归模型所涉及的数据中,因变量y是一维向量,而自变量X为二维矩阵,所以对于参数的求解不像一元线性回归模型那样简单,但求解的思路是完全一致的。为了使读者掌握多元线性回归模型参数的求解过程,这里把详细的推导步骤罗列到下方:
    在这里插入图片描述
    根据线性代数的知识,可以将向量的平方和公式转换为向量的内积,接下来需要对该式进行平方项的展现。
    在这里插入图片描述
    在这里插入图片描述
    经过如上四步的推导,最终可以得到偏回归系数β与自变量X、因变量y的数学关系。这个求解过程也被成为“最小二乘法”。基于已知的偏回归系数β就可以构造多元线性回归模型。前文也提到,构建模型的最终目的是为了预测,即根据其他已知的自变量X的值预测未知的因变量y的值。

    回归模型的预测

    如果已经得知某个多元线性回归模型y=β01x12x2+…+βpxn,当有其他新的自变量值时,就可以将这些值带入如上的公式中,最终得到未知的y值。在Python中,实现线性回归模型的预测可以使用predict“方法”,关于该“方法”的参数含义如下:

    predict(exog=None, transform=True)
    
    • exog:指定用于预测的其他自变量的值。
    • transform:bool类型参数,预测时是否将原始数据按照模型表达式进行转换,默认为True。

    接下来将基于statsmodels模块对多元线性回归模型的参数进行求解,进而依据其他新的自变量值实现模型的预测功能。这里不妨以某产品的利润数据集为例,该数据集包含5个变量,分别是产品的研发成本、管理成本、市场营销成本、销售市场和销售利润,数据集的部分截图如下表所示。
    在这里插入图片描述
    上图表中数据集中的Profit变量为因变量,其他变量将作为模型的自变量。需要注意的是,数据集中的State变量为字符型的离散变量,是无法直接带入模型进行计算的,所以建模时需要对该变量进行特殊处理。
    (sklearn是python的重要机器学习库,其中封装了大量的机器学习算法,如:分类、回归、降维以及聚类;还包含了监督学习、非监督学习、数据变换三大模块。sklearn拥有完善的文档,使得它具有了上手容易的优势;并它内置了大量的数据集,节省了获取和整理数据集的时间。因而,使其成为了广泛应用的重要的机器学习库。ML神器:sklearn的快速使用
    有关产品利润的建模和预测过程如下代码所示:

    from sklearn import model_selection
    import pandas as pd
    import statsmodels.api as sm
    
    #导入数据
    Profit = pd.read_excel(r'Predict to Profit.xlsx')
    #将数据集拆分为训练集和测试集
    train, test = model_selection.train_test_split(Profit, test_size=0.2, random_state=1234)
    #根据train数据集建模
    model = sm.formula.ols('Profit ~ RD_Spend + Administration + Marketing_Spend + C(State)', data=train).fit()
    print('模型的偏回归系数分别为:\n', model.params)
    #删除test数据集中的Profit变量,用剩下的自变量进行预测
    test_X = test.drop(labels='Profit', axis=1)
    pred = model.predict(exog=test_X)
    print('对比预测值和实际值的差异:\n', pd.DataFrame({'Prediction': pred, 'Real':test.Profit}))
    

    结果:

    模型的偏回归系数分别为:
     Intercept               58581.516503
    C(State)[T.Florida]       927.394424
    C(State)[T.New York]     -513.468310
    RD_Spend                    0.803487
    Administration             -0.057792
    Marketing_Spend             0.013779
    dtype: float64
    对比预测值和实际值的差异:
            Prediction       Real
    8   150621.345801  152211.77
    48   55513.218079   35673.41
    14  150369.022458  132602.65
    42   74057.015562   71498.49
    29  103413.378282  101004.64
    44   67844.850378   65200.33
    4   173454.059691  166187.94
    31   99580.888894   97483.56
    13  128147.138396  134307.35
    18  130693.433835  124266.90
    

    Profit = 58581.52 + 0.80RD_Spend - 0.06Administation + 0.01Marketing_Spend + 927.39Florda - 513.47New York
    如上结果所示,得到多元线性回归模型的回归系数及测试集上的预测值,为了比较,将预测值和测试集中的真实Profit值罗列在一起。针对如上代码需要说明三点:

    • 为了建模和预测,将数据集拆分为两部分,分别是训练集(占80%)和测试集(占20%),训练集用于建模,测试集用于模型的预测。
    • 由于数据集中的State变量为非数值的离散变量,故建模时必须将其设置为哑变量的效果,实现方式很简单,将该变量套在C()中,表示将其当作分类(Category)变量处理。
    • 对于predict“方法”来说,输入的自变量X与建模时的自变量X必须保持结构一致,即变量名和变量类型必须都相同,这就是为什么代码中需要将test数据集的Profit变量删除的原因。

    对于输出的回归系数结果,读者可能会感到疑惑,为什么字符型变量State对应两个回归系数,而且标注了Florida和New York。那是因为字符型变量State含有三种不同的值,分别是California、Florida和NewYork,在建模时将该变量当作哑变量处理,所以三种不同的值就会衍生出两个变量,分别是State[Florida]和State[New York],而另一个变量State[California]就成了对照组。
    正如建模中的代码所示,将State变量套在C()中,就表示State变量需要进行哑变量处理。但是这样做会存在一个缺陷,那就是无法指定变量中的某个值作为对照组,正如模型结果中默认将State变量的California值作为对照组(因为该值在三个值中的字母顺序是第一个)。如需解决这个缺陷,就要通过pandas模块中的get_dummies函数生成哑变量,然后将所需的对照组对应的哑变量删除即可。为了使读者明白该解决方案,这里不妨重新建模,并以State变量中的New York值作为对照组,代码如下:

    from sklearn import model_selection
    import pandas as pd
    import statsmodels.api as sm
    
    #横向最多显示多少个字符, 一般80不适合横向的屏幕,平时多用200
    pd.set_option('display.width', 200)
    #显示所有列
    pd.set_option('display.max_columns',None)
    #显示所有行
    pd.set_option('display.max_rows', None)
    #导入数据
    Profit = pd.read_excel(r'Predict to Profit.xlsx')
    #生成由State变量衍生的哑变量
    dummies = pd.get_dummies(Profit.State)
    print(dummies)
    #将哑变量与原始数据集水平合并
    Profit_New = pd.concat([Profit, dummies], axis=1)
    print('Profit_New:\n',Profit_New)
    #删除State变量和New York变量(因为State变量已被分解为哑变量,New York变量需要作为参照组)
    Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
    #将数据集拆分为训练集和测试集
    train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
    #根据train数据集建模
    model = sm.formula.ols('Profit ~ RD_Spend + Administration + Marketing_Spend + Florida + California', data=train).fit()
    print('模型的偏回归系数分别为:\n', model.params)
    #删除test数据集中的Profit变量,用剩下的自变量进行预测
    test_X = test.drop(labels='Profit', axis=1)
    pred = model.predict(exog=test_X)
    print('对比预测值和实际值的差异:\n', pd.DataFrame({'Prediction': pred, 'Real':test.Profit}))
    

    结果:

        California  Florida  New York
    0            0        0         1
    1            1        0         0
    2            0        1         0
    3            0        0         1
    4            0        1         0
    5            0        0         1
    6            1        0         0
    7            0        1         0
    8            0        0         1
    9            1        0         0
    10           0        1         0
    11           1        0         0
    12           0        1         0
    13           1        0         0
    14           0        1         0
    15           0        0         1
    16           1        0         0
    17           0        0         1
    18           0        1         0
    19           0        0         1
    20           1        0         0
    21           0        0         1
    22           0        1         0
    23           0        1         0
    24           0        0         1
    25           1        0         0
    26           0        1         0
    27           0        0         1
    28           0        1         0
    29           0        0         1
    30           0        1         0
    31           0        0         1
    32           1        0         0
    33           0        1         0
    34           1        0         0
    35           0        0         1
    36           0        1         0
    37           1        0         0
    38           0        0         1
    39           1        0         0
    40           1        0         0
    41           0        1         0
    42           1        0         0
    43           0        0         1
    44           1        0         0
    45           0        0         1
    46           0        1         0
    47           1        0         0
    48           0        0         1
    Profit_New:
          RD_Spend  Administration  Marketing_Spend       State     Profit  California  Florida  New York
    0   165349.20       136897.80        471784.10    New York  192261.83           0        0         1
    1   162597.70       151377.59        443898.53  California  191792.06           1        0         0
    2   153441.51       101145.55        407934.54     Florida  191050.39           0        1         0
    3   144372.41       118671.85        383199.62    New York  182901.99           0        0         1
    4   142107.34        91391.77        366168.42     Florida  166187.94           0        1         0
    5   131876.90        99814.71        362861.36    New York  156991.12           0        0         1
    6   134615.46       147198.87        127716.82  California  156122.51           1        0         0
    7   130298.13       145530.06        323876.68     Florida  155752.60           0        1         0
    8   120542.52       148718.95        311613.29    New York  152211.77           0        0         1
    9   123334.88       108679.17        304981.62  California  149759.96           1        0         0
    10  101913.08       110594.11        229160.95     Florida  146121.95           0        1         0
    11  100671.96        91790.61        249744.55  California  144259.40           1        0         0
    12   93863.75       127320.38        249839.44     Florida  141585.52           0        1         0
    13   91992.39       135495.07        252664.93  California  134307.35           1        0         0
    14  119943.24       156547.42        256512.92     Florida  132602.65           0        1         0
    15  114523.61       122616.84        261776.23    New York  129917.04           0        0         1
    16   78013.11       121597.55        264346.06  California  126992.93           1        0         0
    17   94657.16       145077.58        282574.31    New York  125370.37           0        0         1
    18   91749.16       114175.79        294919.57     Florida  124266.90           0        1         0
    19   86419.70       153514.11             0.00    New York  122776.86           0        0         1
    20   76253.86       113867.30        298664.47  California  118474.03           1        0         0
    21   78389.47       153773.43        299737.29    New York  111313.02           0        0         1
    22   73994.56       122782.75        303319.26     Florida  110352.25           0        1         0
    23   67532.53       105751.03        304768.73     Florida  108733.99           0        1         0
    24   77044.01        99281.34        140574.81    New York  108552.04           0        0         1
    25   64664.71       139553.16        137962.62  California  107404.34           1        0         0
    26   75328.87       144135.98        134050.07     Florida  105733.54           0        1         0
    27   72107.60       127864.55        353183.81    New York  105008.31           0        0         1
    28   66051.52       182645.56        118148.20     Florida  103282.38           0        1         0
    29   65605.48       153032.06        107138.38    New York  101004.64           0        0         1
    30   61994.48       115641.28         91131.24     Florida   99937.59           0        1         0
    31   61136.38       152701.92         88218.23    New York   97483.56           0        0         1
    32   63408.86       129219.61         46085.25  California   97427.84           1        0         0
    33   55493.95       103057.49        214634.81     Florida   96778.92           0        1         0
    34   46426.07       157693.92        210797.67  California   96712.80           1        0         0
    35   46014.02        85047.44        205517.64    New York   96479.51           0        0         1
    36   28663.76       127056.21        201126.82     Florida   90708.19           0        1         0
    37   44069.95        51283.14        197029.42  California   89949.14           1        0         0
    38   20229.59        65947.93        185265.10    New York   81229.06           0        0         1
    39   38558.51        82982.09        174999.30  California   81005.76           1        0         0
    40   28754.33       118546.05        172795.67  California   78239.91           1        0         0
    41   27892.92        84710.77        164470.71     Florida   77798.83           0        1         0
    42   23640.93        96189.63        148001.11  California   71498.49           1        0         0
    43   15505.73       127382.30         35534.17    New York   69758.98           0        0         1
    44   22177.74       154806.14         28334.72  California   65200.33           1        0         0
    45    1000.23       124153.04          1903.93    New York   64926.08           0        0         1
    46    1315.46       115816.21        297114.46     Florida   49490.75           0        1         0
    47       0.00       135426.92             0.00  California   42559.73           1        0         0
    48     542.05        51743.15             0.00    New York   35673.41           0        0         1
    模型的偏回归系数分别为:
     Intercept          58068.048193
    RD_Spend               0.803487
    Administration        -0.057792
    Marketing_Spend        0.013779
    Florida             1440.862734
    California           513.468310
    dtype: float64
    对比预测值和实际值的差异:
            Prediction       Real
    8   150621.345802  152211.77
    48   55513.218079   35673.41
    14  150369.022458  132602.65
    42   74057.015562   71498.49
    29  103413.378282  101004.64
    44   67844.850378   65200.33
    4   173454.059692  166187.94
    31   99580.888895   97483.56
    13  128147.138397  134307.35
    18  130693.433835  124266.90
    

    如上结果所示,从离散变量State中衍生出来的哑变量在回归系数的结果里只保留了Florida和California,而New York变量则作为了参照组。以该模型结果为例,得到的模型公式可以表达为:
    Profit = 58068.05 + 0.80RD_Spend-0.06Administation + 0.01Marketing_Spend + 1440.86Florida + 513.47California
    虽然模型的回归系数求解出来了,但从统计学的角度该如何解释模型中的每个回归系数呢?
    下面分别以研发成本RD_Spend变量和哑变量Florida为例,解释这两个变量对模型的作用:在其他变量不变的情况下,研发成本每增加1美元,利润会增加0.80美元;在其他变量不变的情况下,以New York为基准线,如果在Florida销售产品,利润会增加1440.86美元。
    关于产品利润的多元线性回归模型已经构建完成,但是该模型的好与坏并没有相应的结论,还需要进行模型的显著性检验和回归系数的显著性检验。

    总结

    在实际应用中,如果因变量为数值型变量,可以考虑使用线性回归模型。但是前提得满足几点假设,如Python数据分析与挖掘——回归模型的诊断:因变量服从正态分布、自变量间不存在多重共线性、自变量与因变量之间存在线性关系、用于建模的数据集不存在异常点、残差项满足方差异性和独立性。

    展开全文
  • 法律声明:本公众号所登载文章、图片仅供学习、交流、查询之用,版权属于原作者,本公众号登载并不表示...中国汽车流通协会副秘书长郎学红分享了《汽车市场走势分析及2021年预测》。今年由于受到疫情影响,整个...
  • 本文主要是基于LSTM(Long Short-Term Memory)长短期记忆神经网络来实践多变量序列预测,并完成对未来指定步长时刻数据预测、分析和可视化,,手把手教你去搭建属于自己的预测分析模型。 本文主要分为:LSTM...
  • 内容说明本发明涉及一种基于决策树算法在一段时间周期内(月、季、半年、年)预测电能表在发生计量、用电异常时发生故障概率,属于电力行业用电营销和计量技术领域。发明背景目前,由于安徽省电力公司安装在现场...
  • 信号数据EMD分解+IMF时序数据LSTM预测建模实践

    千次阅读 热门讨论 2020-05-30 17:24:00
    分解处理,之后基于LSTM模型来实现时序数据建模预测分析。 对于现在我来说,属于数据信号处理领域里面小白,所以写这篇文章很可能会有错误或者是不合理地方,如果问题欢迎指出,欢迎交流学习,同时呢?...
  • 统计和数据分析是两个密切相关领域。...了解问题一开始可能有点难度,数据分析对于这个领域新手来说,可能需要对该领域内的预测内容进行重大探索。 可以在搭建问题框架时期协助探索统计方法包括数据探索,还可以
  • 变电站扩建间隔电磁环境影响属于此类工程环境影响评价重要内容。通过对扩建间隔工程建设情况的分析,介绍了各种情况下电磁环境影响预测与评价方法,结合某实例工程,分析了各种方法适用性,可供环境影响评价工作者...
  • 说到数据分析,啤酒和尿布的例子...分类分析的目标是:给一批人(或者物)分成几个类别,或者预测他们属于每个类别的概率大小。 举个栗子:“京东的用户中,有哪些会在618中下单?”这就是个典型的二分类问题:买or不...
  • 包含数据分析和数据挖掘学习代码和实战代码 本项目很多内容属于边学边试。参考了书籍,但是很多代码存在过时和错误均被我修改。 数据挖掘是最近几年才出现一个名词,其归根到底目的就是经过一系列手段处理...
  • 分类和预测是两种数据分析形式,可以用于提取描述重要数据类模型或预测未来数据趋势。然而,分类是预测分类标号(或离散值),而预测建立连续值函数模型   数据分类是一个两步过程。第一步,建立一个模型,...
  • 此文档属于编译原理一个实验报告,对预测分析法语法分析器做了开发,并有相应描述内容.
  • 人人车二手车数据用于机器学习二手车价格预测,数据为json格式,二手车数据属性包含:售价、行驶里程、车牌所在地、保险信息、出厂日期、以及车辆详细配置信息,大概有180-200个属性,内容丰富,属于爬取原始...
  • 思想:在一些已知研究对象用某种方法已经分成若干类情况下,确定新样本属于已知类别中哪一类。 二、实验要求 1、以舒张期血压和血浆胆固醇含量预测被检查者是否患冠心病。测得15名冠心病患者和16名健康人...
  • 判别分析原理及R语言实现

    万次阅读 多人点赞 2018-08-07 00:08:54
    判别分析(discriminat analysis)他要解决问题是在一些已知研究对象已经用某种方法分成若干类情况下,确定新样品属于已知类别中哪一类。如已知健康人和冠心病人血压、血脂等资料,以此建立判别函数,对新...
  • 接上期【土地利用变化分析1】如何在ArcGIS中计算土地利用转移矩阵,我们已经算得了两期土地利用之间转移面积矩阵或转移概率矩阵,这在土地利用模拟预测中具有重要作用。接下来IDRISI将要‘’粉墨登场‘’,在...
  • (36) 下列工具中属于需求分析常用工具是(D) 注:P67 A. PAD B. PFD C. N-S D. DFD (37) 下面不属于软件设计原则是(C) 注:P73 A. 抽象 B. 模块化 C. 自底向上 D. 信息隐蔽 (38) 索引属于(B) A. 模式 B. 内模式 C...
  • 线性回归模型属于经典统计学模型,该模型应用场景是根据已知变量(自变量)来预测某个连续数值变量(因变量)。例如,餐厅根据每天营业数据(包括菜谱价格、就餐人数、预定人数、特价菜折扣等)预测就餐...
  • 说明:本博客中的分析思路、举例、部分插图等均来源于吴恩达教授在斯坦福大学公开课《机器学习》中讲解内容! 一、概述 单变量线性回归算法属于监督学习一类,所谓回归是指我们根据之前数据预测一个较为准确...
  • 编制会计报表属于会计核算方法吗?编制财务会计报告是根据账簿记录的数据资料,概括地,综合地反映各单位在一定时期经济活动情况及其结果的一种书面报告。... 会计核算的内容包括:款项和有价证券...
  • 我们将开发一个文本分类模型,该模型可分析文本注释并预测与该注释关联多个标签。多标签分类问题实际上是多个输出模型子集。在本文结尾,您将能够对数据执行多标签文本分类。数据集数据集包含来自Wikipedia对话...
  • 特征构造也属于特征工程一部分,其目的是为了增强数据表达。 常见特征工程包括下方内容: 3.1 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 3.2 特征...
  • 线性回归模型属于经典统计学模型,该模型应用场景是根据已知变量(自变量)来预测某个连续数值变量(因变量)。例如,餐厅根据每天营业数据(包括菜谱价格、就餐人数、预定人数、特价菜折扣等)预测就餐规模或...
  • 线性回归模型属于经典统计学模型,该模型应用场景是根据已知变量(自变量)来预测某个连续数值变量(因变量)。例如,餐厅根据每天营业数据(包括菜谱价格、就餐人数、预定人数、特价菜折扣等)预测就餐...

空空如也

空空如也

1 2 3 4 5 6
收藏数 119
精华内容 47
关键字:

属于预测分析的内容