精华内容
下载资源
问答
  • 本书涉及的机器学习问题通常是指“函数逼近”问题。是有监督学习问题的一个子集。...从广义上说,本书涵盖了解决函数逼近问题的两类算法:惩罚线性回归和集成方法。  为什么这两类算法如此有用? 1.“An Empirica...

        本书涉及的机器学习问题通常是指“函数逼近”问题。是有监督学习问题的一个子集。线性回归和逻辑回归是解决此类函数逼近问题最常见的算法。函数逼近问题包含了各种领域中的分类问题和回归问题,如文本分类、搜索响应、广告放置、垃圾邮件过滤、用户行为预测、诊断等。从广义上说,本书涵盖了解决函数逼近问题的两类算法:惩罚线性回归和集成方法。

        为什么这两类算法如此有用?

    1.“An Empirical Comparison of Supervised Learning Algorithms,” Rich Caruana, Alexandru Niculescu-Mizi

        本书涵盖的算法提升决策树(Boosted Decision Trees)、随机森林(Random Forests)、投票决策树(Bagged Decision Trees)和逻辑回归(Logistic Regression)

    2.“An Empirical Evaluation of Supervised Learning in High Dimensions,” Rich Caruana,Nikos Karampatziakis 和 Ainur Yessenalina

         惩罚回归方法是由普通最小二乘法(OLS)衍生出来的。OLS的一个根本问题就是有时它会过拟合。惩罚线性回归可以减少自由度使之与数据规模、问题的复杂度相匹配。对于具有大量自由度的问题,惩罚线性回归方法获得了广泛的应用。(统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的自变量的个数称为该统计量的自由度),基因问题,通常其自由度(基因的数目)是数以万计的;文本分类问题,其自由度可以超过百万。

         集成方法的基本思想是构建多个不同的预测模型,然后将其输出做某种组合作为最终的输出,如平均值或采用多数人的意见。单个预测模型叫作基学习器(base learners)。计算学习理论(computation learning theory)的研究结果证明只要基学习器比随机猜测稍微好些,那么集成方法就可以达到相当好的效果。

    2、通过理解数据来了解问题

         属性和标签的不同类型决定模型的选择,主要原因是很多机器学习算法只能处理数值变量,不能处理类别变量或因素变量。例如,惩罚回归算法只能处理数值变量,SVM、核方法、KNN也是同样。

        当标签是数值的,就叫作回归问题。当标签是类别的,就叫作分类问题。一个分类器就相当于只算出一个等高线,而不再考虑与这条分界线的远近距离之类的问题,而回归的方法就相当于要绘制一个完整的地形图。

         新数据集的注意事项:

    • 行数、列数、规模
    • 类别变量的数目、类别的取值范围
    • 缺失的值
    • 属性和标签的统计特性

    2.2、分类问题:用声纳发现未爆炸的水雷

    数据集来自UC Irvine数据仓库:测试声纳是否可以用于检测在港口军事行动后遗留下来的未爆炸的水雷。

    数据集的物理特性rockVminesSummaries.py

    __author__ = 'mike_bowles'
    import urllib2
    import sys
    
    target_url = ("https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data")
    data = urllib2.urlopen(target_url)
    
    xList = []
    labels = []
    for line in data:
    	row = line.strip().split(",")
    	xList.append(row)
    
    sys.stdout.write("Number of Rows of Data = " + str(len(xList)) + '\n')
    sys.stdout.write("Number of Columns of Data = " + str(len(xList[1])))
    Number of Rows of Data = 208
    Number of Columns of Data = 61

     如果数据集规模增加到1000x1000,惩罚线性回归训练时间将不到一分钟,而集成方法训练时间需要几分钟。万级规模,则惩罚线性回归的训练时间将达到3~4小时,而集成方法则长达12~24小时。

    确定每个属性的特征

      第一步计算此属性的均值和方差,可以加强直观感受

      第二步找到异常值,一种方法是:将一组数字按照百分位数进行划分。例如,第25百分位数是含有最小的25%的数,第50百分位数是含有最小的50%的数。把这种分组可视化最简单的方法是假想把这些数据按顺序排列。使用Python的probplot函数来帮助确认数据中是否含有异常点。分布图展示了数据的百分位边界与高斯分布的同样百分位的边界对比。如果此数据服从高斯分布,则画出来的点应该是一条直线。

    Pandas工具包可以帮助自动化数据统计分析的过程,已经被证实在数据预处理阶段特别有用。Pandas工具包可以将数据读入一种特定的数据结构,叫作数据框(data frame),其是依据CRAN-R数据结构建模的。可以把数据框当成一个表格或者类似矩阵的数据结构。Pandas可以自动计算出均值、方差、分位树。

    可视化展示

        对于具有多个属性问题的一种可视化方法叫作平行坐标图

        了解属性之间的关系可以绘制属性与标签的交会图 (又叫作散点图)展示了这些属性对之间关系的密切程度。基本上,如果散点图上的点沿着一条“瘦"直线排列,则说明这两个变量强相关;如果这些点形成一个球型,则说明这些点不相关。

    第35属性与标签的关系

    两个属性的相关程度可以由皮尔逊相关系数来量化

    用热图(heat map)展示属性和标签的相关性

    如果问题有100以上的属性,则很难把散点图压缩到一页。获得大量属性之间相关性的一种方法是计算出每对属性的皮尔森相关系数后,将相关系数构成一个矩阵,然后把这些矩阵元素画到热图上。沿着斜对角线的浅色区域证明索引值相近的属性相关性较高。

    # -*- coding: utf-8 -*-
    __author__ = 'mike_bowles'
    import urllib2
    import sys
    
    target_url = ("https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data")
    data = urllib2.urlopen(target_url)
    
    xList = []
    labels = []
    for line in data:
    	row = line.strip().split(",")
    	xList.append(row)
    # 数据行列数
    nrow = len(xList)
    ncol = len(xList[1])
    
    # 数据的属性,是数值还是类别型
    type = [0]*3
    colCounts = []
    
    for col in range(ncol):
    	for row in xList:
    		try:
    			a = float(row[col])
    			if isinstance(a, float):
    				type[0] += 1
    		except ValueError:
    			if len(row[col]) > 0:
    				type[1] += 1
    			else:
    				type[2] += 1
    	colCounts.append(type)
    	type = [0]*3
    
    sys.stdout.write("Col#" + '\t' + "Number" + '\t' + "Strings" + '\t ' + "Other\n")
    
    iCol = 0
    for types in colCounts:
    	sys.stdout.write(str(iCol) + '\t\t' + str(types[0]) + '\t\t' + str(types[1]) + '\t\t' + str(types[2]) + "\n")
    	iCol += 1
    
    # 获取数值型属性的描述性统计信息和类别型属性具体类型的数量分布
    import numpy as np
    
    type = [0]*3
    colCounts = []
    
    col = 3
    colData = []
    for row in xList:
    	colData.append(float(row[col]))
    
    colArray = np.array(colData)
    colMean = np.mean(colArray)
    colsd = np.std(colArray)
    sys.stdout.write("Mean = " + '\t' + str(colMean) + '\t\t' + "Standard Deviation = " + '\t' + str(colsd) + "\n")
    # calculate quantile boundaries
    ntiles = 4
    percentBdry = []
    for i in range(ntiles+1):
    	percentBdry.append(np.percentile(colArray, i*(100)/ntiles))
    sys.stdout.write("\nBoundaries for 4 Equal Percentiles \n")
    print(percentBdry)
    sys.stdout.write(" \n")
    
    ntiles = 10
    percentBdry = []
    for i in range(ntiles+1):
    	percentBdry.append(np.percentile(colArray, i*(100)/ntiles))
    sys.stdout.write("\nBoundaries for 10 Equal Percentiles \n")
    print(percentBdry)
    sys.stdout.write(" \n")
    
    #The last column contains categorical variables
    col = 60
    colData = []
    for row in xList:
    	colData.append(row[col])
    
    unique = set(colData)
    sys.stdout.write("Unique Label Values \n")
    print(unique)
    
    # count up the number of elements having each value
    catDict = dict(zip(list(unique), range(len(unique))))
    catCount = [0]*2
    for elt in colData:
    	catCount[catDict[elt]] += 1
    sys.stdout.write("\nCounts for Each Value of Categorical Label \n")
    print(list(unique))
    print(catCount)
    
    # 分位图
    import pylab
    import scipy.stats as stats
    
    col = 3
    colData = []
    for row in xList:
    	colData.append(float(row[col]))
    
    #stats.probplot(colData, dist="norm", plot=pylab)
    #pylab.show()
    
    # 用Pandas读入数据、分析数据
    import pandas as pd
    from pandas import DataFrame
    import matplotlib.pyplot as plot
    
    rocksVMines = pd.read_csv(target_url, header=None, prefix="V")
    print(rocksVMines.head())
    print(rocksVMines.tail())
    # print summary of data frame
    summary = rocksVMines.describe()
    print(summary)
    '''
    # 平行坐标图
    for i in range(208):
    	if rocksVMines.iat[i, 60] == "M":
    		pcolor = "red"
    	else:
    		pcolor = "blue"
    	# plot rows of data as if they were series data
    	dataRow = rocksVMines.iloc[i, 0:60]
    	dataRow.plot(color=pcolor)
    
    plot.xlabel("Index")
    plot.ylabel("Values")
    plot.show()
    '''
    
    # 交会图
    dataRow2 = rocksVMines.iloc[1, 0:60]
    dataRow3 = rocksVMines.iloc[2, 0:60]
    plot.scatter(dataRow2, dataRow3)
    plot.xlabel("2nd Attribute")
    plot.ylabel("3rd Attribute")
    plot.show()
    
    dataRow21 = rocksVMines.iloc[20, 0:60]
    plot.scatter(dataRow2, dataRow21)
    plot.xlabel("2nd Attribute")
    plot.ylabel("21st Attribute")
    plot.show()
    
    # 第35属性
    target = []
    for i in range(208):
    	if rocksVMines.iat[i, 60] == "M":
    		target.append(1.0)
    	else:
    		target.append(0.0)
    dataRow = rocksVMines.iloc[0:208, 35]
    plot.scatter(dataRow, target)
    plot.xlabel("Attribute Value")
    plot.ylabel("Target Value")
    plot.show()
    
    from random import uniform
    target = []
    for i in range(208):
    	if rocksVMines.iat[i, 60] == "M":
    		target.append(1.0 + uniform(-0.1, 0.1))
    	else:
    		target.append(0.0 + uniform(-0.1, 0.1))
    dataRow = rocksVMines.iloc[0:208, 35]
    plot.scatter(dataRow, target, alpha=0.5, s=120)
    plot.xlabel("Attribute Value")
    plot.ylabel("Target Value")
    plot.show()	
    
    # 热图
    corMat = DataFrame(rocksVMines.corr())
    plot.pcolor(corMat)
    plot.show()

    2.4、基于因素变量的实数值预测:鲍鱼的年龄

         鲍鱼数据集的问题是根据某些测量值

    2.5 用实数值属性预测实数值目标:评估红酒口感

            每一种红酒都有一系列化学成分的测量指标,包括酒精含量、挥发性酸、亚硝酸盐。每种红酒都有一个口感评分值,是三个专业评酒员的评分的平均值。问题是构建一个预测模型,输入化学成分的测量值,预测口感评分值,使之与评酒员的评分一致。

    2.6 多类别分类问题:它属于哪种玻璃

             多分类问题         

     

    展开全文
  • 分类和预测概述

    千次阅读 2014-04-01 21:24:59
    分类和预测具有大量应用,包括欺诈检测、针对销售、性能预测、制造和诊断。例如,可以建立一个分类模型,对银行贷款应用的安全或风险进行分类(那些贷款申请者是“安全的”,,银行的“风险”是什么);也可以建立...
    
    什么是分类和预测?
       分类和预测具有大量应用,包括欺诈检测、针对销售、性能预测、制造和诊断。例如,可以建立一个分类模型,对银行贷款应用的安全或风险进行分类(那些贷款申请者是“安全的”,,银行的“风险”是什么);也可以建立预测模型,给定潜在顾客的收入和职业,预测他们在计算机设备上的花费。
       市场经理需要数据分析,以便帮助他来猜测具有某些特征的顾客是否会购买一台新的计算机;医学研究者希望分析乳腺癌数据,预测病人应当接受三种具体治疗方案的哪一种。这都是分类的例子。而如果市场经理希望预测一位顾客在一次销售期间将花多少钱,该数据任务就属于数值预测,其中所构造的模型预测一个连续值函数或有序值。这种模型是预测器(predictor)。回归分析(regression analysis)是数值预测最常用的统计学方法。我们也可以预测银行可以安全地贷给贷款人的贷款量。
    分类和数值预测是预测问题的两种主要类型。
    分类和预测都的第一步都可以看作是学习一个映射或函数y = f(X)。对于分类来说,它可以预测给定元组X的关联类标号y;而对于预测来说,X是输入,而y是连续的或有序的输出值。而且,不应当使用训练集来平规分类或预测的准确率,而应当使用一个独立的检验集。
     
    分类与预测的数据预处理
    为了提高分类或预测过程的准确性、有效性和可伸缩性,我们可以使用下面的预处理步骤:
    (1)数据清理:消除或减少数据噪声和处理缺失值,以减少学习时的混乱。
    (2)相关分析:识别任意两个给定的属性是否是统计相关的。例如,强相关的两个属性A1和A2可能意味着两个属性之一可以从进一步分析中删除。还可能包含有不相关的属性,这时我们就可以使用属性子集选择来找出属性的规约子集,使得数据类的结果概率分布与使用所有属性得到的原分布尽可能接近。相关分析可帮助提高分类的有效性和可伸缩性。
    (3)数据变换与规约:通过规范化对数据进行变换,尤其是在学习阶段使用神经网络或涉及距离度量发方法时。规范化将所给的属性的所有值按比例缩放,使得它们落入较小的指定区间,如[-1, 1]。如在使用距离度量的方法中,这可放置具有较大初始值域的属性相对于具有较小初始值域的属性权重过大。数据也可以通过泛化到较高层概念进行变换,这种变换对连续属性尤其有用。这样就压缩了原来的训练数据,使得学时时的输入/输出操作减少了。其他的变换方法还有小波变换、主成份分析、分箱、直方图分析和距离等离散化技术。
    展开全文
  • 降雨预测方法

    千次阅读 2020-05-30 19:14:15
    降雨预测方法 DBNPF (Deep Belief Network for Precipitation Forecast) 来源:张雷师兄论文:A deep-learning based precipitation forecasting 模型: 比较:RBF、SVM、ARIMA、ELM(extreme learning machine...

    降雨预测方法

    • DBNPF (Deep Belief Network for Precipitation Forecast)

      来源:张雷师兄论文:A deep-learning based precipitation forecasting

    模型:

    在这里插入图片描述

    比较:RBF、SVM、ARIMA、ELM(extreme learning machine)、SAE(Sparse AutoEncoder)
    数据集:

    遵义市1956-2010

    train data:1956-2000

    test data:2000-2010

    • 动态区域组合MLP

      来源:贾旸旸师兄论文:Short-term Rainfall Forecasting Using Multi-layer Perceptron

    模型:

    PCA:13个物理因子进行降维,输入到MLP中

    贪婪算法决定MLP的结构,

    该模型的初始数据包括五个高空因素和八个地表因素。

    在气象学中,通常用位势高度代替实际高度,用等压面代替水平高度,因此,气象数据总是采用等压面格式。例如,500hpa通常相当于5.5km的高度。降雨系统通常由500hpa的天气系统控制。根据区域经验,该模型选择的五个海拔因子分别是500hpa高度下的实际高度(x1)、温度(x2)、温度露点差(x3)、风向(x4)和风速(x5)。风向和风速影响着降雨系统的运动方向和速度。温度露点差与湿度直接相关。温度露点差、温度和实际高度值影响着降雨系统的内能。地表因子代表该地区的局部大气条件。不同地区地表因子的差异导致降雨不同。该模型中所用的八个面因子包括总云量(X6)、地表风速(X7)、地面风向(X8)、地面气压(X9)、地表3小时压力变化(X10)、地表温度露点差(X11)、地表温度(X12)和过去三小时的降雨。周围区域(x13)。对于同一个预测区域,每个周边区域都与该预测区域建立一个MLP。表1显示了所有13个因素。这些因素是我们模型的初始输入。

    最小-最大规范化。最常用的数据规范化方法之一是最小-最大规范化。它可以在0和1之间标准化数据。由于不同因素的大小不同,有必要对数据进行预处理。对于要处理的序列,序列的最大值对应于1,最小值对应于0,其余值在0和1之间按比例转换。

    主成分分析。归一化后,PCA用于减小输入的维数。确定新因子个数的标准是99%,即所选因子的特征值之和占总特征值的99%以上。经计算,新因子的总信息可以代表原始数据的99%以上。此标准定义了保留的信息量,但没有指定所需的因子数量。对于不同的预测区域,因子的数量可能不同,但不会超过初始输入,即13。在大多数情况下,需要的因素数量在3到8之间。PCA处理后,所需的计算资源大大减少。

    MLP的输入是Z1-Z4四个参数,输出是降雨量

    step1:

    在这里插入图片描述

    step2:中心预测点与其他地区各有一个MLP,两个地区的距离决定了周围MLP的数量。周围多个MLP模型一起决策,如果预测降雨的MLP超过1,取均值。

    在这里插入图片描述

    比较:

    在这里插入图片描述

    数据集:

    2015-2017年海拔(500hPa)测绘数据和数值预报结果。

    train data:2015-2016

    test data:2016-2017

    • 基于雷达回波图像的短期降雨预测

      来源:基于雷达回波图像的短期降雨预测

    模型:

    卷积自编码器的编码模块首先提取每帧输入图像特征,送入LSTM预报网络;LSTM预报网络的编码模块,对输入信息提取时序特征,在此基础上,由LSTM预测模块产生关于未来时段回波图像时序特征预测。

    比较:

    在MINIST数据集上对自编码器的层数和LSTM层数预测效果进行对比

    数据集:

    石家庄地区 2010 -2017 年之间降雨天气的雷达回波图像 。

    回波图像每6分钟采集一帧, 1个小时内得到 10 帧雷达回波图像,构成一个时间序列。

    • 常用方法

      常用的基于观测和预报场的统计评分:

    偏差值,均方根误差,POD指数,CSI指数,FAR指数,TS评分,ETS评分

    xgboost特性:
      • 允许用户在交叉验证时自定义误差衡量方法,例如回归中使用RMSE还是RMSLE,分类中使用AUC,分类错误率或是F1-score。
      • 允许用户先迭代1000次,查看此时模型的预测效果,然后继续迭代1000次,最后模型等价于一次性迭代2000次。
      • xgboost的模型和传统的GBDT相比加入了对于模型复杂度的控制以及后期的剪枝处理,使得学习出来的模型更加不容易过拟合。
    展开全文
  • 预测性分析及常用预测方法

    千次阅读 2020-11-06 14:43:18
    预测包括现象的预测和规律的预测。自然科学的本质上也是对事物的属性、本质和规律的预测。有了对事物的认知和对规律的掌握,我们就能够创造出更多的东西。商业也是如此,我们能够知道影响销售的因素,并能够掌握这些...

    预测性分析及常用的预测方法

    预测的目的

    数据分析最重要的目的就是从数据中寻找规律,找到能够指导我们未来实践的原则和方法,是产生智慧的主要途径。所以预测分析是数据分析的终极目的。虽然数据分析承担了很多功能,但是预测才是最为关键的,所以掌握数据分析和挖掘的预测方法才是数据分析师的看家本领。

    预测包括现象的预测和规律的预测。自然科学的本质上也是对事物的属性、本质和规律的预测。有了对事物的认知和对规律的掌握,我们就能够创造出更多的东西。商业也是如此,我们能够知道影响销售的因素,并能够掌握这些因素的数据,就能够对市场做出精准的预测,从而指导我们商业的决策,做到稳定的发展。但事物具有复杂性,我们无法掌握所有的信息,更无法轻易掌握所有的规律。

    随着大数据、物联网等技术的快速发展和应用,我们会拥有越来越多的数据,在这些数据上通过各种分析技术,我们就能够加工出越来越多的“智慧”,从而就能够知道我们的实践,而我们对未来的预测越来越精准,越来越有效。

    人们总是把数据分析师想象的过于美好,认为做大数据的人能够上知天文,下晓地理,能够准确的预测未来。人类掌握了一些基本的事物发展规律,对人类大脑、情感、心里的认知也逐步深入,但是我们对这些学科的掌握程度还远远达不到准确的预测未来的程度,至少现在还是没有这个能力,未来可能会有。

    我们经常说“以史为鉴”其实就是研究事物发展的历史,为我们研究新的事物做出指导,让我们对未来的事物有更远一点的估计。

    预测的必要性

    事物是复杂的,我们对事物的认知是有限的,正因为如此,事物在发展的过程中会发生超越我们预期的偶然时间和随机时间,我们把这些叫做误差,误差是必然存在的。随着我们对事物的认知越清楚,掌握的信息数据越完善,这个误差就睡越小,偶然时间就会越少。预测不准确的正常的,我们不能因为预测不准确而放弃对事物的预测,掌握未来发展是人类的本能,也是人类进化的动力。

    我们现在出行是,我们会根据地图应用提供的交通流量信息,选择不堵车最近的线路,这是一个典型的应用场景,把大数据当做平台和基础设施的应用场景。未来会有越来越多的这种应用场景,这就是预测在我们的日常生活中,影响着我们的日常生活。

    预测方法;

    1.经验预测法

    经验预测法是最为传统的预测法。如果我们有了丰富的生活阅历和工作经验,那么我们对事物的判断就会更加准确,从而能够做出更加合理的决策。

    我们认为一个优秀的人才一般都在优秀的公司中,所以企业会更加看中应聘者是不是在优秀的公司中工作过,这些都是为了佐证应聘者拥有丰富的相关“经验”。所以优秀的公司,在人才招聘方面的成本越低。而越是一般的公司,用人成本越高——因为我们过度依赖经验来管理。

    经验预测法在生活、工作中有大量的应用实例。人们最容易用自己过去的经验做出判断,所以人们几乎每时每刻都在做经验预测。量化的经验预测是一种数据化的方法。单纯依靠少数人的预测往往风险很高,因为我们每个人的生活经历都是有限的,并且看问题的视角也是有限的,所以对于重大决策,在没有其他更好的方法可以预测是,需要让更多的人一起利用经验来预测,这个方法被称为德尔菲法。

    德尔菲法是通过召集专家开会、通过集体讨论、得出一致预测意见的专家会议法既有联系又有区别。是一种专家预测方法。

    德尔菲法能发挥专家会议法的优点,即能充分发挥各位专家的作用,集思广益,准确性高。能把各位专家意见的分歧点表达出来,取各家之长,避各家之短。同时,德尔菲法又能避免专家会议法的缺点:权威人士的意见影响他人的意见;有些专家碍于情面,不愿意发表与其他人不同的意见;出于自尊心而不愿意修改自己原来不全面的意见。

    德尔菲法的主要缺点是:缺少思想沟通交流,可能存在一定的主观片面性;易忽视少数人的意见,可能导致预测的结果偏离实际;存在组织者主观影响

    2.类比预测法

    事物有很多的相似性,事物发展的规律也有相似性。例如人的成长历程,环境相同,人的成长历程也会有相近之处。当我们“阅人无数”后,基本上能够判断这个人是一个什么样的人。另外,人的行为习惯和思维习惯都有一致性,虽然会发生剧烈的变化,但在大多数情况下都是可以预测的。我们可以根据一个人对一件事情的反应,找到这个人的行为模式,从而预测其未来的行为模式,这就是类比预测法。

    人的行为模式的背后是人的心智模式。无论是九型人格学说还是MBTI的人格测试,其背后都是通过评测人的心智模式来预测人的行为模式,从而为人们找到一个比较好的事业发展规划。通过研究大量人员的行为模式,为个人以后的发展做出知道,这种方式的本质就是类比。

    通过一个行业的发展来类比另一个行业的发展,能够给我们很多的启发。例如智能手机取代了功能手机,苹果打败了诺基亚和摩托罗拉,成为智能手机的领导者。根据智能手机行业的发展规律,我们可以预测未来智能汽车的发展规律,特斯拉的创新性的智能汽车,不止单纯的电动汽车,如果不出意外,特斯拉很可能会彻底颠覆驱车行业,那些原有的行业大佬在未来短短的几年就会重新洗牌。

    就像智能手机一样,我们有理由相信智能汽车早晚会代替现在的功能性汽车。智能设备,智能家具,智能…都是不可逆的一种潮流,代表人类发展的趋势和规律。

    手机行业中,消费者的更换周期为2-3年,所以智能手机在2-3年就颠覆了手机行业原有的潮流。在城市中,消费这更换汽车的周期为5-7年,运用类比的方法,未来的5-7年就是智能手机慢慢取代原有汽车行业。取代是一个缓慢且顺应时代的产物,取代的周期就是消费者的一个更换周期。

    标杆研究也是一种类比的方法,可以通过研究标杆企业的做法借鉴其经营和管理的决策。如果一家公司采用某种管理模式成功解决了一类问题,那么我们也可以采用同样的方法来解决类似的问题。所以当我们对于某些管理问题找不到方法的时候,做简单有效的方法就是寻找标杆企业的做法。学会站在巨人的肩膀上看待问题。

    类比法也有局限性,主要的局限在于类的可比性。类比的本质含义就是同类的或者相近类别之间的对比,如果不具有可比性,则类比的预测就会出现问题。当然,没有两个事物是完全相同的,也没有相同的历史和未来,我们还需要在不同类别中寻找共同点,在这个共同点上找到差异,例如:智能手机用了2年就颠覆了手机行业,那是因为消费者更换手机的周期比较短。汽车行业就不适用这个周期,因为消费者更换汽车的周期要比手机的更换周期长的多。

    所以,我们类比的过程中,我们要思考可比的基础是什么,从而做出预测,对结论进行修订,确保预测的合理性和准确性,并在以后的过程中反思忽略了哪些重要因素,以后在进行预测时,还需要考虑哪些因素。

    3.惯性时间预测法

    惯性预测法是根据事物发展的惯性进行预测,其中最典型的就是趋势分析。炒股的人除了要看基本的股值点数外,还要看趋势线,并根据趋势线来判断什么地方时拐点。

    本质上,惯性只存在于信息不对称的领域,在信息足够对称的情况下,大家转向的风向一致,那么股票价格就不会有这样的波动图形。在信息不够对称的环境下,以信息谋取利润的行业就会有更多的暴力。如果信息已经充分对称了,那么以信息谋取利润的行业就会消失。未来商品的价格会越来越透明,根据信息不对称来销售商品的公司会倒闭。

    时间序列分析模型是最典型的惯性分析法,其本质就是探寻一个事物的数量化指标随时间变化的规律。如果事物完全按照时间顺序发展,则一定会按照一定的规律继续发展下去,如果是向上的趋势,就会继续向上发展;如果是向下的趋势,就会继续向下发展;如果存在周期性,就会按照周期性的规律发展;如果具有循环往复的特征,就会按照循环往复的特征发展下去

    从上面的描述中可以看出时间序列模型最本质的局限;忽略了现在的变化影响因素。即如果事物过去都是向上发展的,则时间序列认为事物还会继续向上发展,但是因为某些因素的原因,出现了下滑,则这个因素不予考虑,会认为是误差或者受随机因素的影响。

    时间序列模型有多种类型,这些类型的分类是从事物变化是否具有规律性来评价的。如果事物的变化很有规律性,而随机影响较小,则可以通过惯性预测法对事物的变化进行预测;如果事物变化是有规律的,但是噪声过大,容易掩盖事物自身的规律,这个时候惯性预测法就不太使用了。噪声的大小是我们是否可以使用惯性预测法来预测的非常重要的因素,噪声大,规律就容易被掩盖,噪声小,我们可以通过趋势来发现事物的规律。

    我们对事物变化规律的认知其实是有限的。一般来说,再利用惯性发探测事物变化规律时,我们能够掌握三种变化规律的探测,分别是季节性、周期性、趋势性。季节性是与时间变化有关系的变化规律。周期性是与变量取值有关系的,盛极而衰,触底反弹。趋势性是随时间呈增长或者下降的趋势,这个趋势可能线性的,也可能是幂级增长或者指数增长。

    4.逻辑关系预测法

    逻辑关系预测法从预测的角度来看是最简单的方法,但从算法探索的角度来看则是最难得方法。两个事物为什么会相关,其背后逻辑是什么,一直困扰着数据分析师。

    沃尔玛的“纸尿裤和啤酒”的事件,让我们觉得纸尿裤和啤酒的销售量有较大的相关性。但是这个相关性能否站的住脚,是否有足够的逻辑解释,是否在任何情况都适用,还是需要数据的支持,没有数据的完美论证。

    在逻辑关系方面,我们可以用各种模型来解读数据,需要不断尝试才能找到一个最佳的逻辑关系。有些逻辑关系只在特殊的情景下才成立,而在其他的情境下就不会成立。逻辑关系的数学模型不是一成不变的,他会随时间、市场状况的变化而变化。

    每个逻辑规律都有其成立的条件。在广告投放初期构建的模型,不见得适合中期和后期;品牌的知名度较低的时候,广告与销售额的关系会被弱化,边际效应显现。当公司的品牌已经非常强大的时候,广告本应该承担一个提醒功能,这个时候如果还是采用说服式广告就非常不妥了,消费者会觉得这是“忽悠”,其自我保护机制显现,导致一些负面的成绩。

    5.比例预测法

    比例是一个数学术语,在数学中,如果一个变量的变化总是伴随着另一个变量的变化,则两个变量是成比例的。我们的日常生活中处处充满着比例。例如:奶茶中奶和茶的比例可以带来不一样的口感,混凝土中砂石、水泥、水的比例,会呈现不同的强度。

    运用比例预测法,其实就是针对以往的数据,对其进行分类汇总整理后,对未来的数据按照一定的比例进行预测,这种比例就是通过以往的数据总结出来的比例。人的行为方式、兴趣爱好在短时间是不会发生较大的变化,我们的预测其实就是在预测人的行为方式和思维,这也就是为什么可以使用比例预测法的原因,因为人的行为方式、兴趣爱好不会轻易改变。

    小编喜欢吃鸡肉,可能再不出现较大的事情之前,这点爱好是不会改变的,通过一段时间的数据收集、汇总、分析。就能够预测出未来的一段时间吃鸡肉的这个概率。一个人的行为方式可能会受到外界因素的影响,可能预测的准确率不会太高。但是如果换做是分析几万,几十万或者更多的人的行为方式兴趣爱好进行整理汇总,在进行预测性分析,那么准确率就会很稳定。

    比例预测法的重点就是在无特殊情况下的一种状态下的预测,例如:一家大型购物中心,前5个月的会员销售占比为50%,那么在第六个月的会员销售占比也会是在50%左右。前5个月的周一到周五的日均销售额为100万,周六周日的日均销售是200万。那么我们可以根据本月工作日和双休日的天数,预测出这个月的一个销售额。

    商业中有一个重要的比例;【10:6:3:1】。讲的是,在每10个顾客中,会有6个人会感兴趣,其中3个人会购买,最终会有1个人进行复购。这个比例在很多销售行业都很适用。这也就是为什么到了一定的节假日,各大商场购物中心花重金进行宣传营销,目的是为了提高10这个基数,基数上升了,最终的3和1也就自然多了。

    比例预测法也有其局限性,比例预测法成立的前提是需要有大量的数据源,但是当数据较少的情况下,比例预测法就没有效果,反而会误导我们的决策。

    展开全文
  • 通过训练集和测试集的个双峰直方图,评价了基于21个分子特性的朴素贝叶斯分类器和用于区分药物和非类药物分子的LCFP_6指纹集的预测精度。如图3所示,药物分子的贝叶斯正分数较多,而非药物分子的贝叶斯负...
  • 时间序列预测方法最全总结!

    千次阅读 多人点赞 2021-03-12 00:15:38
    时间序列预测就是利用过去一段时间的数据来预测未来一段时间内的信息,包括连续型预测(数值预测,范围估计)与离散型预测(事件预测)等,具有非常高的商业价值。需要明确一点的是,与回归分析预测模型...
  • 短时交通预测方法总结

    千次阅读 2020-05-16 17:49:55
    交通流量预测方法可分为三:统计方法模型、传统机器学习模型和深度学习模型。 一、统计方法模型 1.1 HA模型(History Average Model) Stephanedes 于1981 年将HA模型应用于城市交通控制系统。 算法定义 .....
  • 德尔菲法——意见可靠预测方法

    千次阅读 2019-07-09 08:59:14
    首次用这种方法用来进行预测,后来该方法被迅速广泛采用。  德尔菲法也称专家调查法,是一种采用通讯方式分别将所需解决的问题单独发送到各个专家手中,征询意见,然后回收汇总全部专家的意见,并整理出综合意见...
  • 分类与预测算法

    万次阅读 2018-01-12 09:00:06
    通过 w*x + b = 0 这样一条直线将二维空间划分为个区域,落在这个区域中的点被归为正和负,感知机的学习策略是通过极小化下面的损失函数来选取最终的直线: 该损失函数表达的含义是误分类点到...
  • 分类 ( 离散值 ) 和 预测 ( 连续值 ) III . 分类过程 IV . 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 ) V . 数据预处理 VI . 分类方法评价 VII . 分类算法举例 VIII . 有监督学习 和 无监督学习
  • 建模中的定量预测拟合方法

    千次阅读 2018-08-31 16:25:28
    预测、拟合方法门目繁多,包括定性预测和定量预测,此篇主要归纳定量预测。 时间序列分析 时序预测法 时间序列预测法可用于短期预测、中期预测和长期预测。 具体分为:  简单时序平均数法: 也称算术平均法。...
  • 数据挖掘之分类和预测简介

    千次阅读 2019-07-03 20:59:56
    分类和预测种使用数据进行预测的方式,可用来确定未来的结果。 分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。 预测则是用于预测数据对象的连续取值的,需要预测的属性值是连续的、...
  • RNA 二级结构预测方法

    千次阅读 2019-12-13 16:30:42
    1 比较序列分析方法 比较序列分析方法,其工作原理其实比较简单,它以 RNA 序列中互补碱基间的共变联配(英文名称为 covariant-alignment)活动为基础;以已知的 RNA 序列的数据为依据标准,以查找被测算 RNA 序列中...
  • 预测验证方法-第二部分

    千次阅读 2018-11-21 21:21:25
    预测验证方法-第二部分Methods:方法Standard verification methods标准验证方法Methods for dichotomous (yes/no) forecasts二分类(Yes/No)预测的验证方法Methods for multi-category forecasts多类别预测的验证...
  • 分类和预测-数据挖掘

    千次阅读 2008-04-16 11:10:00
    分类和预测具有大量应用,包括欺诈检测、针对销售、性能预测、制造和诊断。例如,可以建立一个分类模型,对银行贷款应用的安全或风险进行分类(那些贷款申请者是“安全的”,,银行的“风险”是什么);也可以建立...
  • 随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测1、引言2、理论基础2.1 什么是决策树2.2 特征选择的算法2.2.1 ID3:基于信息增益的特征划分2.2.2 C4.5:基于信息增益比的...
  • 数据挖掘算法--分类与预测笔记

    千次阅读 2013-08-15 14:39:13
    分类和预测种数据分析形式,可以用于提取描述重要数据量的模型或预测未来的数据趋势。然而,分类是预测分类标号,而预测建立连续值函数模型。 数据分类过程: 1.建立模型,描述预定的数据或概念集。...
  • 从数据挖掘算法所依托的数理基础角度归类,目前数据挖掘算法主要分为三大:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列...
  • 中文“预测”的含义在“英语”情境下则有种含义:evaluate,“估算”,前文归因的方法中,是从因变量Y发现自变量X,也就是Y-->X,“估算”则是“归因”的逆操...
  • 数据挖掘笔记:分类和预测,判定树

    千次阅读 2015-05-15 15:13:44
    欺诈检测、市场定位、性能预测、医疗诊断数据分类—一个步过程 第一步,也成为学习步,目标是建立描述预先定义的数据或概念集的分类器 假定每个元组属于一个预定义的, 有一个标号属性确定 基本概念 训练...
  • 时间序列预测的8种常用方法简介

    千次阅读 2020-12-08 22:01:17
    时间序列预测8种常用方法简介,包括朴素预测法、简单平均法、移动平均法、简单指数平滑法、霍尔特(Holt)线性趋势法、Holt-Winter方法、AMRIA。
  • 基于已有知识的预测方法(knowledge based method) 这类预测方法包括Lim 和 Cohen 方法。 Lim 方法是一种物理化学的方法,它根据氨基酸残基的物理化学性质,包括:疏水性、亲水性、带电性以及体积大小等,并...
  • 为了实验基于安全态势感知的网络安全事件预测方法,在收集安全事件数据时,事件发生事件应晚于收集的网络安全态势数据,如图4,其中的态势数据(前两类)用于训练,而最后的事件数据则用于预测测试。 在事件...
  • m6A甲基化及预测方法工具总结

    千次阅读 2019-09-23 11:16:00
    DNA、RNA和蛋白三个层面的可逆修饰示意图(Fu et al....RNA根据编码性可分为编码RNA(protein-coding RNA)和非编码RNA(noncoding RNA),这些RNA转录后会发生各种修饰,包括N6-腺苷酸甲基化(N...
  • 一、图像压缩 二、预测编码
  • 分类方法概述

    千次阅读 2018-01-16 10:48:53
    单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。  (1)决策树  决策树是用于分类和...
  • 机器学习和深度学习方法可以在具有挑战性的时间序列预测问题上取得令人印象深刻的效果。然而,在许多预测问题中,经典的方法,如SARIMA和指数平滑法,容易优于更复杂的方法。因此,在探索更先进的方法之前,既要了解...
  • BERT中文任务实战(文本分类、预测下一句)踩坑记录

    万次阅读 多人点赞 2019-04-22 17:35:12
    文章目录一、概述二、Bert简介2.1 简要说明2.2 fine-tune原理三、在项目数据集上fine-tune教程3.1整体流程3.2 自定义...其中有个子模块用到文本分类和预测下一句模型,刚好前段时间自己折腾学习了一点BERT,就打...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 244,547
精华内容 97,818
关键字:

两类一般的预测方法包括