精华内容
下载资源
问答
  • 文章目录一、多元线性回归模型预测房价1.基础包导入2.变量探索3.多元线性回归建模4.模型优化二、用Excel重做上面的多元线性回归,求解回归方程三、用机器学习库Sklearn库重做上面的多元线性归四、参考文献 一、多元...

    一、多元线性回归模型预测房价

    1.基础包导入

    import pandas as pd
    import numpy as np
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    df = pd.read_csv('house_prices.csv')
    df.info(); df.head()
    

    在这里插入图片描述

    2.变量探索

    # 异常值处理
    # ================ 异常值检验函数:iqr & z分数 两种方法 =========================
    def outlier_test(data, column, method=None, z=2):
    	""" 以某列为依据,使用 上下截断点法 检测异常值(索引) """
    	"""
    	full_data: 完整数据
    	column: full_data 中的指定行,格式 'x' 带引号
    	return 可选; outlier: 异常值数据框
    	upper: 上截断点; lower: 下截断点
    	method:检验异常值的方法(可选, 默认的 None 为上下截断点法),
    	选 Z 方法时,Z 默认为 2
    	"""
    	# ================== 上下截断点法检验异常值 ==============================
    	if method == None:
    		print(f'以 {column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')
    		print('=' * 70)
    		# 四分位点;这里调用函数会存在异常
    		column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
    		# 1,3 分位数
    		(q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
    		# 计算上下截断点
    		upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
    		# 检测异常值
    		outlier = data[(data[column] <= lower) | (data[column] >= upper)]
    		print(f'第一分位数: {q1}, 第三分位数:{q3}, 四分位极差:{column_iqr}')
    		print(f"上截断点:{upper}, 下截断点:{lower}")
    		return outlier, upper, lower
    	# ===================== Z 分数检验异常值 ==========================
    	if method == 'z':
    		""" 以某列为依据,传入数据与希望分段的 z 分数点,返回异常值索引与所在数据框 """
    		"""
    		params
    		data: 完整数据
    		column: 指定的检测列
    		z: Z分位数, 默认为2,根据 z分数-正态曲线表,可知取左右两端的 2%,
    		根据您 z 分数的正负设置。也可以任意更改,知道任意顶端百分比的数据集合
    		"""
    		print(f'以 {column} 列为依据,使用 Z 分数法,z 分位数取 {z} 来检测异常值...')
    		print('=' * 70)
    		# 计算两个 Z 分数的数值点
    		mean, std = np.mean(data[column]), np.std(data[column])
    		upper, lower = (mean + z * std), (mean - z * std)
    		print(f"取 {z} 个 Z分数:大于 {upper} 或小于 {lower} 的即可被视为异常值。")
    		print('=' * 70)
    		# 检测异常值
    		outlier = data[(data[column] <= lower) | (data[column] >= upper)]
    		return outlier, upper, lower
    
    outlier, upper, lower = outlier_test(data=df, column='price', method='z')
    outlier.info(); outlier.sample(5)
    

    在这里插入图片描述

    # 这里简单的丢弃即可
    df.drop(index=outlier.index, inplace=True)
    
    # 类别变量,又称为名义变量,nominal variables
    nominal_vars = ['neighborhood', 'style']
    for each in nominal_vars:
    	print(each, ':')
    	print(df[each].agg(['value_counts']).T)
    	# 直接 .value_counts().T 无法实现下面的效果
    	## 必须得 agg,而且里面的中括号 [] 也不能少
    	print('='*35)
    	# 发现各类别的数量也都还可以,为下面的方差分析做准备
    

    在这里插入图片描述

    # 热力图
    def heatmap(data, method='pearson', camp='RdYlGn', figsize=(10 ,8)):
        """
        data: 整份数据
        method:默认为 pearson 系数
        camp:默认为:RdYlGn-红黄蓝;YlGnBu-黄绿蓝;Blues/Greens 也是不错的选择
        figsize: 默认为 10,8
        """
        ## 消除斜对角颜色重复的色块
        # mask = np.zeros_like(df2.corr())
        # mask[np.tril_indices_from(mask)] = True
        plt.figure(figsize=figsize, dpi= 80)
        sns.heatmap(data.corr(method=method), \
            xticklabels=data.corr(method=method).columns, \
            yticklabels=data.corr(method=method).columns, cmap=camp, \
            center=0, annot=True)
        # 要想实现只是留下对角线一半的效果,括号内的参数可以加上 mask=mask
    
    # 通过热力图可以看出 area,bedrooms,bathrooms 等变量与房屋价格 price 的关系都还比较强
    ## 所以值得放入模型,但分类变量 style 与 neighborhood 两者与 price 的关系未知
    heatmap(data=df, figsize=(6,5))
    

    在这里插入图片描述

    # 刚才的探索我们发现,style 与 neighborhood 的类别都是三类,
     ## 如果只是两类的话我们可以进行卡方检验,所以这里我们使用方差分析
        
    ## 利用回归模型中的方差分析
    ## 只有 statsmodels 有方差分析库
    ## 从线性回归结果中提取方差分析结果
    import statsmodels.api as sm
    from statsmodels.formula.api import ols # ols 为建立线性回归模型的统计学库
    from statsmodels.stats.anova import anova_lm
    

    插播一条样本量和置信水平 α_level 的注意点(置信水平 α 的选择经验)

    样本量 α-level
    ≤ 100 10%
    100 < n ≤ 500 5%
    500 < n ≤ 1000 1%
    n > 2000 千分之一
    

    样本量过大,α-level 就没什么意义了。
    数据量很大时,p 值就没用了,样本量通常不超过 5000,
    为了证明两变量间的关系是稳定的,样本量要控制好。

    # 数据集样本数量:6028,这里随机选择 600 条,如果希望分层抽样,可参考文章:
    df = df.copy().sample(600)
    # C 表示告诉 Python 这是分类变量,否则 Python 会当成连续变量使用
    ## 这里直接使用方差分析对所有分类变量进行检验
    ## 下面几行代码便是使用统计学库进行方差分析的标准姿势
    lm = ols('price ~ C(neighborhood) + C(style)', data=df).fit()
    anova_lm(lm)
    # Residual 行表示模型不能解释的组内的,其他的是能解释的组间的
    # df: 自由度(n-1)- 分类变量中的类别个数减1
    # sum_sq: 总平方和(SSM),residual行的 sum_eq: SSE
    # mean_sq: msm, residual行的 mean_sq: mse
    # F:F 统计量,查看卡方分布表即可
    # PR(>F): P 值
    # 反复刷新几次,发现都很显著,所以这两个变量也挺值得放入模型中
    

    在这里插入图片描述

    3.多元线性回归建模

    from statsmodels.formula.api import ols
    lm = ols('price ~ area + bedrooms + bathrooms', data=df).fit()
    lm.summary()
    

    在这里插入图片描述
    在这里插入图片描述

    4.模型优化

    发现精度还不够高,这里通过添加虚拟变量与使用方差膨胀因子检测多元共线性的方式来提升模型精度

    # 设置虚拟变量
    # 以名义变量 neighborhood 街区为例
    nominal_data = df['neighborhood']
    # 设置虚拟变量
    dummies = pd.get_dummies(nominal_data)
    dummies.sample() # pandas 会自动帮你命名
    # 每个名义变量生成的虚拟变量中,需要各丢弃一个,这里以丢弃C为例
    dummies.drop(columns=['C'], inplace=True)
    dummies.sample()
    

    在这里插入图片描述

    # 将结果与原数据集拼接
    results = pd.concat(objs=[df, dummies], axis='columns') # 按照列来合并
    results.sample(3)
    # 对名义变量 style 的处理可自行尝试
    

    在这里插入图片描述

    # 再次建模
    lm = ols('price ~ area + bedrooms + bathrooms + A + B', data=results).fit()
    lm.summary()
    

    在这里插入图片描述

    # 自定义方差膨胀因子的检测公式
    def vif(df, col_i):
        """
        df: 整份数据
        col_i:被检测的列名
        """
        cols = list(df.columns)
        cols.remove(col_i)
        cols_noti = cols
        formula = col_i + '~' + '+'.join(cols_noti)
        r2 = ols(formula, df).fit().rsquared
        return 1. / (1. - r2)
    
    test_data = results[['area', 'bedrooms', 'bathrooms', 'A', 'B']]
    for i in test_data.columns:
        print(i, '\t', vif(df=test_data, col_i=i))
    # 发现 bedrooms 和 bathrooms 存在强相关性,可能这两个变量是解释同一个问题
    

    在这里插入图片描述

    # 再次进行多元共线性检测
    test_data = df[['area', 'bathrooms']]
    for i in test_data.columns:
        print(i, '\t', vif(df=test_data, col_i=i))
    
    

    在这里插入图片描述

    二、用Excel重做上面的多元线性回归,求解回归方程

    基于多元线性回归的房价预测
    摘要

    市场房价的走向受到多种因素的影响,通过对影响市场房价的多种因素进行分析,有助于对未来房价的走势进行较为准确的评估。
    多元线性回归适用于对受到多因素影响的数据进行分析的场景。由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。本文基于数学模型,对过去一段时间某一地区的房屋出售价格等相关数据进行整理,利用多元线性回归的方法对数据进行分析,预测该地区未来的房价走势。
    关键词:多元线性回归;房价预测;数据分析;

    引言
    对未来房价进行预测,在一定程度上影响着社会经济的发展。广义上讲,精确的房价预测有助于国家对市场房价走势的宏观调控,小范围来讲,未来房价预测是企业战略规划的一部分,对于消费者而言,房价预测为个人经济的合理规划起到了积极作用。由于房屋售价与多因素有关,并且房屋价格与影响房价的一些因素存在线性关系,所以选取多元线性回归模型研究该问题较为合适。
    本次课题研究通过对某段时间某地区的已售房价数据进行线性回归分析,探索影响房价高低的主要因素,并对这些影响因素的影响程度进行分析,利用分析得到的数据,对未来房价的趋势和走向进行预测。

    线性回归理论基础
    一元线性回归是分析只有一个自变量(自变量x和因变量y)线性相关关系的方法。一元线性回归分析的数学模型为:y = a+bx+ε。
    使用偏差平方和分别对参数a和参数b求偏导,可以得到线性模型的未知参数a、b的最小二乘估计值,其中,偏差平方和定义为∑(yi-a-bXi)2,a和b的唯一解如图所示。
    在这里插入图片描述

    ** 参数的最小二乘估计**
    为了方便回归效果显著性检验,根据b的估计,引入LXX、LYY、LXY三个数学符号,这三个数学符号定义如图所示。
    在这里插入图片描述

    图 LXX、LYY、LXY的数学定义
    在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归。也就是说,当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。多元线性回归的数学模型为:y=β0+β1X1+β2X2+…++βpXp+ε。使用残差平方和分别对参数βi(i=0,1,…,p)求偏导,可以得到线性模型的未知参数βi(i=0,1,…,p)的估计值,β矩阵的估计值如图所示。
    在这里插入图片描述
    回归效果的显著性检验
    对平面上杂乱无章的点,利用最小二乘法求解出的线性回归方程是毫无意义的,线性回归反映出的趋势描述是否合理,需要一个数量指标来度量。
    数据总的波动可以用离差平方和LYY来描述。它表示y的各次离差yi-y ̅的平方和。LYY数值越大,说明yi数值波动越大,也就是越分散。离差平方和LYY可以分解为回归直线上y的离差平方和U以及yi与回归直线上的y间的差的平方和Q。其中,U是由于x对y的线性相关关系引起的y的分散性,Q是由随机误差引起的分散性。yi-y ̅分解如图2-4所示。在总和中,U所占比重越大,说明随机误差所占的比重越小,回归效果越显著。故此,可以使用决定系数R2来度量线性回归效果是否显著,R2作为拟合优度,表示用直线来拟合数据的好坏,R2等于U/Lyy。
    在这里插入图片描述

    R2开方后的结果为皮尔逊相关系数,皮尔逊(Pearson)相关系数可以用来衡量两个数据集合是否在一条线上面,从而衡量定距变量间的线性关系。相关系数的绝对值越大,相关性越强;相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。当|r|>=0.8时,x和y强相关,当|r|<0.3时,x和y弱相关。皮尔逊相关系数定义为如图所示。
    在这里插入图片描述
    对于一元线性回归模型,线性回归模型效果的显著性可以通过假设检验问题H0:b=0;H1:b≠0进行判断,检验方法包括F检验法和t检验法。F检验属于回归方程显著性检验,是检验x与y是否相关的检验方法。t检验是回归系数显著性检验,是检验变量x是否有用的方法。H0成立时,两种检验方法定义如图2-6、图2-7所示。H0不成立时,对于给定的显著性水平α,当F>F1-α(1,n-2)时,回归效果显著。当|t|>t1-α/2(n-2)时,认为回归系数影响显著,否则回归系数的效果不显著。
    在这里插入图片描述
    一元线性回归F检验法
    在这里插入图片描述
    一元线性回归t检验法
    对于多元线性回归模型,回归效果的显著性可以使用F检验法通过假设检验问题H0:β0=β1=β2=…=βp=0;H1:βi(i=0,1,…,p)不全为0进行判断,H0成立时,F检验方法定义如图2-8所示。H0不成立时,对于给定的显著性水平α,当F>F1-α(p,n-p-1)时,回归效果显著。
    在这里插入图片描述
    回归系数的显著性检验可以使用t检验法通过假设检验问题H0:βi=0;H1:βi≠0进行判断。H0成立时,t检验方法定义如图2-9所示。H0不成立时,对于给定的显著性水平α,当|t|>t1-α/2(n-p-1)时,认为回归系数影响显著,否则回归系数的效果不显著。
    在这里插入图片描述
    基于机器学习的线性回归与梯度下降
    机器学习横跨计算机科学、工程技术和统计学等多个学科,渗透到了人们生产和生活中的各个领域,被广泛应用于各行各业之中,在当今世界激烈的竞争中,掌握和理解机器学习的基础模型和基本方法是非常有必要的。
    机器学习中的线性回归模型以数理统计的线性回归模型为基础,它用一条直线对数据点进行拟合,在机器学习中,回归问题的求解过程就是寻找最佳拟合参数集的过程,也就是寻找满足使得估计值与实际值的方差最小时的参数解,这个过程用到了损失函数,损失函数定义如图2-10所示。利用损失函数,可以求解最佳拟合参数集。利用损失函数进行求解可以采用梯度下降法。
    在这里插入图片描述
    梯度下降法的计算过程就是沿梯度下降的方向求解极小值或沿梯度上升方向求解极大值。一般情况下,梯度向量为0的话说明是到了一个极值点,此时梯度的幅值也为0。采用梯度下降算法进行最优化求解时,算法迭代的终止条件是梯度向量的幅值接近0或接近一个非常小的常数阈值。梯度下降的过程如图所示。
    在这里插入图片描述
    使用EXCEL进行数据分析

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    选择x,y值域
    在这里插入图片描述

    在这里插入图片描述
    字段Multiple R代表复相关系数R,也就是R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。
    R Square是复测定系数,也就是相关系数R的平方。
    Adjusted R Square是调整后的复测定系数R2。
    标准误差用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好。
    观察值是用于估计回归方程的数据的观察值个数,本次数据集共有20条数据,所以观察值为20。
    Coefficients为常数项

    设因变量房屋售价price为y,自变量面积area为x1,bedrooms为x2,bathrooms为x3

    所以得到方程:
    y=10072.11+345.911x1-2925.81x2+7345.392x3

    三、用机器学习库Sklearn库重做上面的多元线性归

    1. 不处理直接求解

    import pandas as pd
    import numpy as np
    import math
    import matplotlib.pyplot as plt #画图
    from sklearn import linear_model #线性模型
    data = pd.read_csv('house_prices.csv') 
    data.head() #数据展示
    

    在这里插入图片描述

    new_data=data.iloc[:,1:]#除掉house_id这一列
    new_data.head()
    
    

    在这里插入图片描述

    new_data.corr()#相关系数矩阵,只统计数值列
    

    在这里插入图片描述

    """取are、bedrooms和bathroom作为X,price为Y求线性回归。"""
    x_data = new_data.iloc[:, 1:4] #are、bedrooms、bathroom对应列
    y_data = new_data.iloc[:, -1] #price对应列
    print(x_data, y_data, len(x_data))
    
    

    在这里插入图片描述

    # 应用模型
    model = linear_model.LinearRegression()
    model.fit(x_data, y_data)
    print("回归系数:", model.coef_)
    print("截距:", model.intercept_)
    print('回归方程: price=',model.coef_[0],'*area +',model.coef_[1],'*bedrooms +',model.coef_[2],'*bathromms +',model.intercept_)
    

    在这里插入图片描述

    2 数据进行清洗后再求解

    new_data_Z=new_data.iloc[:,0:]
    new_data_IQR=new_data.iloc[:,0:]
    def outlier_test(data, column, method=None, z=2):
        
        if method == None:
            print(f'以 {column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')
            print('=' * 70)
            column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
            (q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
            upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
            outlier = data[(data[column] <= lower) | (data[column] >= upper)]
            print(f'第一分位数: {q1}, 第三分位数:{q3}, 四分位极差:{column_iqr}')
            print(f"上截断点:{upper}, 下截断点:{lower}")
            return outlier, upper, lower
        
        if method == 'z':
            
            print(f'以 {column} 列为依据,使用 Z 分数法,z 分位数取 {z} 来检测异常值...')
            print('=' * 70)    
            mean, std = np.mean(data[column]), np.std(data[column])
            upper, lower = (mean + z * std), (mean - z * std)
            print(f"取 {z} 个 Z分数:大于 {upper} 或小于 {lower} 的即可被视为异常值。")
            print('=' * 70)
            outlier = data[(data[column] <= lower) | (data[column] >= upper)]
            return outlier, upper, lower
    
    outlier, upper, lower = outlier_test(data=new_data_Z, column='price', method='z')
    outlier.info(); outlier.sample(5)
    
    #这里简单丢弃即可
    new_data_Z.drop(index=outlier.index, inplace=True)
    

    123456789101112

    outlier, upper, lower = outlier_test(data=new_data_IQR, column='price')
    outlier.info(); outlier.sample(5)
    
    # 这里简单的丢弃即可
    new_data_IQR.drop(index=outlier.index, inplace=True)
    
    

    在这里插入图片描述

    print("原数据相关性矩阵")
    new_data.corr()
    

    在这里插入图片描述

    print("z方法处理的相关性矩阵")
    new_data_Z.corr()
    

    12

    print("IQR方法处理的数据相关性矩阵")
    new_data_IQR.corr()
    

    12

    x_data = new_data_Z.iloc[:, 1:4]
    y_data = new_data_Z.iloc[:, -1]
    # 应用模型
    model = linear_model.LinearRegression()
    model.fit(x_data, y_data)
    print("回归系数:", model.coef_)
    print("截距:", model.intercept_)
    print('回归方程: price=',model.coef_[0],'*area +',model.coef_[1],'*bedrooms +',model.coef_[2],'*bathromms +',model.intercept_)
    

    12345678

    x_data = new_data_IQR.iloc[:, 1:4]
    y_data = new_data_IQR.iloc[:, -1]
    # 应用模型
    model = linear_model.LinearRegression()
    model.fit(x_data, y_data)
    print("回归系数:", model.coef_)
    print("截距:", model.intercept_)
    print('回归方程: price=',model.coef_[0],'*area +',model.coef_[1],'*bedrooms +',model.coef_[2],'*bathromms +',model.intercept_)
    

    12345678

    3.3 对比

    不做任何数据处理: price= 345.911018840024 *area + 
    -2925.806324666705 *bedrooms + 7345.391713693825 *bathromms    + 10072.107046726742
    
    Z方式清理数据:price= 226.4211697383351 *area + 49931.50311720713 *bedrooms + -12224.71724496588 *bathromms + 64356.04135007458
    
    IQR方式清理数据:price= 242.6111551782956 *area + 41547.43068790577 *bedrooms + -6415.78250090158 *bathromms + 58018.13845504692
    

    四、参考文献

    https://blog.csdn.net/qq_55691662/article/details/120960932

    https://blog.csdn.net/weixin_43196118/article/details/108462140

    https://blog.csdn.net/m0_51120713/article/details/120969812

    https://blog.csdn.net/weixin_43196118/article/details/108462140

    展开全文
  • 多元线性回归预测房价一、多元线性回归二、使用EXCEL三、Python中使用Sklearn分析四、总结参考 一、多元线性回归 在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个...


    一、多元线性回归


    在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。


    问题概述:
    市场房价的走向受到多种因素的影响,通过对影响市场房价的多种因素进行分析,有助于对未来房价的走势进行较为准确的评估。
    多元线性回归适用于对受到多因素影响的数据进行分析的场景。由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。本文基于数学模型,对过去一段时间某一地区的房屋出售价格等相关数据进行整理,利用多元线性回归的方法对数据进行分析,预测该地区未来的房价走势。



    二、使用EXCEL

    请添加图片描述


    neighborhood列和style列删除:

    请添加图片描述

    选择数据分析中的回归:
    请添加图片描述


    设置输入输出选项
    请添加图片描述


    分析结果:
    请添加图片描述


    三、Python中分析(不使用Sklearn)

    导入数据:

    import pandas as pd
    import numpy as np
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    df = pd.read_csv('./data/house_prices.csv')
    df.info();
    df.head();
    

    在这里插入图片描述


    异常值处理:

    # 异常值处理
    # ================ 异常值检验函数:iqr & z分数 两种方法 =========================
    def outlier_test(data, column, method=None, z=2):
        """ 以某列为依据,使用 上下截断点法 检测异常值(索引) """
        """ 
        full_data: 完整数据
        column: full_data 中的指定行,格式 'x' 带引号
        return 可选; outlier: 异常值数据框 
        upper: 上截断点;  lower: 下截断点
        method:检验异常值的方法(可选, 默认的 None 为上下截断点法),
                选 Z 方法时,Z 默认为 2
        """
        # ================== 上下截断点法检验异常值 ==============================
        if method == None:
            print(f'以 {column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')
            print('=' * 70)
            # 四分位点;这里调用函数会存在异常
            column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
            # 1,3 分位数
            (q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
            # 计算上下截断点
            upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
            # 检测异常值
            outlier = data[(data[column] <= lower) | (data[column] >= upper)]
            print(f'第一分位数: {q1}, 第三分位数:{q3}, 四分位极差:{column_iqr}')
            print(f"上截断点:{upper}, 下截断点:{lower}")
            return outlier, upper, lower
        # ===================== Z 分数检验异常值 ==========================
        if method == 'z':
            """ 以某列为依据,传入数据与希望分段的 z 分数点,返回异常值索引与所在数据框 """
            """ 
            params
            data: 完整数据
            column: 指定的检测列
            z: Z分位数, 默认为2,根据 z分数-正态曲线表,可知取左右两端的 2%,
               根据您 z 分数的正负设置。也可以任意更改,知道任意顶端百分比的数据集合
            """
            print(f'以 {column} 列为依据,使用 Z 分数法,z 分位数取 {z} 来检测异常值...')
            print('=' * 70)
            # 计算两个 Z 分数的数值点
            mean, std = np.mean(data[column]), np.std(data[column])
            upper, lower = (mean + z * std), (mean - z * std)
            print(f"取 {z} 个 Z分数:大于 {upper} 或小于 {lower} 的即可被视为异常值。")
            print('=' * 70)
            # 检测异常值
            outlier = data[(data[column] <= lower) | (data[column] >= upper)]
            return outlier, upper, lower
    
    outlier, upper, lower = outlier_test(data=df, column='price', method='z')
    outlier.info(); outlier.sample(5)
    

    在这里插入图片描述


    热力图:

    # 热力图 
    def heatmap(data, method='pearson', camp='RdYlGn', figsize=(10 ,8)):
        """
        data: 整份数据
        method:默认为 pearson 系数
        camp:默认为:RdYlGn-红黄蓝;YlGnBu-黄绿蓝;Blues/Greens 也是不错的选择
        figsize: 默认为 10,8
        """
        ## 消除斜对角颜色重复的色块
        #     mask = np.zeros_like(df2.corr())
        #     mask[np.tril_indices_from(mask)] = True
        plt.figure(figsize=figsize, dpi= 80)
        sns.heatmap(data.corr(method=method), \
                    xticklabels=data.corr(method=method).columns, \
                    yticklabels=data.corr(method=method).columns, cmap=camp, \
                    center=0, annot=True)
        # 要想实现只是留下对角线一半的效果,括号内的参数可以加上 mask=mask
    
    heatmap(data=df, figsize=(6,5))
    

    在这里插入图片描述
    可以看出 area,bedrooms,bathrooms 等变量与房屋价格 price 的关系都还比较强


    • 多元线性回归建模:
    # 随机选择 600 条数据
    df = df.copy().sample(600)
     
    from statsmodels.formula.api import ols
    
    lm = ols('price ~ area + bedrooms + bathrooms', data=df).fit()
    lm.summary()
    

    在这里插入图片描述


    可发现, R 2 = 0.687 R ^ 2 = 0.687 R2=0.687


    四、Python中分析(使用Sklearn)


    导入数据:

    import pandas as pd
    import numpy as np
    import seaborn as sns
    from sklearn import datasets
    from sklearn.linear_model import LinearRegression
    df = pd.read_csv('data/house_prices.csv')
    df.info()#显示列名和数据类型类型
    df.head(6)#显示前n行,n默认为5
    

    在这里插入图片描述


    异常值检测:

    # 异常值处理
    # ================ 异常值检验函数:iqr & z分数 两种方法 =========================
    def outlier_test(data, column, method=None, z=2):
        """ 以某列为依据,使用 上下截断点法 检测异常值(索引) """
        """ 
        full_data: 完整数据
        column: full_data 中的指定行,格式 'x' 带引号
        return 可选; outlier: 异常值数据框 
        upper: 上截断点;  lower: 下截断点
        method:检验异常值的方法(可选, 默认的 None 为上下截断点法),
                选 Z 方法时,Z 默认为 2
        """
        # ================== 上下截断点法检验异常值 ==============================
        if method == None:
            print(f'以 {column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')
            print('=' * 70)
            # 四分位点;这里调用函数会存在异常
            column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
            # 1,3 分位数
            (q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
            # 计算上下截断点
            upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
            # 检测异常值
            outlier = data[(data[column] <= lower) | (data[column] >= upper)]
            print(f'第一分位数: {q1}, 第三分位数:{q3}, 四分位极差:{column_iqr}')
            print(f"上截断点:{upper}, 下截断点:{lower}")
            return outlier, upper, lower
        # ===================== Z 分数检验异常值 ==========================
        if method == 'z':
            """ 以某列为依据,传入数据与希望分段的 z 分数点,返回异常值索引与所在数据框 """
            """ 
            params
            data: 完整数据
            column: 指定的检测列
            z: Z分位数, 默认为2,根据 z分数-正态曲线表,可知取左右两端的 2%,
               根据您 z 分数的正负设置。也可以任意更改,知道任意顶端百分比的数据集合
            """
            print(f'以 {column} 列为依据,使用 Z 分数法,z 分位数取 {z} 来检测异常值...')
            print('=' * 70)
            # 计算两个 Z 分数的数值点
            mean, std = np.mean(data[column]), np.std(data[column])
            upper, lower = (mean + z * std), (mean - z * std)
            print(f"取 {z} 个 Z分数:大于 {upper} 或小于 {lower} 的即可被视为异常值。")
            print('=' * 70)
            # 检测异常值
            outlier = data[(data[column] <= lower) | (data[column] >= upper)]
            return outlier, upper, lower
    
    
    outlier, upper, lower = outlier_test(data=df, column='price', method='z')#获得异常数据
    outlier.info(); outlier.sample(5)
    df.drop(index=outlier.index, inplace=True)#丢弃异常数据
    

    在这里插入图片描述


    进行回归:

    #取出自变量
    data_x=df[['area','bedrooms','bathrooms']]
    data_y=df['price']
    # 进行多元线性回归
    model=LinearRegression()
    l_model=model.fit(data_x,data_y)
    print('参数权重')
    print(model.coef_)
    print('模型截距')
    print(model.intercept_)
    from statsmodels.formula.api import ols
    #不使用虚拟变量
    lm = ols('price ~ area + bedrooms + bathrooms', data=df).fit()
    lm.summary()
    

    在这里插入图片描述
    在这里插入图片描述


    可发现, R 2 = 0.626 R^2 = 0.626 R2=0.626


    五、总结

    多元线性回归更符合实际,比一元线性回归的实用意义更大。


    参考

    基于多元线性回归的房价预测

    多元线性回归分析(excel+sklearn)

    展开全文
  • 如上图,红框的部分是被预测的专业国家线!...多元线性回归的原理本帖不再多讲,还不太明白的同学可以参考下面的链接: https://baike.sogou.com/m/v73043234.htm 以下部分是代码: import numpy as np from pandas i.

    2021年的国家线
    如上图,红框的部分是被预测的专业国家线!
    下面六幅图是程序运行结果:
    总分等于100分的科目
    总分等于100分的科目
    以上两幅图是总分等于100分科目的分数与各数据之间的相关性及预测分数线
    总分大于100分的科目
    总分大于100分的科目
    以上两幅图是总分大于100分的科目的分数与各数据之间的相关性及预测分数线
    总分
    总分
    以上两幅图是总分与各数据之间的相关性及预测分数线

    多元线性回归的原理本帖不再多讲,还不太明白的同学可以参考下面的链接:

    https://baike.sogou.com/m/v73043234.htm

    以下部分是代码:

    import numpy as np
    from pandas import DataFrame
    from sklearn import linear_model
    from matplotlib import pyplot as plt
    
    
    def huigui (x):
        print('x',x)
        year = [2017, 2018, 2019, 2020, 2021]
        fs =list(x[:,2])
        print('fs',fs)
        print('----------')
        X = x[:,:-1]
        Y = x[:,-1]
        print(X,Y)
        print('----------')
    
        # 使用多元回归模型训练数据
        regr = linear_model.LinearRegression()
        regr.fit(X,Y)
        print('各项系数值(b1,b2...):',regr.coef_)
        print('----------')
        print('截距(b0):',regr.intercept_)
        print('----------')
    
        # 预测
        x_test = np.array([[377,111.4]])
        y_test = regr.predict(x_test)
        print('结果:',y_test)
        fs.append(y_test)
    
        #绘图
        plt.rcParams['font.sans-serif'] = ['FangSong']
        plt.figure()
        plt.scatter(year, fs, color='red')
        plt.plot(year, fs, label="趋势", color="red", linewidth=2)
        plt.xlabel("年份")
        plt.ylabel("分数")
        plt.title("国家线预测")
        plt.legend()  # 显示左下角的图例
        plt.show()
    
    '''
    数据来源:
    2017: 32 48 255 201 72.2(前三项数据表示当年各科国家线和总线,后两个数据为当年的报考人数和录取人数)
    2018: 31 47 250 238 76.3
    2019: 36 54 260 290 83
    2020: 34 51 254 341 101.9
    2021: 待遇测 待预测 待预测 377 111.4
    本例将当年的报考人数和录取人数以及当年的某一科目国家线作为训练集
    '''
    # 定义训练数据
    x = np.array([[201,72.2,255],[238,76.3,250],[290,83,260],[341,101.9,254]])
    dict1 = {'招生人数':[201,238,290,341],'录取人数':[72.2,76.3,83,101.9],
             '报录比':[201/72.2,238/76.3,290/83,341/101.9],'分数':[255,250,260,254]}
    df=DataFrame(dict1)
    print('相关系数:')
    # r(相关系数) = x和y的协方差/(x的标准差*y的标准差) == cov(x,y)/σx*σy
    # 0-0.3:弱相关,0.3-0.6:中等程度相关,0.6-1:强相关
    print(df.corr())
    print('----------')
    huigui(x)
    

    结果分析:从相关系数上看,报录比与分数的相关性并没有全部都很高!所以尽管最后预测的结果误差非常小,但我认为本程序能将分数线预测得如此准确还是存在一定巧合的!

    最后欢迎各位读者批评指正,或提出更有效的分数预测模型!

    以下是数据来源
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 1、多元线性回归 在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效...

    一、基本概念与问题背景

    1、多元线性回归

    在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

    • 回归系数:
      在这里插入图片描述
    • 线性回归数学模型:
      在这里插入图片描述
    • 一元线性回归分析的数学模型:y = a+bx+ε
    • 使用偏差平方和分别对参数a和参数b求偏导,可以得到线性模型的未知参数a、b的最小二乘估计值,其中,偏差平方和定义为∑(yi-a-bXi)2
      在这里插入图片描述

    2、问题背景

    波士顿房价数据集包括多个样本,每个样本包括多个特征变量和该地区的平均房价。房价(单价)显然和多个特征变量相关,不是单变量线性回归(一元线性回归)问题;选择多个特征变量来建立线性方程,这就是多变量线性回归(多元线性回归)问题。
    房价和多个特征变量相关,本案例尝试使用多元线性回归建模
    在这里插入图片描述

    二、Excel处理数据

    1、错误数据清洗

    • 存在数据异常的行:
      在这里插入图片描述
    • 删除重复值
      在这里插入图片描述
      在这里插入图片描述
    • 排序(升序)
      在这里插入图片描述
      在这里插入图片描述
    • 删除数据异常的行
      在这里插入图片描述
      在这里插入图片描述
    • 最后结果
      在这里插入图片描述
    • 非数值型数据替换
      A、B、C替换成1、2、3;victorian、ranch、lodge替换为100、200、300
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    2、Excel多元线性回归

    在这里插入图片描述
    在这里插入图片描述

    三、代码方式实现多元线性回归

    1、 数据预处理

    • 查看数据基础信息
    import pandas as pd
    import numpy as np
    import seaborn as sns
    import matplotlib.pyplot as plt#导入数据
    df = pd.read_csv("E:\人工智能\house_prices1.csv")
    #读取数据的基础信息
    df.info()
    
    

    在这里插入图片描述
    在这里插入图片描述

    • 冗余数据
      在这里插入图片描述
    # 判断各变量中是否存在缺失值
    df.isnull().any(axis = 0)
    # 各变量中缺失值的数量
    df.isnull().sum(axis = 0)
    # 各变量中缺失值的比例
    df.isnull().sum(axis = 0)/df.shape[0]
    
    

    在这里插入图片描述

    • 异常数据值识别处理
    # 异常值处理
    # ================ 异常值检验函数:iqr & z分数 两种方法 =========================
    def outlier_test(data, column, method=None, z=2):
        """ 以某列为依据,使用 上下截断点法 检测异常值(索引) """
        """ 
        full_data: 完整数据
        column: full_data 中的指定行,格式 'x' 带引号
        return 可选; outlier: 异常值数据框 
        upper: 上截断点;  lower: 下截断点
        method:检验异常值的方法(可选, 默认的 None 为上下截断点法),
                选 Z 方法时,Z 默认为 2
        """
        # ================== 上下截断点法检验异常值 ==============================
        if method == None:
            print(f'以 {column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')
            print('=' * 70)
            # 四分位点;这里调用函数会存在异常
            column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
            # 13 分位数
            (q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
            # 计算上下截断点
            upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
            # 检测异常值
            outlier = data[(data[column] <= lower) | (data[column] >= upper)]
            print(f'第一分位数: {q1}, 第三分位数:{q3}, 四分位极差:{column_iqr}')
            print(f"上截断点:{upper}, 下截断点:{lower}")
            return outlier, upper, lower
        # ===================== Z 分数检验异常值 ==========================
        if method == 'z':
            """ 以某列为依据,传入数据与希望分段的 z 分数点,返回异常值索引与所在数据框 """
            """ 
            params
            data: 完整数据
            column: 指定的检测列
            z: Z分位数, 默认为2,根据 z分数-正态曲线表,可知取左右两端的 2%,
               根据您 z 分数的正负设置。也可以任意更改,知道任意顶端百分比的数据集合
            """
            print(f'以 {column} 列为依据,使用 Z 分数法,z 分位数取 {z} 来检测异常值...')
            print('=' * 70)
            # 计算两个 Z 分数的数值点
            mean, std = np.mean(data[column]), np.std(data[column])
            upper, lower = (mean + z * std), (mean - z * std)
            print(f"取 {z} 个 Z分数:大于 {upper} 或小于 {lower} 的即可被视为异常值。")
            print('=' * 70)
            # 检测异常值
            outlier = data[(data[column] <= lower) | (data[column] >= upper)]
            return outlier, upper, lower
    
    
    
    • 进行异常值检测
    #对数据进行异常值检测
    outlier, upper, lower = outlier_test(data=df, column='price', method='z')
    
    outlier.info();
    outlier.sample(5)
    
    

    在这里插入图片描述
    在这里插入图片描述

    • 丢弃异常值
    # 这里简单的丢弃即可
    df.drop(index=outlier.index, inplace=True)
    
    
    
    • 统计非数值变量
    # 类别变量,又称为名义变量,nominal variables
    nominal_vars = ['neighborhood', 'style']
    
    for each in nominal_vars:
        print(each, ':')
        print(df[each].agg(['value_counts']).T)
        # 直接 .value_counts().T 无法实现下面的效果
        ## 必须得 agg,而且里面的中括号 [] 也不能少
        print('='*35)
        # 发现各类别的数量也都还可以,为下面的方差分析做准备
    
    

    在这里插入图片描述

    • 绘制热力图

    热力图查看变量关联性

    # 热力图 
    def heatmap(data, method='pearson', camp='RdYlGn', figsize=(10 ,8)):
        """
        data: 整份数据
        method:默认为 pearson 系数
        camp:默认为:RdYlGn-红黄蓝;YlGnBu-黄绿蓝;Blues/Greens 也是不错的选择
        figsize: 默认为 108
        """
        ## 消除斜对角颜色重复的色块
        #     mask = np.zeros_like(df2.corr())
        #     mask[np.tril_indices_from(mask)] = True
        plt.figure(figsize=figsize, dpi= 80)
        sns.heatmap(data.corr(method=method), \
                    xticklabels=data.corr(method=method).columns, \
                    yticklabels=data.corr(method=method).columns, cmap=camp, \
                    center=0, annot=True)
        # 要想实现只是留下对角线一半的效果,括号内的参数可以加上 mask=mask
    
    

    调用函数输出结果

    # 通过热力图可以看出 area,bedrooms,bathrooms 等变量与房屋价格 price 的关系都还比较强
     ## 所以值得放入模型,但分类变量 style 与 neighborhood 两者与 price 的关系未知
    heatmap(data=df, figsize=(6,5))
    
    

    在这里插入图片描述
    通过热力图可以看出area,bedrooms,bathrooms变量与房屋价格 price 的关系都还比较强,放入模型,但分类变量 style与 neighborhood两者与price的关系未知。

    • 方差分析
    # 利用回归模型中的方差分析
    ## 只有 statsmodels 有方差分析库
    ## 从线性回归结果中提取方差分析结果
    import statsmodels.api as sm
    from statsmodels.formula.api import ols # ols 为建立线性回归模型的统计学库
    from statsmodels.stats.anova import anova_lm
    
    
    # 从数据集样本中随机选择 600 条,如果希望分层抽样,可参考文章:
    df = df.copy().sample(600)
    
    # C 表示告诉 Python 这是分类变量,否则 Python 会当成连续变量使用
    ## 这里直接使用方差分析对所有分类变量进行检验
    ## 下面几行代码便是使用统计学库进行方差分析的标准姿势
    lm = ols('price ~ C(neighborhood) + C(style)', data=df).fit()
    anova_lm(lm)
    
    # Residual 行表示模型不能解释的组内的,其他的是能解释的组间的
    # df: 自由度(n-1- 分类变量中的类别个数减1
    # sum_sq: 总平方和(SSM),residual行的 sum_eq: SSE
    # mean_sq: msm, residual行的 mean_sq: mse
    # F:F 统计量,查看卡方分布表即可
    # PR(>F): P 值
    
    

    在这里插入图片描述

    2、建立线性回归模型

    • 使用最小二乘法建立线性回归模型
    from statsmodels.formula.api import ols
    #最小二乘法建立线性回归模型
    lm = ols('price ~ area + bedrooms + bathrooms', data=df).fit()
    lm.summary()
    
    

    在这里插入图片描述
    在这里插入图片描述
    模型拟合效果不理想,模型需要进一步优化

    • 模型优化
    # 设置虚拟变量
    # 以名义变量 neighborhood 街区为例
    nominal_data = df['neighborhood']
    
    # 设置虚拟变量
    dummies = pd.get_dummies(nominal_data)
    dummies.sample()  # pandas 会自动帮你命名
    
    # 每个名义变量生成的虚拟变量中,需要各丢弃一个,这里以丢弃C为例
    dummies.drop(columns=['C'], inplace=True)
    dummies.sample()
    
    

    在这里插入图片描述
    结果与原数据集连接:

    # 将结果与原数据集拼接
    results = pd.concat(objs=[df, dummies], axis='columns')  # 按照列来合并
    results.sample(3)
    # 对名义变量 style 的处理可自行尝试
    
    

    在这里插入图片描述

    lm = ols('price ~ area + bedrooms + bathrooms + A + B', data=results).fit()
    lm.summary()
    
    
    

    在这里插入图片描述
    在这里插入图片描述

    3、Sklearn库建立多元线性回归模型

    #导入相关库
    import pandas as pd
    import numpy as np
    from sklearn.model_selection import train_test_split #这里是引用了交叉验证
    from sklearn.linear_model import LinearRegression  #线性回归
    from sklearn.linear_model import Lasso, Ridge, LinearRegression as LR
    from sklearn.metrics import r2_score, explained_variance_score as EVS, mean_squared_error as MSE
    from sklearn.model_selection import train_test_split, cross_val_score
    from pandas.core.accessor import register_dataframe_accessor
    
    
    • 读入数据
    data=pd.read_csv('E:\AI\Works\work3\house_prices.csv')
    x = data[['neighborhood','area','bedrooms','bathrooms','style']]#自变量
    y= data['price']# 因变量
    
    
    • 划分训练集等
    x_train, x_test, y_train, y_test = train_test_split(
        x, y, test_size=0.3, random_state=1)
    
    
    • 模型训练与求解
    reg = LR().fit(x_train, y_train)  # 训练模型
    yhat = reg.predict(x_test)  # 基于测试集x去预测标签
    print("r2 = ",r2_score(y_test,yhat))#判定系数R^2
    
    

    在这里插入图片描述

    • 判断参数
    print("参数为:"+str(reg.coef_)+"\t\n")  
    print("截距为:"+str(reg.intercept_)+"\t\n")
    print("均方差为:"+str(MSE(y_test,yhat))+"\t\n")
    print("比例:"+str(np.sqrt(MSE(y_test,yhat)))+"\t\n")
    print("判断系数R²为:"+str(r2_score(y_test,yhat))+"\t\n")
    print("方差为:"+str(cross_val_score(reg,x,y,cv=5,scoring="explained_variance"))+"\t\n")
    

    在这里插入图片描述

    总结

    熟悉了使用Excel对一些数据进行的操作,以及Sklearn库建立多元线性回归模型的方法

    参考文章

    多元线性回归之预测房价
    基于多元线性回归的房价预测

    展开全文
  • 文章目录一、线性回归理论基础二、利用Excle进行线性回归分析三、基于statsmodels进行线性回归分析1、导入数据及基础包2、数据清洗3、分析数据4、拟合四、基于Sklearn库实现线性回归1、导入Sklearn库并读取数据文件2...
  • 数据分析中选择回归,来完成我们的多元线性回归预测 输出: 截取的部分price预测值 总结 使用数学方法对影响因变量的各种因素进行分析,可以快速确定自变量与因变量之间是否存在线性关系,能够帮助我们建立...
  • 多元线性回归预测

    千次阅读 2017-06-19 09:01:55
    回归模型除了对参数进行估计和检验,以弄清楚变量的相关性和因果性之外,另一个目的便是进行预测。  那么,由OLS方法的出来的预测结果是否可靠呢?预测结果的可靠性又会受什么因素的影响呢?除了点估计的预测结果...
  • 方法:使用多元线性回归进行房价预测 知识点:matplotlib绘图,相关系数,数据标准化处理 ##载入所需要的模块 from __future__ import print_function import numpy as np import pandas as pd ##matplotlib ...
  • 多元线性回归:在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,...
  • MATLAB实现多元线性回归预测

    千次阅读 2021-04-20 12:57:24
    一、简单的多元线性回归:data.txt1,230.1,37.8,69.2,22.12,44.5,39.3,45.1,10.43,17.2,45.9,69.3,9.34,151.5,41.3,58.5,18.55,180.8,10.8,58.4,12.96,8.7,48.9,75,7.27,57.5,32.8,23.5,11.88,120.2,19.6,11.6,13.29...
  • 多元线性回归模型评估You’ve got a sample dataset and just finished working on a machine learning algorithm using the linear regression model. But now, you are wondering whether or not your analysis ...
  • 目录 一、处理数据 二、多元线性回归模型预测房价 1.数据包的导入 2. 异常值处理 3.分析数据 4.热力图分析 5.方差分析 6.多元线性回归建模 7.模型优化 1.设置虚拟变量 2.将结果与原数据集拼接 3.再次进行建模 4....
  • 多元线性回归分析

    2021-10-28 10:12:19
    取出自变量和因变量9,进行多元线性回归10,结果4,用线性回归模型的统计学库实现1,导入函数2,进行预测3,检验一下4,去掉bedroom,再次建模5,分析6,总结7,参考 1,概念 在回归分析中,如果有两个或两个以上的...
  • Excel做多元线性回归

    2021-10-26 13:09:36
    一、EXCEL进行多元线性回归 1.首先需要下载一个数据分析的插件: ...选项->加载项->...二、多元线性回归模型预测房价 1.导入包 import pandas as pd import numpy as np import seaborn as.
  • 多元线性回归分析预测 多元线性回归分析预测法概述 多元线性回归的计算模型 多元线性回归模型的检验 多元线性回归分析预测法案例分析

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 25,537
精华内容 10,214
关键字:

多元线性回归模型的预测