精华内容
下载资源
问答
  • 我正在使用Python中的RandomForestRegressor,我想创建一个图表来说明功能重要性的排名。这是我使用的代码:from sklearn.ensemble import RandomForestRegressorMT= pd.read_csv("MT_reduced.csv")df = MT.reset_...

    我正在使用Python中的RandomForestRegressor,我想创建一个图表来说明功能重要性的排名。这是我使用的代码:

    from sklearn.ensemble import RandomForestRegressor

    MT= pd.read_csv("MT_reduced.csv")

    df = MT.reset_index(drop = False)

    columns2 = df.columns.tolist()

    # Filter the columns to remove ones we don't want.

    columns2 = [c for c in columns2 if c not in["Violent_crime_rate","Change_Property_crime_rate","State","Year"]]

    # Store the variable we'll be predicting on.

    target = "Property_crime_rate"

    # Let’s randomly split our data with 80% as the train set and 20% as the test set:

    # Generate the training set. Set random_state to be able to replicate results.

    train2 = df.sample(frac=0.8, random_state=1)

    #exclude all obs with matching index

    test2 = df.loc[~df.index.isin(train2.index)]

    print(train2.shape) #need to have same number of features only difference should be obs

    print(test2.shape)

    # Initialize the model with some parameters.

    model = RandomForestRegressor(n_estimators=100, min_samples_leaf=8, random_state=1)

    #n_estimators= number of trees in forrest

    #min_samples_leaf= min number of samples at each leaf

    # Fit the model to the data.

    model.fit(train2[columns2], train2[target])

    # Make predictions.

    predictions_rf = model.predict(test2[columns2])

    # Compute the error.

    mean_squared_error(predictions_rf, test2[target])#650.4928

    功能重要性 h1>

    features=df.columns[[3,4,6,8,9,10]]

    importances = model.feature_importances_

    indices = np.argsort(importances)

    plt.figure(1)

    plt.title('Feature Importances')

    plt.barh(range(len(indices)), importances[indices], color='b', align='center')

    plt.yticks(range(len(indices)), features[indices])

    plt.xlabel('Relative Importance')http://www.agcross.com/2015/02/random-forests-in-python-with-scikit-learn/上找到的示例更改了此功能重要性代码

    我尝试使用我的数据复制代码时收到以下错误:

    IndexError: index 6 is out of bounds for axis 1 with size 6此外,只有一个功能出现在我的统计图中,100%重要,没有标签。

    任何帮助解决这个问题,所以我可以创建这个图表将不胜感激。

    展开全文
  • 1 特征重要性​度量计算某个特征X的重要性时,具体步骤如下:1)对每一颗决策树,选择相应的袋外数据(out of bag,OOB)​计算袋外数据误差,记为errOOB1.所谓袋外数据是指,每次建立决策树时,通过重复抽样得到一个...

    特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。

    1 特征重要性​度量

    计算某个特征X的重要性时,具体步骤如下:

    1)对每一颗决策树,选择相应的袋外数据(out of bag,OOB)​计算袋外数据误差,记为errOOB1.

    所谓袋外数据是指,每次建立决策树时,通过重复抽样得到一个数据用于训练​决策树,这时还有大约1/3的数据没有被利用,没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,称为袋外数据误差。

    ​这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

    ​2)随机对袋外数据OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值),再次计算袋外数据误差,记为errOOB2。

    3)​假设森林中有N棵树,则特征X的重要性=∑(errOOB2-errOOB1)/N。这个数值之所以能够说明特征的重要性是因为,如果加入随机噪声后,袋外数据准确率大幅度下降(即errOOB2上升),说明这个特征对于样本的预测结果有很大影响,进而说明重要程度比较高。

    ​2 特征选择

    在特征重要性的基础上,特征选择的步骤如下:

    1)计算每个特征的重要性,并按降序排序

    2)确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集

    3)用新的特征集重复上述过程,直到剩下m个特征(m为提前设定的值)。

    4)根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集

    展开全文
  • 我正在努力从我的随机森林回归器中找出特征重要性,我得到一个:AttributeError: 'GridSearchCV' object has no attribute'feature_importances_'.有人知道为什么没有属性吗?根据文件应该存在这个属性吗?在完整...

    我正在努力从我的随机森林回归器中找出特征重要性,我得到一个:AttributeError: 'GridSearchCV' object has no attribute

    'feature_importances_'.

    有人知道为什么没有属性吗?根据文件应该存在这个属性吗?在

    完整代码:from sklearn.ensemble import RandomForestRegressor

    from sklearn.model_selection import GridSearchCV

    #Running a RandomForestRegressor GridSearchCV to tune the model.

    parameter_candidates = {

    'n_estimators' : [650, 700, 750, 800],

    'min_samples_leaf' : [1, 2, 3],

    'max_depth' : [10, 11, 12],

    'min_samples_split' : [2, 3, 4, 5, 6]

    }

    RFR_regr = RandomForestRegressor()

    CV_RFR_regr = GridSearchCV(estimator=RFR_regr, param_grid=parameter_candidates, n_jobs=5, verbose=2)

    CV_RFR_regr.fit(X_train, y_train)

    #Predict with testing set

    y_pred = CV_RFR_regr.predict(X_test)

    #Extract feature importances

    importances = CV_RFR_regr.feature_importances_

    展开全文
  • 当涉及到决策树时,特征重要性不是一个黑匣子。来自DecisionTreeRegressor的文档:The importance of a feature is computed as the (normalized) totalreduction of the criterion brought by that feature. It is ...

    当涉及到决策树时,特征重要性不是一个黑匣子。来自DecisionTreeRegressor的文档:The importance of a feature is computed as the (normalized) total

    reduction of the criterion brought by that feature. It is also known

    as the Gini importance.

    对于一个森林来说,它只是平均分布在你的森林中不同的树上。查看source code:def feature_importances_(self):

    """Return the feature importances (the higher, the more important the

    feature).

    Returns

    -

    feature_importances_ : array, shape = [n_features]

    """

    if self.estimators_ is None or len(self.estimators_) == 0:

    raise NotFittedError("Estimator not fitted, "

    "call `fit` before `feature_importances_`.")

    all_importances = Parallel(n_jobs=self.n_jobs,

    backend="threading")(

    delayed(getattr)(tree, 'feature_importances_')

    for tree in self.estimators_)

    return sum(all_importances) / len(self.estimators_)

    展开全文
  • 在此,IT培训网给大家谈谈随机森林算法的工作原理及重要性随机森林算法工作原理及重要性?1、随机森林算法的工作原理随机森林是一种有监督学习算法。 就像你所看到的它的名字一样,它创建了一个森林...
  • 随机森林特征重要性和xgboost不同: 随机森林中的特征重要性主要是基于不纯度(也可以叫做Gini importance): 对于分类问题的话,就是gini不纯度 对于回归问题的话,MSE(Mean Square error)或者MAE(Mean absolute...
  • 随机森林特征重要性度量

    千次阅读 2017-09-06 20:19:40
    使用随机森林度量特征重要性的方法在此介绍两种: 通过基尼指数计算节点的不纯度衡量特征重要性 在节点t使用属性a作为划分属性,估计属于不同类的概率,使用p(k|t),k=1,…,Q表示,基尼指数的定义为: Q是样本...
  • 重要性: model.featureImportances   pyspark 模型简单实例:  https://blog.csdn.net/Katherine_hsr/article/details/80988994   概率: predictions.select("probability", "label").show(1000)...
  • R包可以用两种不同的方法计算特征重要性得分:The first measure is computed from permuting OOB data: For each tree, the prediction error on the out-of-bag portion of the data isrecorded (error rate for ...
  • 你的问题可以给出肯定的回答,重要性本来就是一个依赖于模型的指标,一些指标对模型A重要,但对B未必重要。举个很简单的例子,在欧式距离中,量纲很重要,数值大距离就大数值小距离就小。而在余弦夹角表示距离时,...
  • 我在python中使用RandomForestRegressor,我想创建一个图表来说明功能重要性的排名.这是我使用的代码:from sklearn.ensemble import RandomForestRegressorMT= pd.read_csv("MT_reduced.csv")df = MT.reset_index...
  • 你的问题可以给出肯定的回答,重要性本来就是一个依赖于模型的指标,一些指标对模型A重要,但对B未必重要。举个很简单的例子,在欧式距离中,量纲很重要,数值大距离就大数值小距离就小。而在余弦夹角表示距离时,...
  • 原文链接:http://tecdat.cn/?p=13546​tecdat.cn变量重要性图是查看模型中哪些变量...例如,考虑一个非常简单的线性模型在这里,我们使用一个随机森林特征之间的关系模型,但实际上,我们考虑另一个特点-不用于...
  • 随机森林原理随机森林是一种相当简单、容易理解的方法,他的基本原理就是,从原数据集中有放回的采样获得若干个子集,基于每个子集训练出不同的基分类器,再通过基分类器的投票获得最终的分类结果。随机森林采用自助...
  • 特征重要性>; 完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Ti ... 随机推荐 css2----兼容----ie67的3像素bug 发生条件:...
  • 利用随机森林特征重要性进行评估

    万次阅读 多人点赞 2017-08-18 16:22:48
    随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,...本文是对随机森林如何用在特征选择上做一个简单的介绍。
  • 随机森林计算特征重要性The feature importance describes which features are relevant. It can help with a better understanding of the solved problem and sometimes lead to model improvement by utilizing ...
  • 本文是对随机森林如何用在特征选择上做一个简单的介绍。随机森林(RF)简介只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括:用有抽样放回的方法(bootstrap...
  • Python 随机森林特征重要度 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。 2 随机森林特征重要度简介 决策树的优点是通过树形结构以...
  • 可视化随机森林特征重要性

    千次阅读 2019-12-22 16:54:28
    可视化随机森林特征重要性 # 查看随机森林特征重要性 import numpy as np import matplotlib.pyplot as plt from sklearn.ensemble import RandomForestClassifier from sklearn import datasets ​ iris = ...
  • 基于 UCI 葡萄酒数据,使用随机森林进行特征重要性分析,这些数据是对意大利同一地区种植的三种不同品种葡萄酒的化学分析结果,分析确定了三种葡萄酒中13种成分的含量,数据的第一列是葡萄酒的类别
  • 随机森林评估特征重要性

    千次阅读 2019-11-01 10:24:00
    随机森林(RF)简介 只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括: 1、用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集 2、用抽样得到的样本...
  • 随机森林 Iris 特征重要性

    千次阅读 2019-12-12 14:40:09
    随机森林是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法,其输出的类别是由个别决策树输出的类别的众树来决定的。在Sklearn模块库中,与随机森林算法相关的...
  • 随机森林特征重要性原理

    万次阅读 2018-05-25 17:04:39
    答:在随机森林中某个特征X的重要性的计算方法如下:1:对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1.2: 随机地对袋外数据OOB所有样本的特征X加入噪声干扰(就可以...
  • 调用了Sklearn函数包中RandomForestRegressor.feature_importances_函数计算特征重要性随机森林(RandomForest)是由一棵棵决策树(Decision Tree)组成,因此为了求得每个特征的重要性,首先需要知道每个特征在每...
  • 下图中的红色柱形(red bars)表示随机森林特征重要性,以及它们在树间的可变性(inter-trees variability)。不出所料,该图表明了3个特征是有信息的,而其余特征则没有。sphx_glr_plot_forest_importances_001输出:...
  • 随机森林特征重要性排序

    万次阅读 2018-05-18 17:00:47
    two methods: 1.Mean decrease impurity 大概是对于每颗树,按照impurity(gini /entropy /information gain)给特征排序,然后...影响小说明这个特征重要,反之重要 具体步骤如下: 在随机森林中某个特征X...
  • 随机森林(RF)简介 只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括: 用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集 用抽样得到的样本集...
  • 下图中的红色柱形(red bars)表示随机森林特征重要性,以及它们在树间的可变性(inter-trees variability)。不出所料,该图表明了3个特征是有信息的,而其余特征则没有。sphx_glr_plot_forest_importances_001输出:...
  • 今天爱分享给大家带来随机森林如何评估特征重要性【机器学习面试题详解】,希望能够帮助到大家。解析:衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy:1) Decrease GINI:对于分类问题(将某个...

空空如也

空空如也

1 2 3 4 5 ... 16
收藏数 307
精华内容 122
关键字:

随机森林特征重要性