2019-05-17 17:11:36 qq_40337206 阅读数 105
  • 机器学习案例实战第六课-PCA与Xgboost视频教学

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 用实例演示机器学习中的Xgboost算法和PCA原理。本视频课程首先讲解两个案例,基于文本分类的股价预测与PCA降维应用在鸢尾花数据集上。简介Xgboost算法原理,并安装xgboost实例演示如何进行操作。 会员卡优惠购买:http://edu.csdn.net/lecturer/1079

    3117 人正在学习 去看看 唐宇迪

Spark PCA

在机器学习或者数据挖掘中,得到的数据往往维度过高,含有噪音,需要把多指标转化为少数几个综合指标的数据。pca是机器学习框架中常用的一个功能,spark机器模块也实现了这一功能。


PCA主要的几个方法

设置输入项的字段

def setInputCol(value: String): this.type = set(inputCol, value)

设置输出项的字段

def setOutputCol(value: String): this.type = set(outputCol, value)

设置转化的维度个数

def setK(value: Int): this.type = set(k, value)

训练模型

def fit(dataset: Dataset[_]): PCAModel

利用模型转化数据

def transform(dataset: Dataset[_]): DataFrame


Spark PCA 示例

    val spark = SparkSession.builder().appName("pca").master("local[4]").getOrCreate()
    val file = spark.read.format("csv")
      .option("sep",",")
      .option("header","true")
      .load("boston_house_prices.csv")
    file.show(true)
    import spark.implicits._
    //打乱顺序
    val rand = new Random()
    val data = file.select("MEDV", "CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT").map(
      row => (row.getAs[String](0).toDouble, row.getString(1).toDouble, row.getString(2).toDouble, row.getString(3).toDouble, row.getString(4).toDouble, row.getString(5).toDouble, row.getString(6).toDouble, row.getString(7).toDouble, row.getString(8).toDouble, row.getString(9).toDouble, row.getString(10).toDouble, row.getString(11).toDouble, row.getString(12).toDouble, row.getString(13).toDouble, rand.nextDouble()))
      .toDF("price", "crim", "zn", "indus", "chas", "nox", "rm", "age", "dis", "rad", "tax", "ptratio", "b", "lstat", "rand").sort("rand") //强制类型转换过程

    data.show(true)
    val assembler = new VectorAssembler().setInputCols(Array("crim", "zn", "indus", "chas", "nox", "rm", "age", "dis", "rad", "tax", "ptratio", "b", "lstat", "rand")).setOutputCol("features")
    val pca = new PCA().setInputCol("features").setOutputCol("featuresPca").setK(3)
    val assembler_data = assembler.transform(data)
    val pca_model = pca.fit(assembler_data)
    val pca_data = pca_model.transform(assembler_data)
    pca_data.select("features","featuresPca").show(false)

数据从 64 维度降到3 维


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


与朱元思书

【作者】吴均 【朝代】南北朝
风烟俱净,天山共色。从流飘荡,任意东西。自富阳至桐庐一百许里,奇山异水,天下独绝。
水皆缥碧,千丈见底。游鱼细石,直视无碍。急湍甚箭,猛浪若奔。
夹岸高山,皆生寒树,负势竞上,互相轩邈,争高直指,千百成峰。
泉水激石,泠泠作响;好鸟相鸣,嘤嘤成韵。蝉则千转不穷,猿则百叫无绝。鸢飞戾天者,望峰息心;
经纶世务者,窥谷忘反。横柯上蔽,在昼犹昏;疏条交映,有时见日。

2016-08-28 19:15:05 qq_34531825 阅读数 3657
  • 机器学习案例实战第六课-PCA与Xgboost视频教学

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 用实例演示机器学习中的Xgboost算法和PCA原理。本视频课程首先讲解两个案例,基于文本分类的股价预测与PCA降维应用在鸢尾花数据集上。简介Xgboost算法原理,并安装xgboost实例演示如何进行操作。 会员卡优惠购买:http://edu.csdn.net/lecturer/1079

    3117 人正在学习 去看看 唐宇迪

PCA在Spark2.0用法比较简单,只需要设置:
.setInputCol(“features”)//保证输入是特征值向量
.setOutputCol(“pcaFeatures”)//输出
.setK(3)//主成分个数
注意:PCA前一定要对特征向量进行规范化(标准化)!!!


//Spark 2.0 PCA主成分分析
//注意:PCA降维前必须对原始数据(特征向量)进行标准化处理
package my.spark.ml.practice;

import org.apache.spark.ml.feature.PCA;
import org.apache.spark.ml.feature.PCAModel;//不是mllib
import org.apache.spark.ml.feature.StandardScaler;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;


public class myPCA {

    public static void main(String[] args) {
        SparkSession spark=SparkSession
                .builder()
                .appName("myLR")
                .master("local[4]")
                .getOrCreate();
        Dataset<Row> rawDataFrame=spark.read().format("libsvm")
          .load("/home/hadoop/spark/spark-2.0.0-bin-hadoop2.6" +
                "/data/mllib/sample_libsvm_data.txt");
        //首先对特征向量进行标准化
        Dataset<Row> scaledDataFrame=new StandardScaler()
                  .setInputCol("features")
                  .setOutputCol("scaledFeatures")
                  .setWithMean(false)//对于稀疏数据(如本次使用的数据),不要使用平均值
                  .setWithStd(true)
                  .fit(rawDataFrame)
                  .transform(rawDataFrame);
        //PCA Model
        PCAModel pcaModel=new PCA()
                      .setInputCol("scaledFeatures")
                      .setOutputCol("pcaFeatures")
                      .setK(3)//
                      .fit(scaledDataFrame);
        //进行PCA降维
        pcaModel.transform(scaledDataFrame).select("label","pcaFeatures").show(100,false);      
    }
}

/**
 * 没有标准化特征向量,直接进行PCA主成分:各主成分之间值变化太大,有数量级的差别。
+-----+------------------------------------------------------------+
|label|pcaFeatures                                                 |
+-----+------------------------------------------------------------+
|0.0  |[-1730.496937303442,6.811910953794295,2.8044962135250024]   |
|1.0  |[290.7950975587044,21.14756134360174,0.7002807351637692]    |
|1.0  |[149.4029441007031,-13.733854376555671,9.844080682283838]   |
|1.0  |[200.47507801105797,18.739201694569232,22.061802015132024]  |
|1.0  |[236.57576401934855,36.32142445435475,56.49778957910826]    |
|0.0  |[-1720.2537550195714,25.318146742090196,2.8289957152580136] |
|1.0  |[285.94940382351075,-6.729431266185428,-33.69780131162192]  |
|1.0  |[-323.70613777909136,2.72250162998038,-0.528081577573507]   |
|0.0  |[-1150.8358810584655,5.438673892459839,3.3725913786301804]  |
 */
/**
 * 标准化特征向量后PCA主成分,各主成分之间值基本上在同一水平上,结果更合理
 |label|pcaFeatures                                                  |
+-----+-------------------------------------------------------------+
|0.0  |[-14.998868464839624,-10.137788261664621,-3.042873539670117] |
|1.0  |[2.1965800525589754,-4.139257418439533,-11.386135042845101]  |
|1.0  |[1.0254645688925883,-0.8905813756164163,7.168759904518129]   |
|1.0  |[1.5069317554093433,-0.7289177578028571,5.23152743564543]    |
|1.0  |[1.6938250375084654,-0.4350617717494331,4.770263568537382]   |
|0.0  |[-15.870371979062549,-9.999445137658528,-6.521920373215663]  |
|1.0  |[3.023279951602481,-4.102323190311296,-9.451729897327345]    |
|1.0  |[3.500670997961283,-4.1791886802435805,-9.306353932746568]   |
|0.0  |[-15.323114679599747,-16.83241059234951,2.0282183995400374]  |
*/

如何选择k值?

//PCA Model
        PCAModel pcaModel=new PCA()
                      .setInputCol("scaledFeatures")
                      .setOutputCol("pcaFeatures")
                      .setK(100)//
                      .fit(scaledDataFrame);
        int i=1;
        for(double x:pcaModel.explainedVariance().toArray()){
        System.out.println(i+"\t"+x+"  ");
        i++;
        }
输出100个降序的explainedVariance(和scikit-learn中PCA一样):
1   0.25934799275530857  
2   0.12355355301486977  
3   0.07447670060988294  
4   0.0554545717486928  
5   0.04207050513264405  
6   0.03715986573644129  
7   0.031350566055423544  
8   0.027797304129489515  
9   0.023825873477496748  
10  0.02268054946233242  
11  0.021320060154167115  
12  0.019764029918116235  
13  0.016789082901450734  
14  0.015502412597350008  
15  0.01378190652256973  
16  0.013539546429755526  
17  0.013283518226716669  
18  0.01110412833334044  
...

这里写图片描述
大约选择20个主成分就足够了
随便做一个图可以选择了(详细可参考Scikit-learn例子)
http://scikit-learn.org/stable/auto_examples/plot_digits_pipe.html

Scikit中使用PCA

参考http://blog.csdn.net/u012162613/article/details/42192293
sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False)
参数说明:

n_components:
意义:PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n
类型:int 或者 string,缺省时默认为None,所有成分被保留。
赋值为int,比如n_components=1,将把原始数据降到一个维度。
赋值为string,比如n_components=’mle’,将自动选取特征个数n,使得满足所要求的方差百分比。
copy:
类型:bool,True或者False,缺省时默认为True。
意义:表示是否在运行算法时,将原始训练数据复制一份。若为True,则运行PCA算法后,原始训练数据的值不 会有任何改变,因为是在原始数据的副本上进行运算;若为False,则运行PCA算法后,原始训练数据的 值会改,因为是在原始数据上进行降维计算。
whiten:
类型:bool,缺省时默认为False
意义:白化,使得每个特征具有相同的方差。关于“白化”,可参考:Ufldl教程

简单例子:

#!/usr/bin/env python2
# -*- coding: utf-8 -*-


from sklearn import datasets
from sklearn.decomposition import PCA


iris = datasets.load_iris()

X = iris.data
y = iris.target
target_names = iris.target_names

pca = PCA(n_components=3)
X_r = pca.fit(X).transform(X)
print "X_r"
print X_r

print "X"
print X

print "pca.explained_variance_ratio"
print pca.explained_variance_ratio_
2019-03-01 11:19:16 weixin_41891249 阅读数 674
  • 机器学习案例实战第六课-PCA与Xgboost视频教学

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 用实例演示机器学习中的Xgboost算法和PCA原理。本视频课程首先讲解两个案例,基于文本分类的股价预测与PCA降维应用在鸢尾花数据集上。简介Xgboost算法原理,并安装xgboost实例演示如何进行操作。 会员卡优惠购买:http://edu.csdn.net/lecturer/1079

    3117 人正在学习 去看看 唐宇迪

PCA的原理是,为了将数据从n维降低到k维,需要找到k个向量,用于投影原始数据,是投影误差(投影距离)最小。

用公式表达:

 

其中


m表示特征个数


分子表示原始点与投影点之间的距离之和,而误差越小,说明降维后的数据越能完整表示降维前的数据。如果这个误差小于0.01,说明降维后的数据能保留99%的信息。

 

 

 

 

 

 

 

PCA
2016-08-27 22:22:41 chenyanqiao2010 阅读数 2573
  • 机器学习案例实战第六课-PCA与Xgboost视频教学

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 用实例演示机器学习中的Xgboost算法和PCA原理。本视频课程首先讲解两个案例,基于文本分类的股价预测与PCA降维应用在鸢尾花数据集上。简介Xgboost算法原理,并安装xgboost实例演示如何进行操作。 会员卡优惠购买:http://edu.csdn.net/lecturer/1079

    3117 人正在学习 去看看 唐宇迪

1、PCA为何要用协方差矩阵

http://blog.csdn.net/babywong/article/details/50085239

2、主成分分析PCA

http://www.cnblogs.com/zhangchaoyang/articles/2222048.html

3、PCA的数学原理(非常值得阅读)!!!!

http://blog.csdn.net/xiaojidan2011/article/details/11595869

4、UFLDL 主成分分析

http://ufldl.stanford.edu/wiki/index.php/主成分分析

2016-07-18 11:22:43 ASD991936157 阅读数 300
  • 机器学习案例实战第六课-PCA与Xgboost视频教学

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 用实例演示机器学习中的Xgboost算法和PCA原理。本视频课程首先讲解两个案例,基于文本分类的股价预测与PCA降维应用在鸢尾花数据集上。简介Xgboost算法原理,并安装xgboost实例演示如何进行操作。 会员卡优惠购买:http://edu.csdn.net/lecturer/1079

    3117 人正在学习 去看看 唐宇迪

感觉这些程序都是千篇一律,哎。

import org.apache.spark.ml.feature.PCA
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by fhqplzj on 16-7-18 at 上午11:18.
  */
object TestPCA {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("TestPCA")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    val data = Array(
      Vectors.sparse(5, Seq((1, 1.0), (3, 7.0))),
      Vectors.dense(2.0, 0.0, 3.0, 4.0, 5.0),
      Vectors.dense(4.0, 0.0, 0.0, 6.0, 7.0)
    )
    val dataFrame = sqlContext.createDataFrame(data.map(Tuple1.apply)).toDF("features")
    val transform = new PCA().setInputCol("features").setOutputCol("pca").setK(3).fit(dataFrame).transform(dataFrame)
    transform.show(false)
  }
}


Spark ML(6):PCA

阅读数 25

9-机器学习之PCA

阅读数 11

没有更多推荐了,返回首页