精华内容
下载资源
问答
  • 特征工程

    2020-05-20 12:04:51
    特征工程特征工程小结特征工程是什么?特征工程包括什么? 特征工程小结 这一节主要记录学习 特征工程入门和实践 书籍的记录 特征工程是什么? 特征工程(feature engineering)是这样一个过程:将数据转换为能更好...

    特征工程小结

    这一节主要记录学习 《特征工程入门和实践》 书籍的记录

    特征工程是什么?

    特征工程(feature engineering)是这样一个过程:将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。

    特征工程包括什么?

    1.特征理解:学习如何识别定量数据和定性数据。
    2.特征增强:清洗和填充缺失值,最大化数据集的价值。
    3.特征选择:通过统计方法选择一部分特征,以减少数据噪声。
    4.特征构建:构建新的特征,探索特征间的联系。
    5.特征转换:提取数据中的隐藏结构,用数学方法转换数据集、增强效果。
    6.特征学习:利用深度学习的力量,以全新的视角看待数据,从而揭示新的问题,并予以解决。

    特征理解:我的数据集里有什么?

    1.结构化数据与非结构化数据;
    2.定量数据与定性数据;
    3.数据的4个等级:

    定类等级(nominal level)
    	例如,血型(A、B、O型)、动物物种和人名。
        定类等级是数据的第一个等级,其结构最弱。这个等级的数据只按名称分类;
        不能执行任何定量数学操作,例如加法或除法。可以进行计数,如众数
        属性:离散无序
        描述性统计:频率/占比、众数
        图表:条形图和饼图
    	
    定序等级(ordinal level)
        例如:李克特量表(比如1~10的评分)、考试成绩等级(A、B、C、D).
        定序等级等级继承了定类等级的所有属性,而且还有重要的附加属性,汇总如下:
        可以计数、比较、排序,计算众数、中位数、百分位数
        定序等级的数据可以自然排序。这意味者,可以认为列中某些数据比其他数据更好或更大
        属性:有序类别比较
        描述性统计:频率、众数、中位数、茎叶图
        图形:条形图、饼图、茎叶图.
    
    
    定距等级(interval level)
    	例如:摄氏度
        在定距等级上可以进行加减,可以引入:算术平均数(均值)和标准差
        描述性统计:频率、众数、中位数、均值、标准差
        图形:条形图、饼图、茎叶图、散点图、直方图(直方图是条形图的“近亲”,用不同的桶包含不同的数据,对数据的频率进行可视化).
    
    定比等级(ratio level)
    	例如:金钱、重量
        定比等级拥有最高程度的控制和数学运算能力,不仅继承了定距的加减运算,而且有了一个"绝对零点"的概念,可以做乘除运算。
    	描述性统计:均值、标准差
    	图形:直方图、箱线图
    

    4.探索性数据分析和数据可视化;
    5.描述性统计;

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 23,591
精华内容 9,436
热门标签
关键字:

特征工程