精华内容
下载资源
问答
  • I . 决策树 树根属性 选择 ... 信息增益 计算公式 已知条件 VI . 信息增益 总熵 计算公式 VII . 信息增益 每个属性的熵 计算公式 VIII . 信息增益 计算公式 IX . 信息增益计算 案例 X . 信息增益计算 递归确定 树根属性



    I . 决策树 树根属性 选择



    1 . 属性选择方法 : 树根属性选择的方法很多 , 这里介绍一种常用的方法 , 信息增益 ;


    2 . 信息增益 : 信息增益 效果越大 , 其作为树根属性 , 划分的数据集分类效果越明显 ;


    3 . 信息 和 熵 : 涉及 信息论 的知识点 , 建议有空就去 B站 刷一下信息论课程 ;


    ① 信息 与 熵 的关系 : 信息 会 消除 熵 , 熵 代表了不确定性 , 信息用来消除不确定性 ;

    ② 信息增益 : 信息增益大的属性 , 能最大消除熵的不确定性 ;


    4 . 决策树中的信息增益 : 属性的 信息增益 越大 , 就越能将分类效果达到最大 ;

    如 : 想要从用户数据集中找到是否能买奢侈品的用户 , 先把高收入群体划分出来 , 将低收入者从数据集中去除 , 这个收入水平的属性 ( 特征 ) , 信息增益就很大 ;



    II . 信息增益 示例说明



    1 . 熵 和 信息 的数据组成 :


    ① 数据集 ( 熵 ) : 给定一个总的数据集如 100 个用户数据 , 要从里面选择购买奢侈品的 1 个用户 ( 高收入 , 30 岁以下 ) ;

    ② 年龄属性 ( 信息 ) : 30 岁以上的 50 个 , 30 岁以下的 50 个 ;

    ③ 收入属性 ( 信息 ) : 高收入 10 个 , 低收入 90 个 ;


    2 . 信息增益分析 :


    ① 收入属性的信息增益 : 熵是 100 个用户数据 , 代表不确定性 ; 根据收入属性来划分 , 将高收入者 10 个用户划分出来 , 买奢侈品的用户从这 10 个中选择 ; 由 100 个用户中选 1 个用户 , 变为 10 个用户中选择 1 个用户 ; 消除了 90 个用户的不确定性 ;

    ② 年龄属性的信息增益 : 熵是 100 个用户数据 , 代表不确定性 ; 根据收入属性来划分 , 将30 岁以下的 50 个用户划分出来 , 买奢侈品的用户从这 50 个中选择 ; 由 100 个用户中选 1 个用户 , 变为 50 个用户中选择 1 个用户 ; 消除了 50 个用户的不确定性 ;

    ③ 信息增益分析 : 明显 收入属性 的信息增益要高于 年龄属性 的信息增益 ;



    III . 信息增益 计算步骤



    信息增益计算步骤 :


    1 . 总熵 : 不考虑 输入变量 ( 属性 / 特征 ) , 为数据集 S 中的某个数据样本进行分类 , 计算出该过程的熵 ( 不确定性 ) , 用 Entropy(S) 表示 ;


    2 . 引入属性后的熵 : 使用 输入变量 ( 属性 / 特征 ) X 后 , 为数据集 S 中的某个数据样本进行分类 , 计算出该过程的熵 ( 不确定性 ) , 用 Entropy(X , S) 表示 ;


    3 . 信息增益 : 上面 Entropy(X , S) - Entropy(S) 的差 , 就是 X 属性 ( 特征 ) 带来的信息增益 , 用 Gain(X , S) 表示 ;



    IV . 信息增益 计算使用的数据集 S



    数据集 : 根据 年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测该用户是否会购买商品 ;


    ① 是否会购买商品 : 9 个 会购买 , 5 个不会购买 ;


    ② 年龄 ( 属性 ) :


    5 个小于 30 岁的人中 , 3 个不会买电脑 , 有 2 个会买商品 ;

    4 个 31 ~ 39 岁的人中 , 0 个不会买电脑 , 有 4 个会买商品 ;

    5 个 大于 40 岁的人中 , 2 个不会买电脑 , 有 3 个会买商品 ;


    年龄收入水平是否是学生信用等级是否购买商品
    小于 30 岁高收入不是一般不会
    小于 30 岁高收入不是很好不会
    31 ~ 39 岁高收入不是一般
    40 岁以上中等收入不是一般
    40 岁以上低收入一般
    40 岁以上低收入很好不会
    31 ~ 40 岁低收入不是很好
    小于 30 岁中等收入不是一般不会
    小于 30 岁低收入一般
    40 岁以上中等收入一般
    小于 30 岁中等收入很好
    31 ~ 39 岁中等收入不是很好
    31 ~ 39 岁高收入一般
    40 岁以上中等收入不是很好不会



    V . 信息增益 计算公式 已知条件



    1 . 已知条件 ( 变量声明 ) : 声明一些计算公式中使用的变量 ;


    ① 总的数据集 : S S S

    ② 最终分类个数 : m m m , 最终分成 m m m 个类别 , 如 是否购买商品 ( 是 , 否 ) , 就是分成 2 2 2 类 , m = 2 m = 2 m=2 ;

    ③ 分类表示 : C i ( i = 1 , ⋯   , m ) C_i ( i = 1 , \cdots , m ) Ci(i=1,,m) , 如 : 是否购买商品 ( 是 , 否 ) , C 1 C_1 C1 表示 是 , C 2 C_2 C2 表示 否 ;

    ④ 分类样本个数 : s i ( i = 1 , ⋯   , m ) s_i ( i = 1 , \cdots , m ) si(i=1,,m) , 如 : 是否购买商品 , 会购买的 ( C 1 C_1 C1 ) 的样本个数是 9 人 , 表示为 s 1 = 9 s_1 = 9 s1=9 ;



    VI . 信息增益 总熵 计算公式



    1 . 计算总熵公式 :

    E n t r o p y ( S ) = − ∑ i = 1 m s i s l o g 2 s i s Entropy(S)=- \sum_{i=1}^{m} \frac{s_i}{s} log_2 \frac{s_i}{s} Entropy(S)=i=1mssilog2ssi


    2 . 公式解析 :


    ① 加和式 : 这是一个 1 1 1 m m m 的加和式 ;

    ② 比值权重 : s i s \frac{s_i}{s} ssi 表示第 i i i 个样本数 ( s i s_i si ) 与 总样本数 ( s s s) 比值 ;


    3 . 计算示例 :


    ① 需求 : 判定 14 个用户是否会购买某商品 , 9 个会购买 , 5 个不购买 ;

    ② 计算过程 :

    E n t r o p y ( S ) = − ∑ i = 1 m s i s l o g 2 s i s = − 9 14 l o g 2 9 14 − 5 14 l o g 2 5 14 \begin{array}{lcl} Entropy(S) &=&- \sum_{i=1}^{m} \frac{s_i}{s} log_2 \frac{s_i}{s} \\ \\ &=& - \frac{9}{14} log_2 \frac{9}{14} - \frac{5}{14} log_2 \frac{5}{14} \end{array} Entropy(S)==i=1mssilog2ssi149log2149145log2145



    VII . 信息增益 每个属性的熵 计算公式



    1 . 计算熵的属性 : 属性 A A A 的值为 { a 1 , a 2 , ⋯   , a v } \{ a_1 , a_2 , \cdots, a_v \} {a1,a2,,av} ;


    2 . 引入 属性 ( 特征 ) A 后 的熵计算公式 :

    E n t r o p y ( A , S ) = ∑ j = 1 v s j s E n t r o p y ( S j ) Entropy(A ,S)= \sum_{j=1}^{v} \frac{s_j}{s} Entropy(Sj) Entropy(A,S)=j=1vssjEntropy(Sj)


    3 . 公式解析 :


    ① 剩余的熵 : 引入属性 A A A 后 , 属性 A A A 是信息 , 信息会消除熵 , 这里计算消除后剩余的熵是多少 ;

    ② 属性解析 : 这是一个 1 1 1 v v v 的加和式 , v v v 表示 A A A 属性的取值个数 , 如 : A A A 表示年龄 , 有 : 30岁以下( a 1 a_1 a1 ) 有 5 个样本 , 31 ~ 39 岁 ( a 2 a_2 a2 ) 有 4 个样本 , 40 岁以上( a 3 a_3 a3 ) 有 5 个样本 , v = 3 v = 3 v=3 ;

    ③ 系数说明 : 其中 s j s \frac{s_j}{s} ssj 系数 表示 , 属性 A ( 年龄特征 ) 的第 j j j 个版本的比例 , 这个比例越高 , 样本对多 , 越重要 ;


    4 . 属性的熵 计算示例 :

    E n t r o p y ( A , S ) = ∑ j = 1 v E n t r o p y ( S j ) = 5 14 E n t r o p y ( 2 , 3 ) + 4 14 E n t r o p y ( 4 , 0 ) + 5 14 E n t r o p y ( 3 , 2 ) \begin{array}{lcl} Entropy(A ,S) &=& \sum_{j=1}^{v} Entropy(Sj) \\ \\ &=& \frac{5}{14}Entropy(2 , 3) + \frac{4}{14}Entropy(4 , 0) + \frac{5}{14}Entropy(3 , 2) \\ \\ \end{array} Entropy(A,S)==j=1vEntropy(Sj)145Entropy(2,3)+144Entropy(4,0)+145Entropy(3,2)


    5 . 计算过程解析 :


    5 14 E n t r o p y ( 2 , 3 ) \frac{5}{14}Entropy(2 , 3) 145Entropy(2,3) 在 5 个 小于 30 岁的人中 , 有 2 个会买商品 , 3 个不会买商品 ;

    4 14 E n t r o p y ( 4 , 0 ) \frac{4}{14}Entropy(4 , 0) 144Entropy(4,0) 在 4 个 31 ~ 39 岁的人中 , 有 4 个会买商品 , 0 个不会买商品 ;

    5 14 E n t r o p y ( 3 , 2 ) \frac{5}{14}Entropy(3 , 2) 145Entropy(3,2) 在 5 个 大于 40 岁的人中 , 有 3 个会买商品 , 2 个不会买商品 ;




    VIII . 信息增益 计算公式



    计算 A A A 属性的信息增益 :

    G a i n ( A , S ) = E n t r o p y ( S ) − E n t r o p y ( A , S ) Gain ( A , S ) = Entropy(S) - Entropy(A ,S) Gain(A,S)=Entropy(S)Entropy(A,S)



    IX . 信息增益计算 案例



    1 . 已知数据 :


    ① 数据集 : 计算 上述数据集 S S S 的信息增益 , 该数据集 S S S 有 14 个样本数据 ;

    ② 数据集属性 : 数据集 S S S 5 5 5 个属性 , 年龄 , 收入 , 是否是学生 , 信用等级 , 是否购买商品 ;

    ③ 预测属性 : 根据 年龄 , 收入 , 是否是学生 , 信用等级 4 4 4 个属性 , 预测 是否购买商品 这个属性 ;


    2 . 总熵计算 :


    ① 总熵 : 计算每个属性的信息增益 , 先要使用 E n t r o p y ( S ) Entropy(S) Entropy(S) 公式计算出总熵 ;

    ① 预测属性分析 : 最后预测的属性是 是否购买电脑 , 有两个取值 , 是 或 否 , 2 2 2 个取值 , 计算总熵时 , 需要计算两项 , 分别计算 取值 会买电脑 和 不会买电脑的 熵 ;

    ③ 属性的具体分类 : 判定 14 个用户是否会购买某商品 , 9 个会购买 , 5 个不购买 ;

    ④ 计算过程 :

    E n t r o p y ( S ) = − ∑ i = 1 2 s 1 s l o g 2 s 2 s = − 9 14 l o g 2 9 14 − 5 14 l o g 2 5 14 = 0.940 \begin{array}{lcl} Entropy(S) &=&- \sum_{i=1}^{2} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \frac{9}{14} log_2 \frac{9}{14} - \frac{5}{14} log_2 \frac{5}{14} \\\\ &=& 0.940 \end{array} Entropy(S)===i=12ss1log2ss2149log2149145log21450.940


    3 . 计算 年龄 属性的熵 :


    ① 引入属性 : 引入 年龄 属性 后 , 年龄 属性 是信息 , 信息会消除熵 , 这里计算引入 年龄 属性 之后的熵是多少 ;

    ② 年龄属性分析 : 年龄属性有 3 种取值 : 30岁以下有 5 个样本 , 31 ~ 39 岁有 4 个样本 , 40 岁以上有 5 个样本 ;

    ③ 计算内容 :

    需要分别计算 3 种取值的熵各是多少 ,

    30岁以下有 5 个样本 , 需要计算这 5 个样本的熵是多少 , 5 个样本 , 有 3 个人买商品 , 2 个人不买商品 ,


    ④ 计算示例 :

    E n t r o p y ( A , S ) = ∑ j = 1 3 E n t r o p y ( S j ) = 5 14 E n t r o p y ( 2 , 3 ) + 4 14 E n t r o p y ( 4 , 0 ) + 5 14 E n t r o p y ( 3 , 2 ) = 0.694 \begin{array}{lcl} Entropy(A ,S) &=& \sum_{j=1}^{3} Entropy(Sj) \\ \\ &=& \frac{5}{14}Entropy(2 , 3) + \frac{4}{14}Entropy(4 , 0) + \frac{5}{14}Entropy(3 , 2) \\ \\ &=& 0.694 \end{array} Entropy(A,S)===j=13Entropy(Sj)145Entropy(2,3)+144Entropy(4,0)+145Entropy(3,2)0.694

    5 14 E n t r o p y ( 2 , 3 ) \frac{5}{14}Entropy(2 , 3) 145Entropy(2,3) 在 5 个 小于 30 岁的人中 , 有 2 个会买商品 , 3 个不会买商品 ;

    4 14 E n t r o p y ( 4 , 0 ) \frac{4}{14}Entropy(4 , 0) 144Entropy(4,0) 在 4 个 31 ~ 39 岁的人中 , 有 4 个会买商品 , 0 个不会买商品 ;

    5 14 E n t r o p y ( 3 , 2 ) \frac{5}{14}Entropy(3 , 2) 145Entropy(3,2) 在 5 个 大于 40 岁的人中 , 有 3 个会买商品 , 2 个不会买商品 ;


    4 . 计算每个 属性 不同样本取值的熵 :


    ① 计算 E n t r o p y ( 2 , 3 ) Entropy(2 , 3) Entropy(2,3) : 5 个人 , 有 2 个人买商品 , 3 个人没有买商品 ;

    E n t r o p y ( 2 , 3 ) = − ∑ i = 1 m s 1 s l o g 2 s 2 s = − ∑ i = 1 2 s 1 s l o g 2 s 2 s = − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 \begin{array}{lcl} Entropy(2 , 3) &=& - \sum_{i=1}^{m} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \sum_{i=1}^{2} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \frac{2}{5} log_2 \frac{2}{5} - \frac{3}{5} log_2 \frac{3}{5} \end{array} Entropy(2,3)===i=1mss1log2ss2i=12ss1log2ss252log25253log253


    ② 计算 E n t r o p y ( 4 , 0 ) Entropy(4 , 0) Entropy(4,0) : 4 个人 , 有 4 个人买商品 , 0 个人没有买商品 ;

    E n t r o p y ( 4 , 0 ) = − ∑ i = 1 m s 1 s l o g 2 s 2 s = − ∑ i = 1 2 s 1 s l o g 2 s 2 s = − 4 4 l o g 2 4 4 − 0 4 l o g 2 0 4 \begin{array}{lcl} Entropy(4 , 0) &=& - \sum_{i=1}^{m} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \sum_{i=1}^{2} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \frac{4}{4} log_2 \frac{4}{4} - \frac{0}{4} log_2 \frac{0}{4} \end{array} Entropy(4,0)===i=1mss1log2ss2i=12ss1log2ss244log24440log240


    ③ 计算 E n t r o p y ( 3 , 2 ) Entropy(3 , 2) Entropy(3,2) : 5 个人 , 有 3 个人买商品 , 2 个人没有买商品 ;

    E n t r o p y ( 3 , 2 ) = − ∑ i = 1 m s 1 s l o g 2 s 2 s = − ∑ i = 1 2 s 1 s l o g 2 s 2 s = − 3 5 l o g 2 3 5 − 2 5 l o g 2 2 5 \begin{array}{lcl} Entropy(3 , 2) &=& - \sum_{i=1}^{m} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \sum_{i=1}^{2} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \frac{3}{5} log_2 \frac{3}{5} - \frac{2}{5} log_2 \frac{2}{5} \end{array} Entropy(3,2)===i=1mss1log2ss2i=12ss1log2ss253log25352log252


    5 . 计算年龄属性的信息增益 :


    G a i n ( A , S ) = E n t r o p y ( S ) − E n t r o p y ( A , S ) = 5 14 E n t r o p y ( 2 , 3 ) + 4 14 E n t r o p y ( 4 , 0 ) + 5 14 E n t r o p y ( 3 , 2 ) − ( − 3 5 l o g 2 3 5 − 2 5 l o g 2 2 5 ) = 0.246 \begin{array}{lcl} Gain ( A , S ) &=& Entropy(S) - Entropy(A ,S) \\\\ &=& \frac{5}{14}Entropy(2 , 3) + \frac{4}{14}Entropy(4 , 0) + \frac{5}{14}Entropy(3 , 2) - ( - \frac{3}{5} log_2 \frac{3}{5} - \frac{2}{5} log_2 \frac{2}{5} ) \\\\ &=& 0.246 \end{array} Gain(A,S)===Entropy(S)Entropy(A,S)145Entropy(2,3)+144Entropy(4,0)+145Entropy(3,2)(53log25352log252)0.246


    6 . 依次计算 各个属性的 熵 :


    ① 年龄 属性的信息增益 : G a i n ( 年 龄 ) = 0.246 Gain ( 年龄 ) = 0.246 Gain()=0.246

    ② 收入 属性的信息增益 : G a i n ( 收 入 ) = 0.029 Gain ( 收入 ) = 0.029 Gain()=0.029

    ③ 是否是学生 属性的信息增益 : G a i n ( 是 否 是 学 生 ) = 0.151 Gain ( 是否是学生 ) = 0.151 Gain()=0.151

    ④ 信用等级 属性的信息增益 : G a i n ( 信 用 等 级 ) = 0.048 Gain ( 信用等级 ) = 0.048 Gain()=0.048

    ⑤ 树根 属性选择: 年龄属性的 信息增益 最大 , 选择年龄属性作为树根 ;


    7 . 后续工作 ( 重要 ) : 选择完树根后 , 树根属性将数据分为不同的子集 , 每个子集再计算剩余的 3 个属性 , 哪个属性的信息增益最大 , 就选那个属性作为子树的树根属性 ;



    X . 信息增益计算 递归确定 划分属性



    1 . 计算公式使用 : 根据上述公式 , 计算出每个属性的信息增益 , 递归选取信息增益最大的作为树根 ;


    2 . 决策树创建算法 ( 递归 ) : 使用递归算法 , 递归算法分为递归操作 和 递归停止条件 ;


    3 . 递归操作 : 每个步骤先选择属性 , 选择好属性后 , 根据 总树 ( 子树 ) 的树根属性划分训练集 ;


    ① 选择属性 : 递归由上到下决定每一个节点的属性 , 依次递归构造决策树 ;

    ② 数据集划分 : 开始决策时 , 所有的数据都在树根 , 由树根属性来划分数据集 ;

    ③ 属性离散化 : 如果属性的值是连续值 , 需要将连续属性值离散化 ; 如 : 100 分满分 , 将 60 分以下分为不及格数据 , 60 分以上分为及格数据 ;


    4 . 递归停止的条件 :


    ① 子树分类完成 : 节点上的子数据集都属于同一个类别 , 该节点就不再向下划分 , 称为叶子节点 ;

    ② 属性 ( 节点 ) 全部分配完毕 : 所有的属性都已经分配完毕 , 决策树的高度等于属性个数 ;

    ③ 所有样本分类完毕 : 所有的样本数据集都分类完成 ;


    5 . 下图是最终的决策树样式 :
    在这里插入图片描述

    展开全文
  • 1、信息熵公式 2、信息增益公式

    1、信息熵公式

    2、信息增益公式

    3、信息增益比公式

    展开全文
  • 这些放大器都有不同的增益公式。 反相运算放大器的增益是反馈电阻与输入电阻之比,而同相运算放大器的增益则多了一项。在某些设计中,为了简单起见,反相和同相放大器 有一个简单的比例增益比(表示大于1和小于1的...
  • 基础教科书都阐述了基于运算放大器的反相放大器和同相放大器。这些放大器都有不同的增益公式
  • 利用自由电子激光中电子与辐射波多次相互作用原理,获得了大信号情况下自由电子激光增益表达式。结果表明,大信号增益公式可圆满地解释自由电子激光器实验中激光输出饱和现象。
  • 信息熵、信息增益信息增益

    千次阅读 多人点赞 2019-05-10 11:16:41
    信息熵、信息增益信息增益信息熵、信息增益信息增益信息熵(Information Entropy)信息增益(Information Gain)信息增益率(Information Gain Ratio) 信息熵、信息增益信息增益信息熵(Information Entropy)...

    信息熵、信息增益与信息增益率

    信息熵(Information Entropy)

    信息熵是用来评估样本集合的纯度的一个参数,就是说,给出一个样本集合,这个样本集合中的样本可能属于好多不同的类别,也可能只属于一个类别,那么如果属于好多不同的类别的话,我们就说这个样本是不纯的,如果只属于一个类别,那么,我们就说这个样本是纯洁的。
      而信息熵这个东西就是来计算一个样本集合中的数据是纯洁的还是不纯洁的。下面上公式:
       E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent(D)=-\sum_{k=1}^{\left|y\right|}p_{k}log_{2}p_{k} Ent(D)=k=1ypklog2pk
      下面解释一下公式的意思,其实很好理解,计算一个集合的纯度,就是把集合中每一个类别所占的比例 p k p_k pk(k从1到 ∣ y ∣ \left | y \right | y,其中 ∣ y ∣ \left | y \right | y 表示类别的个数)乘上它的对数,然后加到一起,然后经过计算之后,可以得到一个数据集的信息熵,然后根据信息熵,可以判断这个数据集是否纯粹。信息熵越小的话,表明这个数据集越纯粹。信息熵的最小值为0,此时数据集D中只含有一个类别。

    信息增益(Information Gain)

    下面来介绍信息增益,所谓的信息增益,是要针对于具体的属性来讲的,比如说,数据集D中含有两个类别,分别是好人和坏人,那么,随便选择一个属性吧,比如说性别,性别这个属性中包含两个值,男人和女人,如果用男人和女人来划分数据集D的话,会得到两个集合,分别是 D m a n D_{man} Dman D w o m a n D_{woman} Dwoman。划分后的两个集合中各自有 好人和坏人,所以可以分别计算划分后两个集合的纯度,计算之后,把这两个集合的信息熵求加权平均 D m a n D E n t ( D m a n ) + D w o m a n D E n t ( D w o m a n ) \frac{D_{man}}{D} Ent(D_{man})+\frac{D_{woman}}{D} Ent(D_{woman}) DDmanEnt(Dman)+DDwomanEnt(Dwoman),跟之前没有划分的时候的信息熵 E n t ( D ) Ent(D) Ent(D)相比较,用后者减去前者,得到的就是属性-性别对样本集D划分所得到的信息增益。可以通俗理解为,信息增益就是纯度提升值,用属性对原数据集进行划分后,得到的信息熵的差就是纯度的提升值。信息增益的公式如下:

    G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v}) Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)  
      先解释一下上式中的参数,D是数据集,a是选择的属性,a中一共有V个取值,用这个V取值去划分数据集D,分别得到数据集 D 1 D_1 D1 D V D_V DV,分别求这V个数据集的信息熵,并将其求加权平均。两者的差得到的就是信息增益。
      那么这个信息增益有什么用呢?有用,可以根据信息增益值的大小来判断是否要用这个属性a去划分数据集D,如果得到的信息增益比较大,那么就说明这个属性是用来划分数据集D比较好的属性,否则则认为该属性不适合用来划分数据集D。这样有助于去构建决策树。
      著名的算法ID3就是采用信息增益来作为判断是否用该属性划分数据集的标准。

    信息增益率(Information Gain Ratio)

    为什么要提出信息增益率这种评判划分属性的方法?信息增益不是就很好吗?其实不然,用信息增益作为评判划分属性的方法其实是有一定的缺陷的,书上说,信息增益准则对那些属性的取值比较多的属性有所偏好,也就是说,采用信息增益作为判定方法,会倾向于去选择属性取值比较多的属性。那么,选择取值多的属性为什么就不好了呢?举个比较极端的例子,如果将身份证号作为一个属性,那么,其实每个人的身份证号都是不相同的,也就是说,有多少个人,就有多少种取值,它的取值很多吧,让我们继续看,如果用身份证号这个属性去划分原数据集D,那么,原数据集D中有多少个样本,就会被划分为多少个子集,每个子集只有一个人,这种极端情况下,因为一个人只可能属于一种类别,好人,或者坏人,那么此时每个子集的信息熵就是0了,就是说此时每个子集都特别纯。这样的话,会导致信息增益公式的第二项 ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) \sum_{v=1}^{V}\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v}) v=1VDDvEnt(Dv)整体为0,这样导致的结果是,信息增益计算出来的特别大,然后决策树会用身份证号这个属性来划分原数据集D,其实这种划分毫无意义。因此,为了改变这种不良偏好带来的不利影响,提出了采用信息增益率作为评判划分属性的方法。
      公式如下:
       G a i n _ r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} Gain_ratio(D,a)=IV(a)Gain(D,a)
      其中 I V ( a ) IV(a) IV(a)的计算方式如下:
       I V ( a ) = − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ l o g 2 ∣ D v ∣ ∣ D ∣ IV(a)=-\sum_{v=1}^{V}\frac{\left | D^v \right |}{\left | D \right |}log_2\frac{\left | D^v \right |}{\left | D \right |} IV(a)=v=1VDDvlog2DDv
       I V ( a ) IV(a) IV(a)被称为是的“固有值”,这个 I V ( a ) IV(a) IV(a)的公式是不是很熟悉啊,简直和信息熵的计算公式一毛一样,就是看属性a的纯度,如果a只含有少量的取值的话,那么a的纯度就比较高,否则的话,a的取值越多,a的纯度越低, I V ( a ) IV(a) IV(a)的值也就越大,因此,最后得到的信息增益率就越低。
      采用信息增益率可以解决ID3算法中存在的问题(ID3会对那些属性的取值比较多的属性有所偏好,如西瓜的颜色有10种),因此将采用信息增益率作为判定划分属性好坏的方法称为C4.5。
      需要注意的是,增益率准则对属性取值较少的时候会有偏好,为了解决这个问题,C4.5并不是直接选择增益率最大的属性作为划分属性,而是之前先通过一遍筛选,先把信息增益低于平均水平的属性剔除掉,之后从剩下的属性中选择信息增益率最高的,这样的话,相当于两方面都得到了兼顾。 (结合信息增益与信息增益率使用)

    作者:DawnChau
    来源:CSDN
    原文:https://blog.csdn.net/u012351768/article/details/73469813
    版权声明:本文为博主原创文章,转载请附上博文链接!

    展开全文
  • 运放电路增益计算公式

    万次阅读 2019-01-05 17:32:10
    带反馈的运放电路增益计算公式 G = A/(1+AB) A:开环增益 AB:环路增益 1+AB:反馈深度 G:闭环增益
  • 信息增益信息增益比的区别

    千次阅读 2019-03-10 14:50:09
    看到这个公式后的感觉就是这个很明显就没啥用的呀,对于每一个特征来说,因为分母都一样呀,主要还是看信息增益,后面去上网查了一下,好像公式有一点不一样,但是重点不是公式是什么,而是为什么要用信息增益比?...
  • 在特征项分布不平衡的情况下,传统信息增益算法的分类性能会急剧下降,针对此缺陷提出了-种利用特征项分布信息来改进信息增益公式的计算方法。通过计算特征项分布信息来判定特征项是否存在不平衡性,并利用此信息来...
  • 针对应用梅森公式计算复杂控制系统传递...通过分析控制系统的结构图和信号流图,揭示了梅森公式的本质,简述了人工智能的搜索策略,提出了信号流图内部信息完全表征的表示方法,并通过一个实例详细阐述了该算法的应用过程。
  • 利用微扰展开法导出了变参数Smith-Purcell型自由电子激光小信号增益表达式,其增益谱函数因子在形式上与变参数Wiggler情况的表达式相同。在此基础上讨论了光栅常数均匀变化时的小信号增益。结果表明:当电子入射速度...
  • 信息增益、Gini、信息增益
  • 信息增益信息增益率详解

    万次阅读 2015-03-17 23:45:17
    熟悉决策树算法的人都知道ID3以及C4.5两种算法,当然也非常清楚信息增益以及信息增益率两个概念。 信息增益:节点M的信息熵E1与其全部子节点信息熵之和E2的差。 信息增益率:节点信息增益与节点分裂信息度量的比值。...
  • 天线增益的计算公式

    2014-03-26 21:51:56
    上行系统天线增益G解释及计算公式,天线的增益考量。
  • 信息增益

    千次阅读 2017-11-09 15:06:43
    关于对信息、熵、信息增益信息论里的概念,是对数据处理的量化,这几个概念主要是在决策树里用到的概念,因为在利用特征来分类的时候会对特征选取顺序的选择,这几个概念比较抽象,我也花了好长时间去理解(自己...
  • 信息熵、信息增益信息增益

    千次阅读 2019-04-02 21:48:54
    信息熵 “信息熵”是度量样本集合纯度最常用的一种...首先来看一下信息熵这个公式在数轴上的表示: 可以看到,在概率为0.5的时候,信息熵是最大的(为1)。 我们可以把信息熵理解为“不确定性”,当概率为0.5...
  • 信息熵 条件熵 信息增益 信息增益比 GINI系数

    万次阅读 多人点赞 2016-05-24 10:30:55
    信息论与概率统计学中,熵(entropy)是一个很重要的概念。在机器学习与特征工程中,熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下,权当笔记。1.信息熵熵是神马东东?信息论的开山祖师爷Shannon...
  • 信息增益比 vs 信息增益

    千次阅读 2018-09-02 17:45:45
    对于ID3和C4.5的信息增益信息增益比有什么区别呢,为什么放着信息增益不用,又要计算一个gainratio呢?这就是下面的内容要讨论的。 讨论之前先来几个公式压压惊。 在信息论与概率统计中,熵(entropy)是...
  • 今天在课堂上给大家讲到信息熵、信息增益信息增益率的时候,很多同学都不理解,对数学公式很敬畏,其实不然,接下来我就使用Python原生代码实现信息熵、信息增益信息增益率的计算!!! 1.信息熵: 1.1 信息熵...
  • 信息增益 IG

    千次阅读 2017-07-21 14:57:35
    今天在看特征选择CHI的时候,发现里面有个知识点叫做信息增益;感觉似懂非懂,特别模糊,所以找了好多dalao的文章,通俗的讲解下什么是信息增益以及相关知识。 什么是熵? 在接下里的链接里,会通俗的讲解...
  • 在开始解释信息熵和信息增益之前,我们先来解释一下什么是信息:能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息。 比如数据分析师的工作经常是要用数据中发现信息,有一天上班你告诉...
  • 文章目录信息熵条件熵信息增益公式计算Gini指数计算示例 信息 首先我们从什么是信息来着手分析: I(X=xi)=−log2p(xi)I_{(X = x_i)} = -log_2p(x_i)I(X=xi​)​=−log2​p(xi​) I(x)I(x)I(x)用来表示随机变量的信息...
  • 信息增益和特征工程
  • 信息增益算法

    千次阅读 2018-08-23 20:20:54
    信息增益算法的步骤: 输入:训练数据集D和特征A; 依据数据集中的类别计算经验熵: 由训练数据集获取各类别数量; 根据类别计算相应的概率分布; 计算经验条件熵(或者说): 确定特征...
  • 信息增益-香农熵

    2017-12-06 15:06:04
    在划分数据集之前之后信息发生的变化称为信息增益,计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。 集合信息的度量方式称为香农熵或者简称为熵,熵定义为信息的期望值。何为信息...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 21,608
精华内容 8,643
关键字:

信息增益的公式