精华内容
下载资源
问答
  • 心理学和社会科学使用的问卷或量表基本上很难达到连续变量的水平,如李克特量表很难取小数(尽管将其视为连续变量对待),因此,社会科学研究的变量通常为离散型变量。那么,为什么可以当作连续变量使用? 1.2解析 ...

    一、教学内容

    在这里插入图片描述
    在这里插入图片描述

    二、备注

    需要全套资料或者代做加QQ1564658423。

    展开全文
  • LR其实是可以做一下特征离散

    千次阅读 2016-07-29 09:48:47
    今天听组里人聊天,说LR需要把特征离散化,但是GBDT并不需要把特征离散化;我很疑惑,我记得lr并不需要离散化啊。后来听他们说,LR更适合处理稀疏数据,那么把...单变量离散化为N个后,每个变量有单独权重,相当于

    今天听组里人聊天,说LR需要把特征离散化,但是GBDT并不需要把特征离散化;我很疑惑,我记得lr并不需要离散化啊。后来听他们说,LR更适合处理稀疏数据,那么把特征先离散化到4个特征维度(假设的),然后以后遇到这个特征的时候,实际上就是四个特征中的一个有值了。【实际上是做了一个哑变量处理】

    以下摘自知乎:
    3. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;
    6. 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

    李沐曾经说过:模型是使用离散特征还是连续特征,其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型,也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说,前者容易,而且可以n个人一起并行做,有成功经验;后者目前看很赞,能走多远还须拭目以待。

    展开全文
  • 首先,离散分布:给你一个概率分布,是离散的,比如[1/2, 1/3, 1/12, 1/12],代表某个变量属于事件A概率为1/2, 属于事件B概率为1/3,属于事件C概率为1/12,属于事件D概率为1/12。 2. 时间复杂度为o(N...

    最近在看图算法相关的东西,先介绍一个用于其中的采样算法吧(超小声的说一句,我打算以后把看过的算法都实现一遍,提高一下工程能力)。

    1. 什么叫离散分布

    首先,离散分布:给你一个概率分布,是离散的,比如[1/2, 1/3, 1/12, 1/12],代表某个变量属于事件A的概率为1/2, 属于事件B的概率为1/3,属于事件C的概率为1/12,属于事件D的概率为1/12。

    2. 时间复杂度为o(N)的采样算法

    首先将其概率分布按其概率对应到线段上,像下图这样:

    接着产生0~1之间的一个随机数,然后看起对应到线段的的哪一段,就产生一个采样事件。比如落在0~ 1/2之间就是事件A,落在1/2~5/6之间就是事件B,落在5/6~11/12之间就是事件C,落在11/12~1之间就是事件D。 
    构建线段的时间复杂度为o(N),如果顺序查找线段的话,查找时间复杂度为o(N),如果二分查找的话,查找的时间复杂度为O(logN)。

    3. 时间复杂度O(1)的采样算法——alias

    alias分为两步:

    1. 做表:

    将概率分布的每个概率乘上N,画出柱状图。

    è¿éåå¾çæè¿°

    其总面积为N,可以看出某些位置面积大于1某些位置的面积小于1,将面积大于1的事件多出的面积补充到面积小于1对应的事件中,以确保每一个小方格的面积为1,同时,保证每一方格至多存储两个事件,这样我们就能看到一个1*N的矩形啦。

    è¿éåå¾çæè¿°

    表里面有两个数组,一个数组存储的是事件i占第i列矩形的面积的比例,另一个数组存储第i列中不是事件i的另一个事件的编号。

    做表的时间复杂度是o(N)。

    2. 根据表采样:

    先生成一个0到N间的随机整数i,代表选择第i列;

    再生成一个0到1间的随机数,若其小于事件i占第i列矩形的面积的比例,则表示接受事件i,否则,接收第i列中不是事件i的另一个事件。

    其实你可以算下这种方式事件i的概率,完全对应原来的概率分布。

    采样的时间复杂度为 o(1) 。

    4. alias 可行性证明

    Alias 表一定存在吗,为什么做表的的时间复杂度是o(N)? 
    每一轮只要有小于1的面积,就一定有大于1的面积,则一定可以用大于1的面积那部分把小于1部分给填充到1,这样就进入到了第n+1轮,而且这样每一轮都可以合成一个等于1的面积。

    5. 全部代码

    import random
    import time
    import numpy as np
    
    
    def gen_prob(N):
        p = np.random.randint(0, 100, N)
        return p / np.sum(p)
    
    
    def uniform(probs):
        sum = []
        tmp = 0
        category = len(probs)
        for prob in probs:
            tmp += prob
            sum.append(tmp)
        n = np.random.uniform(0, 1)
        for i in range(category):
            if n <= sum[i]:
                return i
        return False
    
    
    def alias_table(probs):
        category = len(probs)
        small, large = [], []
        table = [0] * category
        for i in range(category):
            probs[i] *= category
            if probs[i] < 1:
                small.append(i)
            elif probs[i] > 1:
                large.append(i)
        while small and large:
            index_small, index_large = small.pop(), large.pop()
            tmp_large = probs[index_large] - (1 - probs[index_small])
            table[index_small] = index_large
            probs[index_large] = tmp_large
            if tmp_large > 1:
                large.append(index_large)
            elif tmp_large < 1:
                small.append(index_large)
        while large:
            index_large = large.pop()
            table[index_large] = -1
        while small:
            index_small = small.pop()
            table[index_small] = -1
        return probs, table
    
    
    def alias_sample(probs, table):
        category = len(probs)
        n = np.random.randint(0, category)
        if table[n] == -1:
            return 0
        prob = np.random.uniform(0, 1)
        if prob < probs[n]:
            return n
        return table[n]
    
    
    def get_time_uniform(probs, M):
        nums = []
        start = time.clock()
        for i in range(M):
            nums.append(uniform(probs))
        elapsed = (time.clock() - start)
        print("Uniform time used:", elapsed)
    
    
    def get_time_alias(probs, M):
        probs, table = alias_table(probs)
        nums = []
        start = time.clock()
        for i in range(M):
            nums.append(alias_sample(probs, table))
        elapsed = (time.clock() - start)
        print("Alias time used:", elapsed)
    
    
    if __name__ ==  "__main__":
        N, M = 1000, 10000
        probs = gen_prob(N)
        get_time_uniform(probs, M)
        get_time_alias(probs, M)
    

    6. 时间对比

     

    参考网址:

    https://blog.csdn.net/haolexiao/article/details/65157026

    https://zhuanlan.zhihu.com/p/54867139

    展开全文
  • 连续特征离散

    2020-05-27 15:07:05
    有以下几点: 0. 离散特征增加和减少都很...单变量离散化为N个后,每个变量有单独权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合; 4. 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量

    有以下几点:
    0. 离散特征的增加和减少都很容易,易于模型的快速迭代;

    1.稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
    2.离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;
    3. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;
    4. 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;
    5. 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;
    6. 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

    展开全文
  • 首先明确泊松分布定义,泊松分布属于离散型随机分布,针对离散型随机分布类型随机数产生,需要从其定义下手(连续性随机变量是利用反函数来进行推导,下一篇文章会介绍) 接下来请您根据文字和对应解释图来...
  • 点击上方蓝色字体,关注我们选择实验法获得的数据属于离散变量,因而使用离散选择模型进行分析,常见的是Logit模型。在使用中需要对获得数据进行处理,其中一个处理方式就是虚拟变量(Dummy Variable)的方式,有些也...
  • 选择实验法获得的数据属于离散变量,因而使用离散选择模型进行分析,常见的是Logit模型。在使用中需要对获得数据进行处理,其中一个处理方式就是虚拟变量(Dummy Variable)的方式,有些也称之哑变量。1. 虚拟变量的...
  • 变量离散化为N个后,每个变量有单独权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;离散特征增加和减少都很容易,易于模型快速迭代; 速度快。稀疏向量内积乘法运算速度快,计算结果...
  • 逻辑回归属于广义线性模型,表达能力有限,单变量离散化为N个后,每个变量有单独权重,相当于为模型引入了非线性,,能够提高模型表达力,加大拟合, 离散特征增加和减少都很容易,易于模型快速迭代;...
  • 我们可以从两个方面来分析: 理论层面 非线性。逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有...离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是这样表示的:年龄大于30的是1...
  • 变量离散化为N个后,每个变量有单独权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合; 离散特征增加和减少都很容易,易于模型快速迭代; ② 速度快!速度快!速度快!稀疏向量内积乘法...
  • 一、简单理解卷积的概念1.1卷积的定义:定义任意两个信号的卷积为 这里的*代表卷积的运算符号, 是中间变量,两个信号的卷积仍是以t为变量的信号。类似地,离散的信号的卷积和:1.2 卷积的计算步骤:(1)将上面的 ...
  • 将类别过多的变量通过使用概念分层变换方法得到类别较少的变量,比如可以将年龄变量“1岁”“2岁”“3岁”…等,变换为更高概念层次值,如“儿童”“青年”“中年”等, 这里通过r语言,使用身体发育数据集,...
  • 支持向量机等都是属于离散型的监督分类,本文要讲的是连续型监督分类:回归(regression)其实回归太常见不过了,我们学过的一元一次方程,x作为自变量,y作为因变量,就是一个连续型的回归,例如下图的年龄和收入的...
  • 支持向量机等都是属于离散型的监督分类,本文要讲的是连续型监督分类:回归(regression)其实回归太常见不过了,我们学过的一元一次方程,x作为自变量,y作为因变量,就是一个连续型的回归,例如下图的年龄和收入的...
  • 基于改进的遗传算法及在无功优化中的应用,徐超,,电力系统无功优化问题是一个含有连续变量和离散变量的混合优化问题,求解过程相当复杂,无功优化问题属于优化的一个具有现实意义
  • 假设检验理论

    千次阅读 2018-09-28 17:10:55
     举个简单例子:一个停车场里停靠车辆数量,属于离散随机变量,因为我们可以准确说出数值来描述结果。一天中每个小时里,停车场出入车辆数目,因为这个变量是在不断变化,不能很好用一个确定数值来...
  • 决策树是通过一系列规则对数据进行分类过程,他提供一种在什么条件下会得到什么值类似规则方法,决策树分为分类树和回归树,分类树对离散变量最决策树,回归树对连续变量做决策树如果不考虑效率等,那么样本所有...
  • Logistic Regression逻辑回归简单解释

    万次阅读 多人点赞 2016-08-26 11:45:15
    Logistic Regression也叫Logit Regression,在机器学习中属于参数估计的模型。逻辑回归与普通线性回归(Linear Regression)...逻辑回归用于离散变量的分类,即,它的输出yy的取值范围是一个离散的集合,主要用于类的判
  • 输出变量为有限个离散变量的预测问题为分类问题 举例: 预测明天的气温是多少度,这是一个回归任务 预测明天是阴、晴还是雨,就是一个分类任务   还有一点需要注意的是,logistic回归属于回归。但是,logistic...
  • 变量连等可以存储成并查集形式。并查集将每个元素视为一个集合,然后按需合并,支持查询父节点和根节点。每个并查集有一个代表元素,查询任意两个元素是否属于一个集合可以通过比较其根(代表元素)是否相同来实现...
  • 刚学的时候,脑子乱成浆糊。现在回过头来思考,总算有些澄清了。...二项分布,描述的是试验成功次数的概率分布,成功次数是计数的,自然是离散变量而不是连续变量。我们想要探索的是:做n次试验,如果每次试验都只有...
  • 其次,通过探讨常见的离散型随机变量分布在幂级数分布族下的参数结构,研究表明常见的离散型随机变量的分布均属于幂级数分布族;最后应用幂级数分布族性质确定这些离散型分布的完备充分统计量的分布形式、参数的一致...
  • 缺点:离散型的自变量数据需要通过生产虚拟变量的方式来使用; (二)底层原理及逻辑 在线性回归中,因变量是连续变量,那么线性回归能够根据因变量和自变量之间存在的线性关系来构造回归方程;但是,一旦
  • 【机器学习】ML分类问题

    万次阅读 2019-12-17 21:50:03
    在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们也谈到了肿瘤分类问题的例子,区别一个肿瘤是...
  • 逻辑回归用于离散变量的分类,即它的输出y的取值范围是一个离散的集合,主要用于类的判别,而且其输出值y表示属于某一类的概率 逻辑回归主要用于分类问题,常用来预测概率,如知道一个人的年龄、体重、身高、血压等...
  • 在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要一个环节。...一、离散与离散变量之间相关性 1、卡方检验 卡方检验是一种用途很广计数资料假设检验方法。它属于非参数检验范畴...
  • 原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf让我们再看一个GLM例子。考虑一个分类问题,其中响应变量y可以接受任意一个k值,因此y∈{1,2,…,k}。...响应变量仍然是离散的,但现在可以接受两个...
  • 建立分类模型,需要对连续变量离散化,特征离散化之后模型会更加稳定,降低了过拟合风险,例如,申请评分卡模型用logisitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法: 分箱重要性及其优势 ...
  • 在机器学习中,无监督学习(Unsupervised learning)就是聚类,事先不知道样本类别,通过某种办法,把相似样本放在一起归位一类;...定性输出称为分类,或者说是离散变量预测。 以下是一些常用监督型学习方法。

空空如也

空空如也

1 2 3 4 5 ... 11
收藏数 212
精华内容 84
关键字:

属于离散变量的是