精华内容
下载资源
问答
  • 概率统计——五概括

    千次阅读 2017-08-18 14:51:54
    分别写成Q1、Q2、Q3,第二四分位数也叫做中位数,是指数值在排序后的集合中最中间的数 IQR 我们将Q3-Q1的值叫做IQR 五数概括 五数概括即用以下五个数概括一组数据: 最小值 第一四分位数 第二四分位数(...

    五数概括法

    • 四分位数
      四分位数包含第一四分位数、第二四分位数、第三四分位数。分别写成Q1、Q2、Q3,第二四分位数也叫做中位数,是指数值在排序后的集合中最中间的数

    • IQR
      我们将Q3-Q1的值叫做IQR

    • 五数概括法
      五数概括法即用以下五个数概括一组数据:
      最小值
      第一四分位数
      第二四分位数(中位数)
      第三四分位数
      最大值

    如下图所示:
    这里写图片描述

    其中我们将到中位数的距离大于1.5个IQR的值称之为异常值

    展开全文
  • 中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为...

    首先必须清楚中位数的定义:

    中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

    然后这个题答案:

    内存足够的情况: 可以使⽤用类似quick sort的思想进行,均摊复杂度为O(n),算法思想如下: 
    • 随机选取一个元素,将比它小的元素放在它左边,比它大的元素放在右边 
    • 如果它恰好在中位数的位置,那么它就是中位数,可以直接返回 
    • 如果小于它的数超过一半,那么中位数一定在左半边,递归到左边处理 
    • 否则,中位数一定在右半边,根据左半边的元素个数计算出中位数是右半边的第几大,然后递归 到右半边处理 
    内存不⾜足的情况: 
    方法⼀:⼆分法 
    思路:一个重要的线索是,这些数都是整数。整数就有范围了,32位系统中就是[-2^32, 2^32- 1], 有了范围我们就可以对这个范围进行二分,然后找有多少个数⼩于Mid,多少数大于mid,然后递归, 和基于quicksort思想的第k大⽅方法类似 
    方法二:分桶法 思路:化大为小,把所有数划分到各个小区间,把每个数映射到对应的区间⾥里,对每个区间中数的 个数进行计数,数一遍各个区间,看看中位数落在哪个区间,若够小,使⽤用基于内存的算法,否则 继续划分

    然后讲解下快速排序以及基于快排思想的找前k个最大数

    • 快速排序是对冒泡排序的改进。
      • 快速排序是C.R.A.Hoare于1962年提出的一种划分交换排序,它采用一种分治(Divide-and-ConquerMethod)的方法
      • 快速排序的思想:
        • 在数组中找到一个基准数(pivot)
        • 分区,将数组中比基准数大的放到它的右边,比基准数小的放到它的左边
        • 继续对左右区间重复第二步,直到各个区间只有一个数,这时候,数组也就有序了。
      • 代码:
    1. int Partition(vector<int> &v, int head, int rear){  
    2.     int key = v[head];  
    3.     while (head < rear){  
    4.         while (v[rear] <= key && head < rear){  
    5.             --rear;  
    6.         }  
    7.         swap(v[head], v[rear]);  
    8.         while (v[head] >= key && head < rear){  
    9.             ++head;  
    10.         }  
    11.         swap(v[rear], v[head]);  
    12.           
    13.     }  
    14.     v[head] = key;  
    15.     ++my_count;  
    16.     return head;  
    17. }  
    18.   
    19. void QuickSort(vector<int> &v, int head, int rear){  
    20.     int pivot = -1;  
    21.     if (head < rear){  
    22.         pivot = Partition(v, head, rear);  
    23.         QuickSort(v, head, pivot - 1);  
    24.         QuickSort(v, pivot + 1, rear);  
    25.     }  
    26. }  

      • Note: Partition函数中 v[rear] <= key 以及 v[head] >= key 表达式必须包含等于的判断,否则当数组两头的数相等时将会造成死循环  例如 {5,2,6,2,9,10,5}
      • Partition函数:最慢情况下快速排序会进行 size()- 1 次 Partition函数,而每次调用,Partition函数会选择一个基准数,例如v[head]或者v[rear],或者任意一个数组中的数。之后分别从两头扫描,碰到比基准数大或者小的数就与上一个head或rear交换,或者直到head大于等于rear时,此次循环结束。
      • QuickSort函数:该函数采用递归的方法,每次调用一次Partition函数,得到一个基准数的索引和相对基准数有序的数列,之后将该基准数左边的数组和右边的数组分别调用QuickSort函数,也就是它本身。直到数组中只有一个数时,这条递归序列便结束。
    • 基于快速排序的查找前k个最大数
      • 由上可知,快排的思想是每次找到一个基准数,将数组排列成基准数左边的每个数都比基准数大,右边的每个数都比基准数小的序列。
      • 通过这个思想,我们可以稍微修改QuickSort函数,使它变成QuickSearch函数,使之拥有快速查找前k个最大的数。
    1. int QuickSearch(vector<int> &v, int head, int rear, int k){  
    2.     int pivot = -1, len = 0;  
    3.     if (head < rear){  
    4.         pivot = Partition(v, head, rear);  
    5.         len = pivot - head + 1;  
    6.         if (len < k){  
    7.             pivot = QuickSearch(v, pivot + 1, rear, k - len);  
    8.         }  
    9.         else if (len > k){  
    10.             pivot = QuickSearch(v, head, pivot - 1, k);  
    11.         }  
    12.     }  
    13.     return pivot;  
    14. }  

    • 上图中,我们可以发现,函数参数多了一个k,这个值是表示要获取前k个最大数。
    • 函数中多了一些逻辑,每次执行完Partition函数,根据获取的基准值索引,计算基准值左边数组的长度。
    • len < k,则说明,在基准值左边的数组中已经有了len个最大数,此时,我们只需在基准值右边的数组再找k - len个最大数即可,所以只要再次调用QuickSearch函数,并传入k-len参数以及基准值右边的数组索引。
    • len > k,则说明,此时基准值左边已经有了len个最大值,然而len大于k,我们并不需要那么多的最大值,所以再次调用QuickSearch函数,传入基准值左边的数组索引,以及k,获得这个长度len的最大数集的子集
    展开全文
  • 本博文源于matlab基础,主要讲述常用统计量的计算包括均值、中位数、极差、方差和标准差。

    本博文源于matlab基础,主要讲述常用统计量的计算包括均值、中位数、极差、方差和标准差。
    其中相应的函数如下,然后我们用一个例子讲述函数的实战。

    函数 功能格式
    mean(x) 求x阵列的均值,格式:M=mean(x)
    median(x) 求x阵列的中位数,格式:M=median(X)
    range(x) 求x阵列的极差,格式:R=range(x)
    var(x) 求x阵列的方差,格式:V=var(x)
    std(x) 求x阵列的标准差,格式:S=std(x)

    例子求A的均值、中位数、极差、方差和标准差

    A的数据保存在A.txt

    74 63 78 76 89 56
    65 83 72 41 39 72
    90 46 54 61 75 76
    77 78 53 74 59 50
    59 47 45 67 75 36
    

    将数据复制进去,然后另存为A.txt大家应该能理解。然后将上面代码输入一遍,就是简单的演示,博主的代码如下:

    >> load A.txt
    >> mean(A)
    
    ans =
    
       73.0000   63.4000   60.4000   63.8000   67.4000   58.0000
    
    >> median(A)
    
    ans =
    
        74    63    54    67    75    56
    
    >> range(A)
    
    ans =
    
        31    37    33    35    50    40
    
    >> var(A)
    
    ans =
    
      141.5000  292.3000  194.3000  197.7000  364.8000  268.0000
    
    >> std(A)
    
    ans =
    
       11.8954   17.0968   13.9392   14.0606   19.0997   16.3707
    
    >> 
    

    如果大家不放心可以用计算器/手算验证,但是matlab我们要相信,毕竟这是为了后面更快速做更高深的内容做准备!

    展开全文
  • 有监督分类:概率分类(Logistic)

    千次阅读 2017-06-13 10:41:37
    对于模式基于概率进行分类的手法称为概率分类。这是这一篇博客重点讨论的内容。 基于概率的模式识别,是指与模式x所对应的类别y的后验概率p(y|x)进行学习。其所属类别为后延概率达到最大值时所对应的类别。 类别...

    1.前言

    前面我介绍的都是确定模式所属类别的模式识别算法。对于模式基于概率进行分类的手法称为概率分类法。这是这一篇博客重点讨论的内容。
    基于概率的模式识别,是指与模式x所对应的类别y的后验概率p(y|x)进行学习。其所属类别为后延概率达到最大值时所对应的类别。

    类别的后验概率p(y=y'|x).可以理解为模式x属于类别y的可信度。通过这样的方法,在可信度非常低的时候就不用强行进行分类,从而避免了错误分类,而且可以设置一些实用的选项,比如吧这样的样本丢掉。另外,基于概率的模式识别还有一个优势,就是对于多种类别分类问题通常会有较好的分类结果。

    2.Logistic回归

    先谈一谈简单又实用的Logistic回归。

    2.1 Logistic模型的最大似然估计

    Logistic回归,使用线性对数函数对分类后验概率p(y|x)进行模型化。

    上式中,分母是与所有的y=1,...,c对应的,满足概率总和为1的约束条件的正则化项。上述的模型q(y|x:Θ)中包含的参数{Θj}j=1->b,在每个类别y=1,...,c中都不一样,因此包含所有参数的向量Θ有bc次维。

    Logistic回归模型的学习,通过对数似然为最大师的最大似然估计进行求解。
    似然函数是指,将手头的训练样本{(xi,yi)}i=1->n由现在的模型生成的概率,看作是关于参数Θ的函数,对数似然是指其对数:

    似然是q(yi|xi,Θ)经过n次相乘的结果,例如对于所有的i=1,...,n,q(yi|xi,Θ)=0.1的时候,其似然:

    是一个非常小的值,经常会发生丢为的现象。对于这种情况,一般使用对数来解决,即利用将乘法变换为加法的方法来防止丢位现象的发生。
    Logistic回归学习模型有下事的最优化问题来定义:
    上面的目标函数对于参数Θ是可以微分的,因此我们还可以用梯度下降策略来求最大似然估计的解Θ’。
    概率梯度下降法的Logistic回归学习算法如下图所示:

    2.2 对数高斯模型

    下图表示的是对对数高斯核模型进行Logistic回归学习的实例。

    在该例中,高斯核的带宽h=1。

    通过结果,我们可以看出,类别的后验概率P(y|x)得到了很好的学习。

    2.3 使用Logistic损失最小化学习来解释

    首先从2分类问题y∈{+1,-1}进行说明:

    通过使用上述关系式,Logistic模型的参数个数就可以由2b个降为b个。

    这个模型的对数似然最大化的准则:

    可以改写为上述形式。根据关于参数的线性模型:
    的间隔m=fΘ(x)y,可以知道上式与使用Logistic损失:

    的Logistic损失最小化学习是等价的。如下图所示:

    Logistic损失函数

    3.最小二乘概率分类

    这里只是简单性回顾一下在平方误差准则下进行与Logistic回归相同学习的最小二乘概率分类器。
    最小二乘概率分类器,对于各个类别y=1,...,c的后验概率p(y|x),使用于参数相关的线性模型:

    进行模型化。与Logistic模型不同的是,这个模型仅仅依赖与各个类别y对应的参数

    然后,对这个模型进行学习,是下面的平方误差最小:

    上式中,P(x)表示的是训练输入样本的概率密度函数。
    上式的第二项可以进行变形为:

    上式中,p(x|y)是属于类别y的训练输入样本的概率密度函数,p(y)表示的是训练输出样本{yi}i=1->n的概率密度函数。
    我们应该注意到,Jy中包含了如下比较难以处理的:

    分别表示与p(x)和P(x|y)相关的数学期望值。这些期望值一般无法直接计算,而是采用样本的平均值进行模拟

    应该注意的是,对于Jy,他的第三项与Θ无关,所以没必要再研究。此外,我们引入L2正则化项,得到如下的计算准则:

    可以发现,这个学习准则是关于Θ的凸二次式,对其进行偏微分并置零可以得到最优解。

    然而,如果按照上式计算,类别的后验概率可能会出现负的。因此,需要对负的输出加一个下届为零的约束条件:

    下面是最小二乘概率分类的例子,使用的数据与Logistic回归数据一致,分类结果如下图所示:

    最小二乘概率分类的实例

    4.总结

    最小二乘概率分类器能够得到与Logistic回归基本相同的学习结果。Logistic回归模型包括正则项,因此,与各个类别的基函数个数b和类别c相对应,其参数个数为bc个。另一方面,最小二乘概率分类器使用了没有正则化的线性模型,所以是对有b个参数的模型,对各类别进行c次独立学习的过程。在类别数c很大的情况下,最小二乘概率分类效率更高一点。
    同时,由于Logistic回归学习包含非线性的对数函数,必须要通过反复迭代的方式进行求解,需要花费大量的学习时间。但是,最小而成概率分类器中可以得到解析解,更有效率。
    但是,最小二乘概率分类器也不是完美无瑕的。因为,最小二乘概率分类器的输出为概率的形式,所以需要进行一系列的后期处理。在样本容量很大的情况下,后续处理几乎没影响,范式当训练样本非常小的情况下,就会导致学习效率低下
    因此,一般的处理方式是,当训练样本是较多的时候,采用最小二乘分类器;而当训练样本较少的时候,则采用Logistic回归方法。
    展开全文
  • 本文详细介绍了图像基本变换---图像二值化(包含OSTU/迭代/统计/双峰/P分位法/最大熵)的相关知识,并 给出了完整程序DEMO的下载链接,跟大家分享一下,希望大家喜欢!
  • 概率编程实战

    千次阅读 2018-11-06 11:54:50
    概率编程充分结合了概率推理模型和现代计算机编程语言,使这一方法的实施更加简便,现已在许多领域(包括炙手可热的机器学习)崭露头角,各种概率编程系统也如雨后春笋般出现。 本书的作者 Avi Pfeffer 正是主流...
  • 关于对图像分割的Ostu全局阈值算法在遗传算法的优化及实现
  • 在MATLAB,提供了专门的统计工具箱Staticstics,该工具箱有几百个专用于求解概率和数理统计问题的函数。本章将详细的介绍随机数的产生,随机变量的概率密度函数和数字特征,以及假设检验、方差分析和统计绘图等。 ...
  • 网格交易以及在数字货币基于Python的量化实现

    千次阅读 多人点赞 2019-11-17 15:19:03
    在振荡盘,A处是上方跌下来的,并且保持了一段时间,所以这个是一个阻力,而B这个位置是一个支撑,所以我们在这个振荡区间里,就可以做高抛低吸。 简单来说就是如果我们还有持仓,那我们在 C 这个位置就...
  • MATLAB概率函数

    千次阅读 2014-09-15 21:31:01
    1. pdf 概率密度函数 y=pdf(name,x,A) 返回由 name 指定的单参数分布的概率密度,x为 样本数据,A为所属分布的参数 y=pdf(name,x,A,B) y=pdf(name,x,A,B,C) 返回由 name 指定的双参数或三参数分布的...
  • 概率算法简介

    千次阅读 2006-03-18 17:29:00
    概率算法简介 很多算法的每一个计算步骤都是固定的,而在下面我们要讨论的概率算法,允许算法在执行的过程随机选择下一个计算步骤。许多情况下,当算法在执行过程面临一个选择时,随机性选择常比最优选择省时。...
  • 机器学习的数学:概率统计

    千次阅读 2019-10-16 23:30:03
    详解 6 大核心板块:概率思想、随机变量、统计推断、随机过程、采样理论、概率模型,筑牢机器学习核心基础。 教你熟练使用 Python 工具库:依托 NumPy、SciPy、Matplotlib、Pandas 工具,无缝对接工程实践。 有理论...
  • 德尔菲——意见可靠预测方法

    千次阅读 2019-07-09 08:59:14
    德尔菲/得尔飞(Delphi Method) 目录 1德尔菲的简介 1.1德尔菲的起源演变 1.2德尔菲的典型特征 2德尔菲的特征 3德尔菲的具体实施步骤 3....
  • 数据挖掘所需的概率论与数理统计知识

    万次阅读 多人点赞 2012-12-17 19:24:47
     (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)   导言:本文从微积分相关概念,梳理到概率论与数理统计的相关知识,但本文之压轴戏在本文第4节(彻底...
  • 视觉SLAM笔记(30) 特征点

    万次阅读 2019-10-08 18:46:15
    特征点、特征点、ORB 特征(FAST 关键点、BRIEF 描述子)、特征匹配
  • 概率统计随机过程 概率论与数理统计(第4版) 盛骤 考研必备 概率论与数理统计教程(第2版) 茆诗松 概率论与数理统计 陈希孺  概率论基础教程(第8版) 罗斯、郑忠国译(已经出第9版,也是最后一版)第7版答案...
  • ACM 概率&期望

    千次阅读 2017-06-26 11:17:17
    概率&期望好久没写博客了,最近刷完了概率期望的专题,特地总结一下。概率(1) 基本概率知识 学过概率论课程的话,下面的都是基础了。 ①条件概率:p(A|B) = p(AB) / p(B)。 P(A|B)指B发生的条件下A发生的概率...
  • 概率统计方法 简介 Python 常用的统计工具有 Numpy, Pandas, PyMC, StatsModels 等。 Scipy 的子库 scipy.stats 包含很多统计上的方法。 导入 numpy 和 matplotlib: %pylab inline Populating the ...
  • 高斯消去

    千次阅读 2016-12-15 15:46:44
    高斯消元简介 一,教学目标 知识与技能:了解高斯消元 ...1.在前面的几节课,已经用加减消元和代入消元求解二元或者三元一次方程组,其基本的思想就是从已知的方程导出未知较少的方程组,直到最后得
  • 先验概率与后验概率的区别

    万次阅读 2016-07-11 12:28:31
    先验(A priori;又译:先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统,认为先验指无需经验或先...先验概率是指根据以往经验和分析得到的概率,如全概率公式 的,它往往作为
  • 50个概率

    万次阅读 2017-03-04 16:41:49
    1. 袜子抽屉一个抽屉有红袜子和黑袜子,随机取出两支袜子都是红袜子的概率是0.5,(a)抽屉里最少有几只袜子?(b)如果抽屉黑袜子的数量是偶数,抽屉里最少有几只袜子? (a)4 (b)21 2. 连胜为了激励小明的网球生涯...
  • 概率论之先验概率和后验概率

    千次阅读 2014-12-15 10:25:02
    先验(A priori;又译:先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统,认为先验指无需经验或先于经验获得的... 先验概率是指根据以往经验和分析得到的概率,如全概率公式的,
  • 互联网公司 概率面试题整理

    万次阅读 多人点赞 2017-09-23 12:30:14
    本文总结了面试或笔试可能考到的概率和组合题。
  • 根据项目历时估计的三点估算,你认为该项目的历时为 (37)该项目历时的估算标准差为(38) 。 (37)A.10天 B.11天 C.12天 D.13天 (38)A.2.1天 B.2.2天 C.2.3天 D.2.4天 解答: (37)B T=...
  • 先验概率与后验概率

    千次阅读 2018-04-15 15:01:04
    先验(A priori;又译:先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统,认为先验指无需...先验概率是指根据以往经验和分析得到的概率,如全概率公式 的,它往往作为“由因...
  • 概率和期望

    千次阅读 2017-11-02 14:31:23
    有个认知方面的误区就是,各位oier在小学和初中的时候接触到的概率都是一个叫做“古典概率”的东西,这是很只是概率这一个大旗帜下的一个小喽啰,真正的概率水深着呢。先讲个故事吧(about Pascal & Fermat)by...
  • AHP-层次分析是数学建模的常用算法,其适用于一批非常广泛的问题,综合来说,它是一个“层次权重决策分析方法”。客观地讲,它适用于一些有限制条件的决策选择问题: 1. 决策有限,且只从有限的候选决策里...
  • 美国房地产协会报道了美国房屋价格的中位数和 5年期间房屋价格中位数的增长率(《华尔街日报》.2006 年 1 月 16 日)。利用下面房屋价格(单位:1000 美元)的样本数据回答下列问题 995. 9 48. 8 175. 0 263. 5 ...
  • 即将图像的灰度值按照一定的阈值将其变成只有0(黑色)和255(白色),这样便于...常用方法有直接阈值(全局5+2)、自适应阈值(2) 自定义也是可行的,如将全局平均值、中值等作为阈值,或者局部的中值等作为阈值
  • 聊聊三维重建-条纹之相位(一)

    千次阅读 2019-12-14 20:48:13
    在具体应用采用几Gray编码,几步相移需要根据实际情况选择。假设场景在条纹方向的像素宽度是N个像素,若要求在整个解包场景对包裹进行无歧义展开,需要满足下式,其中k表示需要投影的Gray码光栅, 表示包裹...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 38,809
精华内容 15,523
关键字:

中位数求法概率图