精华内容
下载资源
问答
  • 计算字段文本区分度公式: select COUNT(DISTINCT left(column_name,length))/COUNT(*) from table_name 其中column_name是需要建立索引的字段,而length则是选择这个字段用来建立索引的长度。 公式的作用就是,...

    有时候需要为字段创建索引时,但是字段太长,为整个字段创建索引的话,太浪费存储空间了,所以需要计算出字段区分度,选择合适的索引长度。

    计算字段文本区分度的公式:

    select  COUNT(DISTINCT left(column_name,length))/COUNT(*) from table_name
    

    其中column_name是需要建立索引的字段,而length则是选择这个字段用来建立索引的长度。

    公式的作用就是,选择出字段长度,去重求总,这时候就可以知道使用这个长度来建立索引,大概会有多少值,然后再把这个值除以总数,得到的值越接近1,则表示用这个长度来建立索引的区分度越大,自然就越适合。

    测试表USER_ROLE的数据如下:
    在这里插入图片描述

    比如要对字段USER_NAME建立索引,代入上述公式

    先选择这个字段的1个长度来建立索引,看下区分度:

    select  COUNT(DISTINCT left(USER_NAME,1))/COUNT(*) from USER_ROLE
    

    区分度如下:
    在这里插入图片描述
    再选择这个字段的3个长度来建立索引:

    select  COUNT(DISTINCT left(USER_NAME,1))/COUNT(*) from USER_ROLE
    

    看下区分度:
    在这里插入图片描述
    再选择这个字段的4个长度来建立索引:

    select  COUNT(DISTINCT left(USER_NAME,4))/COUNT(*) from USER_ROLE
    

    看下区分度:
    在这里插入图片描述
    最后选择这个字段的5个长度来建立索引

    select  COUNT(DISTINCT left(USER_NAME,5))/COUNT(*) from USER_ROLE
    

    看下区分度:
    在这里插入图片描述

    可以发现长度4和长度5的区分度都是1,那自然选择占用空间小的方案了。

    总结

    要建立大字段的索引时,可以配合计算字段文本区分度的公式,选出合适的字段长度来建立索引。

    展开全文
  • 数据库计算索引区分度

    千次阅读 2018-11-21 10:03:40
    如何正确的建立数据库表字段索引 1、索引不是在创建表的时候创建的;...3、其它字段在建立索引的时候需要计算字段的区分度计算SQL如下: select COUNT(DISTINCT column_name)/COUNT(*) from table_name...

    如何正确的建立数据库表字段索引

    1、索引不是在创建表的时候创建的;系统在运行一个阶段后创建索引。

    2、对于主键、外键、排序等字段优先加索引。

    3、其它字段在建立索引的时候需要计算字段的区分度,计算SQL如下:

    select  COUNT(DISTINCT column_name)/COUNT(*) from table_name

    展开全文
  • 手机PPI计算公式

    千次阅读 2013-05-10 18:24:27
    S4的实际清晰PPI计算过程如下... 已知PPI 计算公式为:  PPI = √(960^2+640^2)/3.5 ≈ 326 (iphone4为例)  又知 S4 为Pentile排列, 子像素为RGB 排列的 2 / 3, 故可以假设其像素也为RGB 排列的 2 / 3

    S4的实际清晰度PPI计算过程如下:
             已知PPI 计算公式为:
                             PPI = √(960^2+640^2)/3.5   ≈  326  (iphone4为例)

             又知 S4 为Pentile排列, 子像素为RGB 排列的 2 / 3, 故可以假设其像素也为RGB 排列的 2 / 3
             换算成正常排列的分辨率为 1567 * 882   ( 长宽各乘以转换系数  √ (2 / 3) =  0.8165  )
             套进PPI 计算公式得出结论:
                   S4 ppi = √(1567^2+ 882^2)/4.99  ≈  360
                   简化之后就是 S4 ppi =  441 * 0.8165 = 360,  
                   
                   这个公式对其他P排列的屏幕也适用, 如
                              S3 ppi = 306 * 0.816 = 250
                              事实也是S3的屏幕清晰度稍弱于 Note2 的 267,

    参考PPI:
                 Z = 蝴蝶 = 441
                 G PRO    = 400
                S4          = 360
                 MX2       = 347                市面上常见手机当中  MX2 的PPI 与S4 较为接近
                 Mi II       = 342
                 Lumia 920 = 332
                 iphone4s = 326
                 Nexus4 = 317
    ____________________________________________________

    RGB排列与pentile排列区分:

    转自:http://www.cnmo.com/guide/132346.html

     

    现在的手机,屏幕越来越大,分辨率也越来越高,很多人在购买手机时,往往认为,分辨率越高,屏幕显示效果越清晰。实际上,这种想法是不全面的。屏幕的材质以及子像素的排列方式也是影响屏幕显示效果的重要因素。屏幕子像素的排列方式一般分为两种,一种是标准RGB排列方式,另一种是RGB PenTile排列方式,那么它们都是什么意思呢?采用哪种子像素排列方式的屏幕更好呢?接下来笔者为大家详细的解答。

      我们知道白色的光线是由红到紫的连续光谱组成的,而在计算机图形学里,则采用红绿蓝也就是RGB三种颜色的视觉等亮度混合(注意,不是光学等强度)来调和出白色光。我们知道显示屏是由许许多多的像素构成的,而为了让每一个单独的像素可以显示出各种颜色,就需要把它分解为红绿蓝三个比像素更低一级的子像素。也就是说,3个子像素构成一个整体,即彩色像素。当需要显示不同颜色的时候,三个子像素分别以不同的亮度发光,由于子像素的尺寸非常小,在视觉上就会混合成所需要的颜色。

        知道了子像素,那么我们就可以进入下一个问题,那就是子像素的排列。

    RGB排列

        RGB排列是最标准的排列方式,它把一个方块形的像素,平均分成三等分,每一块赋予不同的颜色,这样就可以构成一个彩色像素。这也是绝大多数液晶显示器所采用的子像素排列方法(当然,三个像素的顺序是随意的,不国一般都是“红绿蓝”或者“蓝绿红”)。

    硬件参数只是噱头 手机内部优化技术解析
    标准RGB排列单个像素点

      这样,只要我们把足够多这样构造的像素排列到一起,就可以显示出我们所需要的图案了。

    硬件参数只是噱头 手机内部优化技术解析
    标准RGB排列显示原理

      事实上,绝大多数的液晶显示器,采用的都是标准RGB子像素排列。它的好处是像素独立性高,每一个像素都可以自己显示所有的颜色。但缺点是要制作m*n的显示器,总共需要制作3m*n个像素(在制造过程中,子像素是最基本的制造单位,它们本身没有颜色,颜色是靠滤光片而产生的)。这在液晶上是没什么问题的,因为液晶采用的是印刷工艺,制作多少个像素对成本的影响并不高。

    RGB PenTile排列

      RGB PenTile排列是现在一些采用OLED材质的手机RGB子像素的排列方式。它与标准RGB排列单个像素点是不一样的,标准RGB排列的像素点是由红绿蓝三个子像素组成的,而PenTile的单个像素点只有“红绿”或者“蓝绿”两个子像素点组成。图中左边就是RGB PenTile排列的子像素排列方法。可以看到,同样显示3x3个像素,RGB PenTile在水平方向只做了6个子像素,而标准RGB做了9个,子像素数量减少了1/3。我们知道只有三基色才能构成所有的颜色,而两种颜色是不可以构成所有颜色的,所以在实际显示图像时,RGB PenTile的一个像素点会“借”用与其相邻的像素点的另一种颜色来构成三基色。水平方向,每个像素和相邻的像素共享自己所不具备的那种颜色的子像素,共同达到白色显示。

    硬件参数只是噱头 手机内部优化技术解析
    RGB PenTile与标准RGB子像素排布对比 

      RGB PenTile为什么可以缩减1/3的子像素而保持总像素不变呢?既然缺少一种子像素,那它又是怎么达到依然显示3x3全彩色像素的结果的呢?这里面的关键在于相邻像素之间的“共用子像素”。我们来看一下RGB PenTile在工作时的子像素点亮情况就知道了。首先我们模拟一下RGB PenTile显示水平间隔的白色线条。

    硬件参数只是噱头 手机内部优化技术解析
    RGB PenTile显示水平间隔的白色线条

      从上图可以看到,水平方向,每个像素和相邻的像素共享自己所不具备的那种颜色的子像素,共同达到白色显示。

      然后我们模拟一下RGB PenTile显示垂直间隔的白色线条。公用情况也是一样的。

    硬件参数只是噱头 手机内部优化技术解析
    RGB PenTile显示垂直间隔的白色线条

      接下来我们再模拟一下RGB PenTile显示黑白点阵。

    硬件参数只是噱头 手机内部优化技术解析
    RGB PenTile显示黑白点阵

      注意,问题来了:应该有的蓝色像素不见了!这是因为每一个像素都失去了邻居,无法公用,所以RGB PenTile屏幕无法精确显示这样的图案。这个问题非常麻烦,为了让显示的结果仍然为白色,就需要把原本应该熄灭的蓝色像素重新点亮,结果就是显示白色点阵失败。

      现在我们知道了,RGB PenTile技术的精髓就是要做到相邻像素的子像素公用。这要求屏幕上显示的任何像素都需要有相邻像素的存在,但实际情况中,并不是时时刻刻都可以满足这点的,比如下面我们可以在实际中可能遇到的情况就是。这些情况下会出现什么问题呢?

      首先,我们看一下当RGB PenTile显示垂直方向的黑白交界线时,会发生怎样的情况?这种情况通常发生在文字边缘的位置。

    硬件参数只是噱头 手机内部优化技术解析
    RGB PenTile显示垂直方向的黑白交界线

      我们可以看到,在最左边一条,出现了红蓝红蓝像素的垂直交替排列。这在视觉上会导致明显的“彩边”现象。

      然后,我们看一下当RGB PenTile显示45度倾斜的黑白分界线。这种情况也经常出现在文字边缘的位置。

    硬件参数只是噱头 手机内部优化技术解析
    RGB PenTile显示45度倾斜的黑白分界线

      在这些情况下,会出现的问题都是屏幕上会出现非白色的边缘,这和我们要求的想去甚远,毕竟谁都不希望把黑白照片显示的花花绿绿吧?所以RGB PenTile技术会对这些情况作出一定的修正,那就是把一些本该熄灭的子像素点亮,人为的制造一些相邻像素,来实现颜色的正常显示。但这就带来了一个问题,那就是本来平整的边缘变得不再平整,成为了锯齿状。这也是RGB PenTile之所以会出现边缘毛刺的原因。

      上述的讨论都是在显示黑色和白色的基础上进行的,实际显示彩色画面的时候RGB PenTile还会遇到一些更奇怪的问题。举例来说,当我们需要显示纯黄色的时候,就需要把屏幕上所有蓝色的像素都关闭。但由于红色像素是间隔排列,而不是紧密排列的,所以导致肉眼可以轻易看出其间夹杂的黑色斑点,它们之间的距离是两倍于像素距离的,导致出现“网纹”。而当显示淡橙色的时候,红色和绿色像素会100%发光,而蓝色像素则以50%亮度发光,此时这些不发光的蓝色像素会构成暗点,导致本来应该是纯净的颜色表面出现两倍于像素距离程斜向分布的“颗粒感”。

      追其根本,RGB PenTile是一种通过相邻像素公用子像素的方式,减少子像素个数,从而达到以低分辨率去模拟高分辨率的效果。优点是同样亮度下视觉亮度更高,以及成本更低,但缺点也不言而喻——模拟的自然比不过真货。一旦需要显示精细内容的时候,Pentile的本质就会显露无遗,清晰度会大幅下降,导致小号字体无法清晰显示;而为了弥补色彩问题,所以在PRGB PenTile技术下显示色彩分割区的时候,分割线会产生两倍于实际像素点距的锯齿状纹路,也就是会产生锯齿状边缘。最后一点就是只要显示的内容不是白色,就会出现两倍于点距的网格状斑点。所以说,RGB PenTile技术的显示屏必须需要拥有足够高的分辨率,才可以弥补由于会产生两倍点距纹理带来的视觉效果下降。

      目前采用RGB PenTile排列的屏幕主要为三星的AMOLED屏幕以及Super AMOLED屏幕等衍生品。直到三星推出I9100后,其搭载的Super AMOLED Plus屏幕才改为标准RGB排列方式。大家在购买时需要注意。

    展开全文
  • 几种常见的距离计算公式

    万次阅读 2019-10-20 10:41:59
    我们常用的距离计算公式是欧几里得距离公式,但是有时候这种计算方式会存在一些缺陷,那么就需要另外的计算方法去加以补充,本文将介绍几种在机器学习中常用的计算距离。 在做很多研究问题时常常需要估算不同样本...

    在学习分类、聚类、预测、推荐算法的过程中常常会遇到比较两个或多个对象的相似性,而相似性的度量可以通过计算距离来实现。我们常用的距离计算公式是欧几里得距离公式,但是有时候这种计算方式会存在一些缺陷,那么就需要另外的计算方法去加以补充,本文将介绍几种在机器学习中常用的计算距离。
    在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。

    1. 欧氏距离
      欧式距离就是“两点”之间的直线距离。
      (1)二维平面上两点 a ( x 1 , y 1 ) a(x_1,y_1) a(x1,y1) b ( x 2 , y 2 ) b(x_2,y_2) b(x2,y2)间的欧氏距离:
      在这里插入图片描述
      (2)两个n维向量 a ( x 11 , x 12 , … , x 1 n ) a(x_{11},x_{12},…,x_{1n}) a(x11,x12,,x1n) b ( x 21 , x 22 , … , x 2 n ) b(x_{21},x_{22},…,x_{2n}) b(x21,x22,,x2n)间的欧氏距离:​
      在这里插入图片描述

    2. 曼哈顿距离
      曼哈顿距离又称城市街区距离,不是直线距离。
      (1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离
      在这里插入图片描述
      (2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离
      在这里插入图片描述

    3. 切比雪夫距离
      (1)二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离
      在这里插入图片描述
      (2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的切比雪夫距离
      在这里插入图片描述

    4. 闵氏距离
      两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:
      在这里插入图片描述
      其中p是一个变参数。
      闵氏距离定义的是一组距离公式,它包括欧式距离、曼哈顿距离和切比雪夫距离
      当p=1时,是曼哈顿距离
      当p=2时,是欧氏距离
      当p→∞时,是切比雪夫距离
      总结:闵氏距离存在明显的缺点。
        举个例子:二维样本(身高,体重),其中身高范围是150190,体重范围是5060,有三个样 本:a(180,50),b(190,50),c(180,60)。那么a与b之间的闵氏距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c之 间的闵氏距离,但是身高的10cm真的等价于体重的10kg么?因此用闵氏距离来衡量这些样本间的相似度很有问题。
      闵氏距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。

    5. 标准化欧氏距离
      针对原始的欧式距离的不足,提出了标准化欧氏距离公式,两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的标准化欧氏距离的公式:
      在这里插入图片描述
      假设样本集X的均值(mean)为m,标准差(standard deviation)为s,那么X的“标准化变量”表示为:
      在这里插入图片描述
      标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差
      其中,一组数的标准差 S N S_N SN可以表示为:
      在这里插入图片描述
      平均值为:
      在这里插入图片描述
      贝赛尔修正
      在上面的标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),也就说数据是取样出来的,那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:
      在这里插入图片描述
      是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本 (比如一分钟内采集了十万次的IO数据) — 在这种情况下,该样本数据集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。

    6. 余弦相似度
      余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。下面看一下余弦函数的图像:
      在这里插入图片描述
      在这里插入图片描述
      余弦相似性推导公式如下:
      在这里插入图片描述
      (1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:
      在这里插入图片描述
      (2) 两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦
      在这里插入图片描述
      即:
      在这里插入图片描述
      欧氏距离和余弦相似度的联系:
      假设二维空间两个点,
      在这里插入图片描述
      然后归一化为单位向量,
      在这里插入图片描述
      那么余弦相似度就是:
      在这里插入图片描述
      (分母是1,省略了)
      欧式距离就是:
      在这里插入图片描述
      化简后就是:
      在这里插入图片描述
      总结:夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。根据欧氏距离(或曼哈顿距离、切比雪夫距离、闵氏距离等)和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:
      欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来*区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)。

    7. 马氏距离
      马氏距离(Mahalanobis Distance)是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。马氏距离(Mahalanobis Distance)是度量学习中一种常用的距离指标,同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。
      有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ(一个特征或一个维度上计算均值,等于维度的个数),则其中样本向量X到u的马氏距离表示为:
      在这里插入图片描述
      而其中向量Xi与Xj之间的马氏距离定义为:
      在这里插入图片描述
      在这里插入图片描述
      协方差矩阵S的介绍:
      (1)协方差,在概率论和统计学中,协方差用于衡量两个变量(就是两个特征或者维度)的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
      在这里插入图片描述
      在这里插入图片描述
      如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性,是一个衡量线性独立的无量纲的数。协方差为0的两个随机变量称为是不相关的。
      当X,Y是同一个随机变量时,X与其自身的协方差就是X的方差,可以说方差是协方差的一个特例。
      在这里插入图片描述

      在这里插入图片描述
      (2)对多个维度(特征) X = [ X 1 , X 2 , X 3 , . . . , X n ] T \textbf X=[X_1, X_2, X_3, ..., X_n]^T X=[X1,X2,X3,...,Xn]T,需要计算各维度两两维度(特征)之间的协方差,这样各协方差组成了一个 n ∗ n n*n nn的矩阵,称为协方差矩阵。协方差矩阵是个对称矩阵,对角线上的元素是各维度上随机变量的方差。我们定义协方差矩阵为S。矩阵内的元素 S i j S_{ij} Sij为:
        S i j = cov ⁡ ( X i , X j ) = E ⁡ [ ( X i − E ⁡ [ X i ] ) ( X j − E ⁡ [ X j ] ) ] \ S_{ij}=\operatorname{cov}(X_i,X_j)=\operatorname{E}\big[(X_i-\operatorname{E}[X_i])(X_j-\operatorname{E}[X_j])\big]  Sij=cov(Xi,Xj)=E[(XiE[Xi])(XjE[Xj])]
      这样,这个矩阵为:
        S = E ⁡ [ ( X − E ⁡ [ X ] ) ( X − E ⁡ [ X ] ) T ] \ S=\operatorname{E}\big[(\textbf X-\operatorname{E}[\textbf X]\big)(\textbf X-\operatorname{E}[\textbf X])^T]  S=E[(XE[X])(XE[X])T]仅代表n个维度而已
      在这里插入图片描述
      在这里插入图片描述
      若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:
      在这里插入图片描述
      即欧氏距离。若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
      总结
      优点:(1)它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。(它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度);(2)马氏距离还可以排除变量之间的相关性的干扰。
      缺点:(1)夸大了变化微小的变量的作用。(2)受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。即计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在。(3)如果样本的维数非常大,那么计算它的协方差矩阵是十分耗时的

    8. 汉明距离
      在信息理论中,Hamming Distance 表示两个等长字符串在对应位置上不同字符的数目,我们以d(x, y)表示字符串x和y之间的汉明距离。从另外一个方面看,汉明距离度量了通过替换字符的方式将字符串x变成y所需要的最小的替换次数。如:
      1011101 与 1001001 之间的汉明距离是 2。
      2143896 与 2233796 之间的汉明距离是 3。
      “toned” 与 “roses” 之间的汉明距离是 3。

    9. 巴氏距离
      在统计中,Bhattacharyya距离测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的Bhattacharyya系数密切相关。Bhattacharyya距离和Bhattacharyya系数以20世纪30年代曾在印度统计研究所工作的一个统计学家A. Bhattacharya命名。同时,Bhattacharyya系数可以被用来确定两个样本被认为相对接近的,它是用来测量中的类分类的可分离性。
      (1)巴氏距离的定义对于离散概率分布 p和q在同一域 X,它被定义为:
      在这里插入图片描述
      其中:
      在这里插入图片描述
      是Bhattacharyya系数。对于连续概率分布,Bhattacharyya系数被定义为:
      在这里插入图片描述
      在这里插入图片描述这两种情况下,巴氏距离在这里插入图片描述并没有服从三角不等式.(值得一提的是,Hellinger距离不服从三角不等式在这里插入图片描述)。
      对于多变量的高斯分布
      在这里插入图片描述
      在这里插入图片描述
      和是手段和协方差的分布
      在这里插入图片描述
      需要注意的是,在这种情况下,第一项中的Bhattacharyya距离与马氏距离有关联。
      (2)Bhattacharyya系数Bhattacharyya系数是两个统计样本之间的重叠量的近似测量,可以被用于确定被考虑的两个样本的相对接近。计算Bhattacharyya系数涉及集成的基本形式的两个样本的重叠的时间间隔的值的两个样本被分裂成一个选定的分区数,并且在每个分区中的每个样品的成员的数量,在下面的公式中使用
      在这里插入图片描述
      考虑样品a 和 b ,n是的分区数,并且在这里插入图片描述被一个 和 b i的日分区中的样本数量的成员。

    10. 杰卡德相似系数(Jaccard similarity coefficient)
      (1) 杰卡德相似系数
      两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。
      在这里插入图片描述
      杰卡德相似系数是衡量两个集合的相似度一种指标。
      (2) 杰卡德距离
      与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。杰卡德距离可用如下公式表示:
      在这里插入图片描述
      杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
      (3) 杰卡德相似系数与杰卡德距离的应用
      可将杰卡德相似系数用在衡量样本的相似度上。
      本A与样本B是两个n维向量,而且所有维度的取值都是0或1。例如:A(0111)和B(1011)。我们将样本看成是一个集合,1表示集合包含该元素,0表示集合不包含该元素。
      p :样本A与B都是1的维度的个数
      q :样本A是1,样本B是0的维度的个数
      r :样本A是0,样本B是1的维度的个数
      s :样本A与B都是0的维度的个数
      那么样本A与B的杰卡德相似系数可以表示为:
      这里p+q+r可理解为A与B的并集的元素个数,而p是A与B的交集的元素个数。
      而样本A与B的杰卡德距离表示为:
      在这里插入图片描述

    11. 相关系数 ( Correlation coefficient )与相关距离(Correlation distance)
      相关距离:
      在这里插入图片描述
      其中, ρ X Y ρ_{XY} ρXY是相关系数:
      在这里插入图片描述
      相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。协方差公式请见马氏距离的介绍或者博客马氏距离-协方差矩阵

    12. 信息熵(Information Entropy)
      信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。
      计算给定的样本集X的信息熵的公式:
      在这里插入图片描述
      参数的含义:
      n:样本集X的分类数
      p i p_i pi:X中第i类元素出现的概率

      信息熵越大表明样本集X分类越分散,信息熵越小则表明样本集X分类越集中。当X中n个分类出现的概率一样大时(都是1/n),信息熵取最大值log2(n)。当X只有一个分类时,信息熵取最小值0。

    展开全文
  • 目标检测---IoU计算公式

    千次阅读 2020-12-02 11:42:05
    就比如说在R-CNN网络中,正负样本就是按照候选框与真实框之间的IOU值大小进行区分的,可见该细节还是值得单独拎出来写一篇blog的~~ 下面的思路与代码是本人的理解结合百度飞浆的使用教程文档整理出来的(下面附上了...
  • 计算机组成原理重点总结(学习笔记)含计算公式

    千次阅读 多人点赞 2020-07-24 17:55:05
    补码定点数的加/减运算 基本公式:(将符号位和数值部分一起参加运算,并且将符号位产生的进位自然丢掉即可) 加法:[A]补+[B]补=[A+B]补 减法:[A-B]补=[A]补+[-B]补([-B]补由[B]补连同符号位在内,每位取反,...
  • 阻抗计算公式、polar si9000(教程)

    千次阅读 2017-05-24 18:29:01
    阻抗计算公式、polar si9000(教程) 2015-10-29 22:16 2548人阅读 评论(0) 收藏 举报 给初学者的 一直有很多人问我阻抗怎么计算的. 人家问多了,我想给大家整理个材料,于己于人都是个方便.如果大家还有...
  • 在视频编码领域,比特率常翻译为编码率,单位是Kbps,ps是每秒的意思,例如800Kbps其中,1K=1024 1M=1024Kb 为 比特(bit)这个就是电脑文件大小的计量单位,1KB=8Kb,区分大小写,B代表字节(Byte)s 为 秒(second)...
  • 机器学习中的各种距离计算公式

    千次阅读 2017-03-21 21:56:41
    作者同类文章X •推荐一系列优秀的Android... 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲
  •  难度是指试题的难易程度,它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。  一般认为,试题的难度指数在0.3-0.7之间比较合适,整份试卷的平均难度最好在0.5左右,高于0.7和低于...
  • 有效性指标中的区分能力指标:KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估, 指标衡量的是好坏样本累计分部之间的差值。 好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。KS的计算...
  • 一些标准指标的计算true positive rate (tp rate)【真阳性率】, or hit rate 【命中率】, or recall 【召回率】:false positive rate (fp rate) 【假阳性率】, or false alarm rate:sensitivity【灵敏】:...
  • 为得到蒙东地区无软弱覆岩层地质条件下特厚煤层综放开采导水断裂带的准确测算方法,以神华大雁矿业公司敏东一矿02工作面为例,分别采用煤矿防治水经验公式、"三下"采煤计算公式等方法计算导水断裂带高度;同时,采用FLAC...
  • Elastic Search 相关度计算

    千次阅读 2015-08-13 00:25:48
    为了搞清楚elastic search背后是如何计算文档搜索时候的相关,我决定自己做实验去探索 这篇博客讲得还不错 http://blog.csdn.net/dm_vincent/article/details/42099063 而博客本身也只是翻译了官方文档 ...
  • 数据混淆计算方式

    千次阅读 2017-03-20 21:07:37
    面对机器学习的分类问题时,研究数据混淆所使用的方法主要有两类:1.基于几何统计的角度。2.基于信息论的角度。几何统计的角度1. 适用于连续数据集下的数据混淆指标的算法 (1)最大Fisher判别率F1 F1是待...
  • 搜索引擎的检索模型-查询与文档的相关度计算

    万次阅读 多人点赞 2012-09-17 14:12:09
     搜索结果排序时搜索引擎最核心的部分,很大程度上决定了搜索引擎的质量好坏及用户满意。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关,以及网页链接情况。这里我们主要总结...
  • 伤害与回复量计算

    千次阅读 热门讨论 2020-05-09 23:06:05
    伤害与回复量的计算公式,以及各种Buff等加成的计算方法。
  • 贝叶斯公式本质

    千次阅读 2017-03-13 17:10:14
    转载地址:http://mp.weixin.qq.com/s?__biz=MzA3OTgzMzUzOA==&mid=503740283&idx=1&sn=ea4aa313b699f04cd603889571343bd9#rd ...答案是,它们都会用到同一个数学公式——贝叶斯公式。它虽然看起来很简单、很不
  • 贝叶斯公式详解

    万次阅读 2014-12-12 15:17:42
    概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有...
  • 利用IDL计算植被覆盖(VFC)

    千次阅读 多人点赞 2020-08-21 21:45:38
      正巧IDL实验课考核的作业是利用4个Function和主Pro过程写一个遥感图像处理的代码,以前一直想着能不能计算NDVI和植被覆盖(VFC)用IDL写出来,因为老是总强调处理遥感影像比较正统,一定程度上是这样说,因为IDL...
  • 概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率...
  • 通过分析试卷的难度 信度 效度 区分度来评判改试卷的质量
  • 区分性训练和mmi(一)

    千次阅读 2019-04-03 21:01:13
    目录写在前面信息论中的一些概念最大似然估计MLEmle缺点区分性训练DT和最大互信息MMI区分性训练MMI区分性训练缺点MMI训练过程Lattice对于它的训练:MMI的问题:reference @author yuxiang.kong 写在前面 最近我在看...
  • 界定了焦元"有效信容量"和"识别一致性", 阐明了分配证据冲突的依据,构建了分配系数计算公式,修改了证据合成规则.对比实验表明:改进的证据合成方法在处理高度冲突证据合成时,具有更好的收敛性和鲁棒性.
  • ,这一点我们之前也说过,使用如下的数值梯度计算公式: d f ( x ) d x = f ( x + h ) − f ( x − h ) 2 h (好的形式) \frac{df(x)}{dx} = \frac{f(x + h) - f(x - h)}{2h} \hspace{0.1in} \text{(好的形式)} d x...
  • 计算机组成原理 — GPU 图形处理器

    万次阅读 多人点赞 2019-08-12 19:32:44
    GPU 也可以用来作为区分 2D 硬件显卡和 3D 硬件显卡的重要依据。2D 硬件显卡主要通过使用 CPU 来处理特性和 3D 图像,将其称作 “软加速”。3D 硬件显卡则是把特性和 3D 图像的处理能力集中到硬件显卡中,也就是 ...
  •  当地中央子午线决定于当地的直角坐标系统,首先确定您的直角坐标系统是3带还是6带投影公式推算:  6带中央经线经度的计算:当地中央经线经度=6°×当地带号-3°,例如:地形图上横坐标为20345532,其所处...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 37,985
精华内容 15,194
关键字:

区分度计算公式