精华内容
下载资源
问答
  • 区分度计算公式
    千次阅读
    2018-11-21 10:03:40

    如何正确的建立数据库表字段索引

    1、索引不是在创建表的时候创建的;系统在运行一个阶段后创建索引。

    2、对于主键、外键、排序等字段优先加索引。

    3、其它字段在建立索引的时候需要计算字段的区分度,计算SQL如下:

    select  COUNT(DISTINCT column_name)/COUNT(*) from table_name

    更多相关内容
  • 区分度与索引长度的权衡首先索引长度和区分度是相互矛盾的,索引长度太短,那么区分度就很低,吧索引长度加长,区分度就高,但是索引也是要占内存的,所以我们需要找到一个平衡点;那么这个平衡点怎么来定?比如用户...

    aa8f1d8504cc4760a6bb0232bb84a415.png

    概述

    前面我们讲了怎么去计算索引所占用的长度?那么换个方式想?索引又应该设置多少长度比较合理呢?

    2fd43fa1535a2041cf38425c5c160cc1.png

    区分度与索引长度的权衡

    首先索引长度和区分度是相互矛盾的,

    索引长度太短,那么区分度就很低,吧索引长度加长,区分度就高,但是索引也是要占内存的,所以我们需要找到一个平衡点;

    那么这个平衡点怎么来定?

    比如用户表有个字段 username ,要给他加索引,问题是索引长度多少合适?

    其实我们知道 百家姓里面有百多个姓 ,但是大多数人的姓 集中在前十多个;如果我设置索引索引长度为1,占内存少,但是区分度低,区分度低索引的效率越低。太长则占内存;

    首先 mysql的索引都是排好序的。如果区分度高排序越快,区分度越低,排序慢;

    举个例子: (张,张三,张三哥),如果索引长度取1的话,那么每一行的索引都是 张 这个字,完全没有区分度,你让他怎么排序?结果这样三行完全是随机排的,因为索引都一样;如果长度取2,那么排序的时候至少前两个是排对了的,如果取3,区分度达到100%,排序完全正确;

    那是不是索引越长越好? 答案肯定是错的,比如 (张,李,王) 和 (张三啦啦啦,张三呵呵呵,张三呼呼呼);前者在内存中排序占得空间少,排序也快,后者明显更慢更占内存。

    总之:

    索引长度越低,索引在内存中占的长度越小,排序越快,然而区分度就越低。这样不利于查找。

    索引长度越长,区分度就高,虽然利于查找了,但是索引在内存中占得空间就多了。

    mysql创建索引的时候指定索引长度

    大部分的索引前面一部分的长度就能够有很好的区分度了。

    通过减小索引长度,这样能够减小索引文件的大小,能够加快数据的insert。

    语法:

    CREATEINDEXindex_nameONtable_name (column_name(length), clolumn_name(length)…);

    如何确认当前字段设置一个合适的长度呢?

    索引长度与区分度要做一个取舍;这个取舍不是没有一个固定的量;需要根据数据库里面的数据来判断;比较常规的公式是:

    selectcount(distinctleft(password, 5))/count(*)fromuser

    其中password是要加索引的字段,5是索引长度,求出一个浮点数,这个浮点数是逐渐趋向1的,上面这个比值,也算是区分度,也可以算作索引长度测试值,多测试几组,找出最合适的来,一般的区分值在0.1左右就差不多了。

    网上找了个图片来分析下;

    6dbfe1bc55a4a4a65f394adb3dd68b9c.png

    这个地方观察到,当索引长度达到4的时候就已经趋向1了,所以长度设为4是最佳的,在大点增加的索引效果已经很小了,这个地方不是说必须接近1才行;总之要找一个平衡点;

    还有一些特殊的字段常规方法用起不太顺畅,比如有一个url字段,绝大部分的url都是 http://www. 开头的,这种情况下索引长度取取到11都是无效的,需要更长的索引,那么有没有优雅的方式来解决呢;

    第一种方法: 可以将数据倒序存入数据库;

    第二种方法:对字符串进行crc32哈希处理;

    两种方法都不错,当然要配合客户端程序完成;

    简单测试:

    4b8ea8594055bafa43fd6021e64a78e7.png

    这个方法可能是优化最后才考虑的点了,不建议太过深究,了解到这就行了。后面会分享更多devops和DBA方面的内容,感兴趣的朋友可以关注一下~

    【编辑推荐】

    展开全文
  • 计算字段文本区分度公式: select COUNT(DISTINCT left(column_name,length))/COUNT(*) from table_name 其中column_name是需要建立索引的字段,而length则是选择这个字段用来建立索引的长度。 公式的作用就是,...

    有时候需要为字段创建索引时,但是字段太长,为整个字段创建索引的话,太浪费存储空间了,所以需要计算出字段区分度,选择合适的索引长度。

    计算字段文本区分度的公式:

    select  COUNT(DISTINCT left(column_name,length))/COUNT(*) from table_name
    

    其中column_name是需要建立索引的字段,而length则是选择这个字段用来建立索引的长度。

    公式的作用就是,选择出字段长度,去重求总,这时候就可以知道使用这个长度来建立索引,大概会有多少值,然后再把这个值除以总数,得到的值越接近1,则表示用这个长度来建立索引的区分度越大,自然就越适合。

    测试表USER_ROLE的数据如下:
    在这里插入图片描述

    比如要对字段USER_NAME建立索引,代入上述公式

    先选择这个字段的1个长度来建立索引,看下区分度:

    select  COUNT(DISTINCT left(USER_NAME,1))/COUNT(*) from USER_ROLE
    

    区分度如下:
    在这里插入图片描述
    再选择这个字段的3个长度来建立索引:

    select  COUNT(DISTINCT left(USER_NAME,1))/COUNT(*) from USER_ROLE
    

    看下区分度:
    在这里插入图片描述
    再选择这个字段的4个长度来建立索引:

    select  COUNT(DISTINCT left(USER_NAME,4))/COUNT(*) from USER_ROLE
    

    看下区分度:
    在这里插入图片描述
    最后选择这个字段的5个长度来建立索引

    select  COUNT(DISTINCT left(USER_NAME,5))/COUNT(*) from USER_ROLE
    

    看下区分度:
    在这里插入图片描述

    可以发现长度4和长度5的区分度都是1,那自然选择占用空间小的方案了。

    总结

    要建立大字段的索引时,可以配合计算字段文本区分度的公式,选出合适的字段长度来建立索引。

    展开全文
  •  难度是指试题的难易程度,它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。  一般认为,试题的难度指数在0.3-0.7之间比较合适,整份试卷的平均难度最好在0.5左右,高于0.7和低于...

     

    一、难度

     难度是指试题的难易程度,它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。

     一般认为,试题的难度指数在0.3-0.7之间比较合适,整份试卷的平均难度最好在0.5左右,高于0.7和低于0.3的试题不能太多。

     1、难度的两种定义:

    (1)P=1—x/w    x为某题得分的平均分数,w为该题的满分。这种定义法,难度值小时表明试题容易,值大时表明试题难,最小值为0,最大值为1。

    (2)P=x/w    这种定义法,难度值小时表明试题难,值大时表明试题容易,最小值为0,最大值为1。

    2、难度的计算:

    (1)主观性试题的难度

     A   基本公式法:P=1—x/w

     B 极端分组法 P=1—(XH+XL)∕2W    XH :高分组的平均得分(前27%),XL:低分组的平均得分(后27%)。

    (2)客观性试题的难度

    A  基本公式法:P=1—R/N      R 为答对人数,N 为全体人数。

    B  极端分组法: P=1—(PH+PL)∕2  

     PH=RH/n 叫高分组通过率,RH:高分组答对人数,n:总人数的前27%。PL=RL/n 叫低分组通过率,RL:低分组答对人数。

    二、区分度

     区分度是区分应试者能力水平高低的指标。试题区分度高,可以拉开不同水平应试者分数的距离,使高水平者得高分,低水平者得低分,而区分度低则反映不出不同应试者的水平差异。

     试题的区分度与试题的难度直接相关,通常来说,中等难度的试题区分度较大。另外,试题的区分度也与应试者的水平密切相关,试题难度只有等于或略低于应试者的实际能力,其区分性能才能充分显现出来。

       区分度指标的评价: -1.00≤D≤+1.00,区分度指数越高,试题的区分度就越强。一般认为,区分度指数高于0.3,试题便可以被接受。

     2、 区分度的计算方法:

     基本公式法:D=(H-L)÷N(D代表区分度指数,H代表高分组答对题的人数,L代表低分组答对题的人数,N代表一个组的人数即高分组与低分组人数之和)。

     极端分组法:

    (1)主观性试题:D=SH—SL∕n(WH-WL)

     SH:高分组得分总数,SL:低分组得分总数,WH:该题的最高得分,WL:该题的最低得分,n为高分组(或低分组)的人数,即总人数的27%。

    (2)客观性试题:D= PH—PL  ,或D= RH—RL∕n

    (3) 一般也可以用D=XH—XL∕X满计算。XH:高分组某试题的平均分,XL:低分组某试题的平均分,X满:该题的满分。

    三、信度

     信度是指测得结果的一致性或稳定性,稳定性越大,意味着测评结果越可靠。相反,如果用某套试题对同一应试者先后进行两次测试,结果第一次得80分,第二次得50分,结果的可靠性就值得怀疑了。

     信度通常以两次测评结果的相关系数来表示。相关系数为1,表明测评工具如试卷完全可靠;相关系数为0,则表明该试卷完全不可靠。一般来说,要求信度在0.7以上。

     1、评价信度的方法:

     (1)重测法,(2)复本法—副题,(3)折半法,或者说:用再测信度、复本信度和内部一致信度三种方法来进行评估。

     再测信度是指将同一试卷在相同的条件下对同一组考生先后实施两次,两次测评结果的相关系数。

     复本信度是指用两份或几份在构想、内容、难度、题型和题量等方面都平行的试卷进行测试,测评结果之间的相关系数。

     内部一致信度是指试卷内部各题之间的一致性,通常是将试卷一分为二,然后计算一半试卷与另一半试卷之间的相关系数。

     2、  信度系数  γxx=ST2∕SX2     ST2  叫真分数方差,SX2  为获得分数方差。信度系数的最大值为1,表示测验的可靠性高,最小值为0,表示测验的信度低。当γxx≥0.70时,测验可用于团体间的比较。当γxx≥0.85时,测验可用于个体之间的比较。

    四、效度

     效度是一个测试能够测试出它所要测试的东西的程度,即测试结果与测试目标的符合程度.

     任何测试工具,无论其它方面有多好,若效度太低,测试的结果不是它要测试的东西(如用英语试卷测试学生的数学能力),那么,对目前所要测试的东西,这个测试将是无价值的。

     由于心理现象本身的特点,测评的效度尤为重要。心理属于精神方面的东西,目前人们还无法直接观察它,只能通过一个人的行为模式或者对测试题目的反应,来推论其心理特质。如智力水于主要是借助于个体对一些问题的反应及正误等结果来推断的。

     效度是一个相对概念,即效度只有高低之分,没有全部有效和全部无效之分。效度从种类上可分为卷面效度、内容效度、构想效度、预测效度和共时效度。

      试卷质量分析的两个类:试题分析和试卷分析

     一、 试题分析 

    对试题(考试)的性质、来源、内容范围、难度等进行概述。

     1、  测验内容的覆盖面如何,

    2、  各知识点所占的比例是否恰当,

    3、  试题内容的选择是否合理,是否有错题,超纲等题目。

    4、  各层次行为目标所占的分数比例是否恰当。如果是自命题,列出试题的双向细目表。如果是非自命题,要对试题分析列出考查知识的细目表,或者是直条图(各部分知识所占比例)。

    从效度、信度(考试成绩),难度、区分度(试题)四个角度分析。

        二、  试卷分析

    分定量分析和定性分析两部分。

    (一)   定量分析:

    1、逐题统计分析(可用列表法、或统计图法)

    填空题,统计答对率。如:

    选择题,按选项统计,如:

    计算题,按等级统计。如得零分人数,得满分人数,得部分分的人数,计算出难度和平均分。

     2、  统计学生成绩频率分布情况(次数分布图)。

    3、  三率一分,即优秀率、及格率、低分段率及平均分。要注明试卷的总分是多少,最高和最低分是多少。

     (二)  定性分析

    1、诊断:指出问题,分析原因。问题应分共性和个性,找出共性问题及原因,教与学两方面都要分析。

    2、制定措施:改进、矫正。

    展开全文
  • 什么是试题的难度、信度、区分度

    万次阅读 2021-01-14 03:57:33
    一.试题的难度(一)什么是难度难度是指试题的难易程度,是评价考试的一个非常重要的一个指标。一个题目,如果大部分考生都能答对,那么这个...计算公式为:P=R/N. 其中P代表题目的通过率,R为答对或通过该题目的人数...
  • 难度、区分度、信度、效度

    千次阅读 2021-01-14 03:57:29
    试卷分析的四个度:难度、区分度、信度、效度一、难度难度是指试题的难易程度,它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。一般认为,试题的难度指数在0.3-0.7之间比较合适,整份...
  • 然后根据相同的计算公式来计算目标的距离 R=ct/2 其中c=30万公里/s,是电磁波在空中的传播速度,其实就是光速。 其中发射和接收电磁波还要必须用到另一个非常重要的装置——雷达天线。雷达天线实际上是一个能量转换...
  • 目标检测---IoU计算公式

    千次阅读 2020-12-02 11:42:05
    就比如说在R-CNN网络中,正负样本就是按照候选框与真实框之间的IOU值大小进行区分的,可见该细节还是值得单独拎出来写一篇blog的~~ 下面的思路与代码是本人的理解结合百度飞浆的使用教程文档整理出来的(下面附上了...
  • 而B_sweep的计算公式为: delta_r为距离分辨率 Doppler Estimation Doppler effect 雷达的速度估计是基于一种古老的现象, 叫做多普勒效应. 多普勒效应是波源和观察者有相对运动时, 观察者接受到波的频率与波源发出...
  • 与效度公式的纠正

    千次阅读 2021-01-15 02:08:27
    [摘要]长期以来,由于经典测量理论的真分数模型以及假设存在不足,导致信和效度的理论公式存在错误。本文在指出这种错误的基础上,分析了错误的原因,并提出了相对完善的公式,还介绍了相应的信和效度估计的新...
  • 几种常见的距离计算公式

    万次阅读 2019-10-20 10:41:59
    我们常用的距离计算公式是欧几里得距离公式,但是有时候这种计算方式会存在一些缺陷,那么就需要另外的计算方法去加以补充,本文将介绍几种在机器学习中常用的计算距离。 在做很多研究问题时常常需要估算不同样本...
  • 计算机组成原理重点总结(学习笔记)含计算公式

    万次阅读 多人点赞 2020-07-24 17:55:05
    补码定点数的加/减运算 基本公式:(将符号位和数值部分一起参加运算,并且将符号位产生的进位自然丢掉即可) 加法:[A]补+[B]补=[A+B]补 减法:[A-B]补=[A]补+[-B]补([-B]补由[B]补连同符号位在内,每位取反,...
  • CVSS 3.0 计算公式及说明 一、基础评价 1. 基础评价公式为:  当 影响分值<= 0: 基础分值 = 0  当 0 < 影响分值+ 可利用分值 < 10:  作用域 = 固定: 基础分值= Roundup(影响分值+ 可利用...
  • 在视频编码领域,比特率常翻译为编码率,单位是Kbps,ps是每秒的意思,例如800Kbps其中,1K=1024 1M=1024Kb 为 比特(bit)这个就是电脑文件大小的计量单位,1KB=8Kb,区分大小写,B代表字节(Byte)s 为 秒(second)...
  • 各种距离概念与计算公式

    千次阅读 2022-01-14 10:55:43
    对各种常用的距离的概念和计算公式的汇总整理
  • 一些标准指标的计算true positive rate (tp rate)【真阳性率】, or hit rate 【命中率】, or recall 【召回率】:false positive rate (fp rate) 【假阳性率】, or false alarm rate:sensitivity【灵敏】:...
  • 阻抗计算公式、polar si9000(教程)

    万次阅读 2017-05-24 18:29:01
    阻抗计算公式、polar si9000(教程) 2015-10-29 22:16 2548人阅读 评论(0) 收藏 举报 给初学者的 一直有很多人问我阻抗怎么计算的. 人家问多了,我想给大家整理个材料,于己于人都是个方便.如果大家还有...
  • 均值、方差、均方值、均方差计算

    千次阅读 2021-02-05 09:23:37
    均方差是各数据偏离真实值的距离平方和的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近。均方差有时候被认为等同于方差 6、均方根误差 均方根...
  • 计算公式及示例 什么是缺陷密度? 缺陷密度是软件/模块在特定运行或开发期间确认的缺陷数量除以软件/模块的大小。它使人们能够决定某个软件是否已准备好发布。 缺陷密度是按每千行代码(即 KLOC)计算的。 ...
  • IGBT的驱动参数说明和计算公式

    千次阅读 2021-04-29 01:28:03
    IGBT的驱动参数说明和计算公式作者:微叶科技 时间:2015-11-19 10:58IGBT驱动概述本文介绍了在特定应用条件下门极驱动性能参数的计算方法。通过本应用手册得出的一些参数值可以作为选择一款合适驱动器的基本依据。...
  • 这样就相当好计算了。 ②换算举例 有了如上的基础,要划算经伟的关系,就相当简单了。 一般情况下,换算原理是这样的: 把的数值中的小数点的转换成为分,取分之整数,再把分的小数转换成为秒。 举例说明: ...
  • KS的计算和理解

    千次阅读 2021-07-15 16:52:13
    下图来自知乎 风控模型—区分度评估指标(KS)深入理解应用 上述计算过程中主要有两个点不是特别的清晰, cum_bad_rate 和 cum_good_rate 其中 cum_bad_rate 就是当前以及当前之前区间的累计的 bad 数量相加,除全部...
  • 常见的距离算法和相似度(相关系数)计算方法

    万次阅读 多人点赞 2018-08-14 15:00:50
    杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。(参考自 余弦距离、欧氏距离和杰卡德相似性度量的对比分析 )    2.4Tanimoto系数(广义Jaccard相似系数)  公式:    ...
  • 目录一、复杂网络中心(一)PageRank 算法(二)中心(Degree Centrality)(三)接近中心(Closeness Centrality)(四)中间中心(Betweenness Centrality)(五)特征向量中心(Eigenvector ...
  • 针对常规测井方法很难区分基质孔隙和次生孔隙的问题,采用阿尔奇公式将电成像测井资料转换为井周孔隙谱,研究分析了不同孔径大小的孔隙分布情况,定性区分出基质孔隙和次生孔隙;利用铸体薄片数据和核磁共振数据刻度...
  • 手机PPI计算公式

    千次阅读 2013-05-10 18:24:27
    S4的实际清晰PPI计算过程如下... 已知PPI 计算公式为:  PPI = √(960^2+640^2)/3.5 ≈ 326 (iphone4为例)  又知 S4 为Pentile排列, 子像素为RGB 排列的 2 / 3, 故可以假设其像素也为RGB 排列的 2 / 3
  • 随着图论相关理论的兴起,很多复杂实际问题都被慢慢抽象成复杂网络图 ...现有的研 宄成果主要集中在三个方面,即基于社会关系、系统工程和互联网信息传递对 网络节点重要进行计算。目前的复杂网络的节点重要评价...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 46,022
精华内容 18,408
关键字:

区分度计算公式