精华内容
下载资源
问答
  • 平均数、中位数、众数 三者的联系与区别
    万次阅读
    2018-07-17 09:23:08

    原文链接:http://www.360doc.com/content/18/0717/09/57858800_771067787.shtml

    个人理解,说简单点:
    一组数据中如果有特别大的数或特别小的数时,一般用中位数
    一组数据比较多(20个以上),范围比较集中,一般用众数
    其余情况一般还是平均数比较精确

    一、联系与区别:

      1、平均数是通过计算得到的,因此它会因每一个数据的变化而变化。

      2、中位数是通过排序得到的,它不受最大、最小两个极端数值的影响.中位数在一定程度上综合了平均数和中位数的优点,具有比较好的代表性。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。另外,因中位数在一组数据的数值排序中处中间的位置,

      3、众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向.

    二、平均数、中位数和众数它们都有各自的的优缺点.

    平均数:
    (1)需要全组所有数据来计算;
    (2)易受数据中极端数值的影响.

    中位数:
    (1)仅需把数据按顺序排列后即可确定;
    (2)不易受数据中极端数值的影响.

    众数:
    (1)通过计数得到;
    (2)不易受数据中极端数值的影响

    关于“中位数、众数、平均数”这三个知识点的理解,我简单谈谈自己的认识和理解。
    ⒈众数。
    一组数据中出现次数最多的那个数据,叫做这组数据的众数。
    ⒉众数的特点。
    ①众数在一组数据中出现的次数最多;②众数反映了一组数据的集中趋势,当众数出现的次数越多,它就越能代表这组数据的整体状况,并且它能比较直观地了解到一组数据的大致情况。但是,当一组数据大小不同,差异又很大时,就很难判断众数的准确值了。此外,当一组数据的那个众数出现的次数不具明显优势时,用它来反映一组数据的典型水平是不大可靠的。
    3.众数与平均数的区别。
    众数表示一组数据中出现次数最多的那个数据;平均数是一组数据中表示平均每份的数量。
    4.中位数的概念。
    一组数据按大小顺序排列,位于最中间的一个数据(当有偶数个数据时,为最中间两个数据的平均数)叫做这组数据的中位数。
    5.众数、中位数及平均数的求法。
    ①众数由所给数据可直接求出;②求中位数时,首先要先排序(从小到大或从大到小),然后根据数据的个数,当数据为奇数个时,最中间的一个数就是中位数;当数据为偶数个时,最中间两个数的平均数就是中位数。③求平均数时,就用各数据的总和除以数据的个数,得数就是这组数据的平均数。
    6.中位数与众数的特点。
    ⑴中位数是一组数据中唯一的,可能是这组数据中的数据,也可能不是这组数据中的数据;
    ⑵求中位数时,先将数据有小到大顺序排列,若这组数据是奇数个,则中间的数据是中位数;若这组数据是偶数个时,则中间的两个数据的平均数是中位数;
    ⑶中位数的单位与数据的单位相同;
    ⑷众数考察的是一组数据中出现的频数;
    ⑸众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据,其单位与数据的单位相同;
    (6)众数可能是一个或多个甚至没有;
    (7)平均数、众数和中位数都是描述一组数据集中趋势的量。
    7.平均数、中位数与众数的异同:
    ⑴平均数、众数和中位数都是描述一组数据集中趋势的量;
    ⑵平均数、众数和中位数都有单位;
    ⑶平均数反映一组数据的平均水平,与这组数据中的每个数都有关系,所以最为重要,应用最广;
    ⑷中位数不受个别偏大或偏小数据的影响;
    ⑸众数与各组数据出现的频数有关,不受个别数据的影响,有时是我们最为关心的数据。
    8.统计量。
    平均数、众数和中位数都叫统计量,它们在统计中,有着广泛的应用。
    9.举手表决法。
    在生活中,往往会有由多数人来从众多答案中选择一个的情形,一般都利用“举手表决”方式来解决问题。即在统计出所有提议及相应票数的情况下,看各票数的众数是否超过总票数的一半,如果众数超过了总票数的一半,选择的最终答案就是这个众数。如果出现了双众数(两个众数),可对这两个众数采用抓阄、抽签或投掷硬币等办法选出最终的答案。
    10.平均数、众数和中位数三种统计数据在生活中的意义。
    平均数说明的是整体的平均水平;众数说明的是生活中的多数情况;中位数说明的是生活中的中等水平。
    11.如何通过平均数、众数和中位数对表面现象到背景材料进行客观分析。
    在个别的数据过大或过小的情况下,“平均数”代表数据整体水平是有局限性的,也就是说个别极端数据是会对平均数产生较大的影响的,而对众数和中位数的影响则不那么明显。所以,这时要用众数活中位数来代表整体数据更合适。即:如果在一组相差较大的数据中,用中位数或众数作为表示这组数据特征的统计量往往更有意义。

    算数平均数、中位数与众数——统计量背后的故事

    现代经济社会的数字化程度越来越高,我们会发现在我们生活的这个世界里充斥着各种各样的数字。人们在描述事物或过程时,人们也已经习惯性的偏好于接受数字信息以及对于各种数字的整理和分析。因此,社会经济统计越发的重要。统计学一定是基于现实经济社会发展的需要牵引而不断发展的。在运用统计方法、观察统计数字时不能仅仅看到数字,更要看到数字背后的故事。其实统计学作为一门工具能够帮助我们更为深刻的理解抽象的社会经济现象。当我们仔细发掘其中涵义就会发现,其实自然科学与社会科学并不是相隔千里,它们有着很多地方可以相互的对应,存在普遍而深刻的联系。
    笔者曾在为一些本科学生讲授统计学而准备教案时,产生了一些似乎有些勉强,但的确可以训练思维的想法。下面以对于如何理解“算数平均数、中位数与众数”之间的关系为例说一说统计量背后的故事。这三个统计量都是用来描述样本集中趋势的,但三者描述的机制和所表达出来的内涵有不小的区别。算数平均数这样一个统计量反映了样本内所有个体的信息,尽管反映的程度因个体在整体中所占比重不同而不同。在政治过程中,算数平均数与完全的平均主义、严格的每人一票、“全民公投”等相对应。中位数指的在是从小到大排序之后的样本序列中,位于中间的数值,它并不能反映所有样本个体的信息,仅仅考虑的是在相对位置上中间的样本的信息。在一个社会中,按照财富和社会地位进行排序位于中间位置的是中产阶级。中产阶级的意见受到重视的社会是一个较为稳定的社会,是一个有了较高发展程度的社会。众数指的则是在样本中出现次数做多的个体。很明显,在政治过程中这是与“少数服从多数”相对应的。出现次数最多的个体信息被表达出来,其他个体的所有信息完全被忽视。那个个体票数最多,它的利益得以实现,而少数人的利益则不能够得到保证。这恰恰证明了所谓民主的局限之一,即“多数人对少数人的暴政”。
    在一个社会里,完全的平均主义会使人们失去进取的动力,“全民公投”的成本极高并且也不能保证个体表达出其真实意愿,因此这并不是理想的政治过程。在改革开放之前实行的计划经济体制最终走下了历史舞台也正是因为我们清楚地认识到了这样的问题;我们反对台湾当局针对台湾是否独立实行“全民公投”也正是基于这一点。那么美国式的民主,即“少数服从多数”是否理想呢?民主是有局限性的,如此的政治过程不能够保护少数人的利益,正是其重要的缺陷之一。况且如果需要政府来保障那些不能通过政治过程实现自身利益的个体,成本极高。相对而言,使中产阶级的利益得以表达,将会形成一个稳定的社会结构,市较为理想的政治过程。人们会有不断进取的心态使自己成为中产阶级,同时最富裕的阶层也受到了一定限制,从而不会凭借其财富垄断社会的公共资源,为整个社会提供了一套阶层之间相互流动的渠道和机制。当然,如此的政治过程仍然是具有一定局限性的。比如仍然会有部分弱势群体的利益得不到保护。但是,相对于“少数服从多数”的政治过程,政府出面保护弱势群体的成本将低得多了。那么我们能不能为社会提供一个最为理想的政治过程呢,哪怕那仅仅是一种理想呢?或许可以。在统计学中,最理想的情况是反映集中趋势的三个统计量相互重合,即算数平均数、中位数和众数相等。这种情况下的社会结构分布可以被看作为正态分布。中产阶级的在数量上占整体的多数,即为富裕与极贫困者皆为少数;中产阶级通过民主的政治过程表达出自身的利益取向;平均看来整个社会在一个较高的发展水平上运行。

    教参上说了他们三者的联系

    “重视理解平均数、中位数与众数的联系与区别。
    描述一组数据的集中趋势,可以用平均数、中位数和众数,它们有各自不同的特点。
    平均数应用最为广泛,用它作为一组数据的代表,比较可靠和稳定,它与这组数据中的每一个数据都有关系,能够最为充分地反映这组数据所包含的信息,在进行统计推断时有重要的作用;但容易受到极端数据的影响。
    中位数在一组数据的数值排序中处于中间的位置,故其在统计学分析中也常常扮演着“分水岭”的角色,人们由中位数可以对事物的大体趋势进行判断和掌控。
    众数着眼于对各数据出现的频数的考察,其大小仅与一组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,它的众数往往是我们关心的一种统计量。
    在这部分知识的教学中,要注意讲清上述三个量的联系与区别。使学生知道它们都是描述一组数据集中趋势的统计量,但描述的角度和适用范围有所不同,在具体的问题中究竟采用哪种统计量来描述一组数据的集中趋势,要根据数据的特点及我们所关心的问题来确定。”

    有个顺口溜 分析数据平中众,比较接近选平均,相差较大看中位,频数较大用众数;
       所有数据定平均,个数去除数据和,即可得到平均数;大小排列知中位;
       整理数据顺次排,单个数据取中问,双个数据两平均;频数最大是众数

    更多相关内容
  • 问题描述:在两个等长的升序序列中找到两个序列的中位数,设s序列的长度为n(n>=1),称n/2个位置的数为s的中位数 我在这里简单分享下自己对这道题的看法。暴力法这里不谈了,仅仅谈谈教材上的减治法思路,并且是...

    问题描述:在两个等长的升序序列中找到两个序列的中位数,设s序列的长度为n(n>=1),称n/2个位置的数为s的中位数

    • 我在这里简单分享下自己对这道题的看法。暴力法这里不谈了,仅仅谈谈教材上的减治法思路,并且是如何实现出bug free的代码,而不会类似于二分查找那样陷入死循环!(下面的=究竟是赋值还是判定相等关系自行判断)

    • 教材上的算法思路
      分别求出两个序列的中位数,记为a和b;比较a和b,有下列三种情况:

    ① a = b:则a即为两个序列的中位数;

    ② a < b:则中位数只能出现在a和b之间,在序列A中舍弃a之前的元素得到序列A1,在序列B中舍弃b之后的元素得到序列B1;

    ③ a > b:则中位数只能出现在b和a之间,在序列A中舍弃a之后的元素得到序列A1,在序列B中舍弃b之前的元素得到序列B1;

    在A1和B1中分别求出中位数,重复上述过程,直到两个序列中只有一个元素,则较小者即为所求。

    • 教材上的伪代码如下
      算法5.1:两个序列中位数SearchMid
      输入:两个长度为n的有序序列A和B
      输出:序列A和B的中位数

    • 循环直到序列A和序列B均只有一个元素
      1.1 a = 序列A的中位数;
      1.2 b = 序列B的中位数;
      1.3 比较a和b,执行下面三种情况之一:
      1.3.1 若a=b,则返回a,算法结束;
      1.3.2 若a<b,则在序列A中舍弃a之前的元素,在序列B中舍弃b之后的元素,转步骤1;
      1.3.3 若a>b,则在序列A中舍弃a之后的元素,在序列B中舍弃b之前的元素,转步骤1;

    • 序列A和序列B均只有一个元素,返回较小者;

      上述的算法的循环每次使A,B序列长度不断减少,直到满足while循环中的A,B序列各只剩一个元素,最后选择小者为正确答案。但是这个循环真的能做到每次使A,B序列长度减小吗?也就是说假如循环后A,B长度不变的话A,B不可能变成各只剩一个元素,最后永远也不会跳出而陷入死循环!那到底问题出在了哪里呢?
      A: [1,2]
      B: [-1,3]
      假如有这样一个样例,按照上面的算法,取A的中位数下标首尾下标相加除2得下标0,得到A的中位数1,同理取得B的中位数-1,即:
      a=1
      b=-1
      现在a<b,序列A中舍弃a之前的元素,序列B中舍弃B之后的元素,
      现在新的情况为
      A:[1,2]
      B:[-1]
      再求一次a,b
      a=1
      b=-1
      现在a<b,跟上次循环一样序列A中舍弃a之前的元素,序列B中舍弃B之后的元素,boom!这次不管是A还是B一个元素也没扔掉!下次循环仍将是这样的情况,这意味着A,B永远也不会像伪代码描述的那样能够满足退出循环的条件,A,B中都各只剩一个元素,永远循环,根本不能返回我们想要的答案。你也许会说我一眼就看出A,B两个序列的中位数明显就是1嘛!但是计算机不是人,必须按照你写的代码运算从而得到答案。你也许会想到我直接写个if判断从而退出循环嘛!但是如果如果输入这个样例时A,B输入对调呢?你的if还能应付新的样例吗?而且万一有其它样例能使你的样例陷入死循环呢?if也许能解决问题,但这样会使我们的代码臃肿且不够优雅,关键是容易错,所以我们需要从理论上详细推导我们的循环到底在哪里出错了,从而写出真正可用的code

    • 我现在详细的推导一下这个循环问题到底出现在哪里
      初始化:
      设序列A: leftA=0,rightA=n-1,midA为A中间元素下标
      设序列B: leftB=0,rightB=n-1,midB为B中间元素下标

      注:n为两个等长序列长度,left,right,mid均为下标
      循环开始 A,B序列初始区间[0,n-1]
      循环:
      while(leftA<=righA&&leftB<=rightB)
      { //这里的循环条件先假定是这样,后面仔细探讨循环条件该填什么
      midA=(leftA+rightA)/2
      a=A[midA]
      midB=(leftB+rightB)/2
      b=B[midB]

      如果 a==b
      return a //两个中位数相等,直接返回

      如果 a<b
      ① 中位数大小范围应为为[a,b],说明中位数应该位于A中的[midA,rightA]中或者位于B中的[midB,rightB]

      ② 对于A序列,舍弃[leftA,midA-1],序列减小长度为(midA-1)-leftA+1=midA-leftA>=0,当midA-leftA=0时,A的减小长度为0,此时如果不干预将陷入死循环
      当midA-leftA=0时,根据midA的定义,此时midA=(leftA+rightA)/2=leftA
      解得leftA=rightA
      此时使leftA=midA,得到新的A序列[leftA,rightA]

      ③ 对于B序列,舍弃[midB+1,rightB],序列减小长度为rightB-(midB+1)+1
      =rightB-midB>=0,当等式为0时有midB=rightB,根据midB的定义,有
      (leftB+rightB)=rightB,跟② 类似,使这个等式成立的一个解为leftB=rightB
      其实还有一个解是,rightB=leftB+1,为什么呢?其实是这样:
      (rightB+leftB)/2=(leftB+1+leftB)/2=(leftB+leftB)/2+1/2=leftB
      原来是我们没意识到计算机在整数运算中对结果向下取整了,其实也就是直接丢掉了小数
      上面的推导告诉了我们对于B序列,一旦
      (1)rightB=leftB或者 (2)rightB=leftB+1
      B的长度永远也不会减小,对于(2)情况,可以看出此时的B长度为2,里面就两个元素,意味着B在长度为2死就陷入了死循环,这似乎就解释了
      A: [1,2]
      B: [-1,3]
      这个样例为什么会陷入死循环,此时必须干预死循环,(2)出现的比(1)早,只需考虑(2),我们可以在while循环了写leftB+1<right从而避免出现(2)的情况从而跳出循环
      现在使rightB=midB,得到新的B序列 [leftB,rightB]

      如果 a>b
      ① 中位数大小范围应为为[b,a],说明中位数应该位于A中的[leftA,midA]中或者位于B中的[midB,rightB]
      ② 对于A序列,舍弃区间[midA+1,rightA],减小长度rightA-(midA+1)-1=
      rightA-midA>=0,当leftA==rightA时等式为0
      使rightA=midA,获得新的A序列[leftA,rightA]
      ③ 对于B序列,舍弃区间[leftB,midB-1],减小长度midB-1-leftB+1=
      midB-leftB>=0,当rightB==leftBrightB==leftB+1时等式为0
      使leftB=midB,获得新的B序列[leftB,rightB]
      }
      终止:
      本来按照教材中的算法伪代码,while循环的条件时直到A,B都仅剩一个元素时跳出,此时while应写成
      while(leftA<rightA || leftB<rightB)即可
      跳出循环后,leftA=rightA&&leftB=rightB
      但是根据上面的分析rightA=leftA+1和rightB=leftA+1时,A,B的长度永远卡死在了2,根本不可能满足跳出循环要求(rightA=leftA和rightB=leftB已经不用管了)因此为了能正确的跳出循环,while应改成
      while(leftA+1<rightA || leftB+1<rightB)
      跳出循环后,leftA+1=rightA&&leftB+1=rightB

    • 现在我们讨论一下跳出循环后的答案怎么求
      显然如果初始输入的A,B的长度要么都大于等于2,要么都为1
      当n>=2时,退出循环后A,B两个序列都各只剩2各元素,中位数都在4个候选元素中
      当n==1时,根据上文写的while,不会进入循环,中位数位于2个候选元素中
      对于上面两种情况,一种简单的求中位数的办法是直接合并两个有序序列,由于合并后的序列要么长度为4要么为2,合并是常数级操作,因此时间可以忽略,实际上我也是这样做的

    • java示例代码:

    class Solution {
        public static void main(String[] args) {
            int[] A = new int[]{1,2};
            int[] B = new int[]{-1,3};
            int temp = searchMid(A, B);
        }
    
        private static int searchMid(int[] A, int[] B) {
            int leftA = 0, rightA = A.length - 1;//定义leftA,rightA指明序列A的范围
            int leftB = 0, rightB = B.length - 1;//定义leftB,rightB指明序列B的范围
            while (leftA + 1 < rightA || leftB + 1 < rightB) {//跳出循环后leftA+1==rightA&&leftB+1==rightB
                int midA = (leftA + rightA) / 2;
                int a = A[midA];
                int midB = (leftB + rightB) / 2;
                int b = B[midB];
                if (a < b) {
                    leftA = midA;//rightA==leftA || rightA=leftA+1时缩减长度为0
                    rightB = midB;//rightB==leftB时缩减长度为0
                } else if (a > b) {
                    rightA = midA;//rightA==leftA时缩减长度为0
                    leftB = midB;//rightB==leftB || rightB==leftB+1时缩减长度为0
                } else {
                    return a;
                }
            }
            int[] temp = new int[4];//定义最大长度为4的零时数组,存储2个或4个元素的合并序列
            int index = 0;
            while (leftA <= rightA && leftB <= rightB) {//两个升序序列的合并操作
                if (A[leftA] < B[leftB]) {
                    temp[index++] = A[leftA++];
                } else {
                    temp[index++] = B[leftB++];
                }
            }
            while (leftA <= rightA) {
                temp[index++] = A[leftA++];
            }
            while (leftB <= rightB) {
                temp[index++] = B[leftB++];
            }
            index--;//index自检后指向合并序列的最后一个元素,方便下标运算求出中位数
            return temp[index / 2];//返回中位数
        }
    }
    
    • 时间复杂度,每次循环A,B个减少一半长度,总共循环logn次,最后在2个或4个候选元素得出中位数,常数级操作,故时间复杂度为O(logn)
    • 总结:该算法的思路很简单,就是根据两个序列的中位数对比结果,对应抛弃A和B的左或右边序列,在剩下的序列里继续寻找目标,跟二分法类似,思想很简单,但是真正写出bug free的code却不简单,需要仔细地推导才能保证我们的循环是正确的,不会死循环。正巧我的教材上只给出了这个问题的伪代码,并没有给出具体的实现,或许作者自己也只是纸上谈兵并没有去实践过呢?
    • 建议:为什么我会想到这个算法会陷入死循环却又能正确的找到解决办法的呢?我为什么会想到这样分析呢?其实是源于我当初写二分查找,始终写不出正确的代码,就是因为循环条件不清晰,像上面一样很容易陷入死循环,没有正确的分析,大学老师当时讲课也只是像教材一样介绍了思想却并没有讲解细节,我很怀疑他自己写不看书能不能正确的写出二分查找算法来。二分查找有很多变种,比如给定一个非降序序列,找出第一个大于或者最后一个大于目标值target的数的下标,看大家能不能写出正确的程序来。这里给大家介绍一个概念:循环不变式,能帮助我们分析自己的程序
      这里贴两个链接,跟上文的中位数问题和二分查找有关,使用了循环不变式这个概念,我觉得很有用,强烈建议大家看看
      利用循环不变式写出正确的二分查找及其衍生算法
      如何写出正确的二分查找?——利用循环不变式理解二分查找及其变体的正确性以及构造方式
      如有错误希望大家指出谢谢!可能有些细节写的不对,但是大家看完我的分析了解了我的思路是应该能分析出我哪里细节写错了。
    展开全文
  • 两个有序序列的中位数(详解)

    千次阅读 2017-12-17 12:58:05
    7-3 两个有序序列的中位数   2. 问题描述 在一行中输出两个输入序列的并集序列的中位数。时间复杂度不能大于O(logn)   3. 算法描述(不能粘贴程序) 因为时间复杂度不能大于logn,所以把原序列排好序再来找...

    1. 实践题目

    7-3 两个有序序列的中位数

     

    2. 问题描述

    在一行中输出两个输入序列的并集序列的中位数。时间复杂度不能大于O(logn)

     

    3. 算法描述(不能粘贴程序)


    因为时间复杂度不能大于logn,所以把原序列排好序再来找中位数是不可能的了(快排nlogn)。故我采用二分法的思想,对原序列进行二分处理,比较中位数。比到最后两个指针的情况如图所示,此时较小的数即为两序列的中位数。

     

    4. 算法时间及空间复杂度分析(要有分析过程)

    时间复杂度O( log(n)*log(n) )。每次取两个数组各自的中位数,用来比较,取小的那个的后面和大的的前面。然后再迭代一次,再比较,取向应的数。以考虑中位数在序列中的情况。

    空间复杂度 O(1)


    5. 程序运行截图

     


    6.心得体会(对本次实践收获及疑惑进行总结)

    明白了相同问题可以有多种解法。看到时间复杂度不能大于O(logn)第一反应就是用二分法,对序列进行划分处理,所以整体的解题思路比较清晰。


    源代码地址:https://github.com/TFknight/PythonStudy/blob/master/algorithm/zhongweishu.java

    展开全文
  • rstudio中位数的公式In this tutorial, let’s learn how we can find the median in R. Median is defined as the measurement of central tendency in the data. In simpler terms, you may call it the ‘middle...

    rstudio中位数的公式

    In this tutorial, let’s learn how we can find the median in R. Median is defined as the measurement of central tendency in the data. In simpler terms, you may call it the ‘middle’ value.

    在本教程中,让我们学习如何在R中找到中位数。中位数定义为数据中中心趋势的度量。 简单来说,您可以将其称为“中间”值。

    The process includes grouping or ordering the values and then finding the middle number among them. If you encounter multiple middle values, you can take the average or ‘mean’ of those values.

    该过程包括对值进行分组或排序,然后在其中找到中间的数字。 如果遇到多个中间值,则可以取这些值的平均值或“平均值”



    中位数–优缺点 (Median – Merits and Demerits )

    Merits:

    优点:

    • It is very easy to calculate the median. In some simple cases, you can find the median just by analyzing the values.

      计算中位数非常容易。 在一些简单的情况下,您可以仅通过分析值来找到中位数。
    • Median has real use in open-ended data distributions. Because the median gives more importance to the position of the number than its value.

      中位数在开放式数据分发中有实际用途。 因为中位数比数字的值更重视数字的位置。
    • One of the major advantages of the median is that it is not affected by the outliers present in the data.

      中位数的主要优势之一是它不受数据中存在的异常值的影响。

    Outliers: Outliers are described as the extreme values, which are different from the rest of the values in the data.

    离群值:离群值描述为极值,与数据中的其余值不同。

    Ex: The retirement age values are – (52,53,54,54,55,56,57,58,79)

    例如:退休年龄值为–(52,53,54,54,55,56,57,58,79)

    Here, 79 is an extreme value and it is different from the rest of the values or data. It will affect the mean and mode drastically. But Median will not be affected as it deals with position rather than the value.

    在这里,79是一个极值,它不同于其余的值或数据。 它将严重影响均值和众数。 但是中位数不会受到影响,因为它只处理头寸而不是价值。

    Demerits:

    缺点:

    • Median will not look for the accurate value as it will not utilize the entire data.

      中位数不会寻找 准确的价值,因为它不会利用全部数据。
    • Median is not capable of further statistical or mathematical operations.

      中位数不能进行进一步的统计或数学运算。


    查找给定值的中位数 (Finding the median of the given values)

    In this section, we will create a list of values and try to find the median of those values.

    在本节中,我们将创建一个值列表,并尝试查找这些值的中位数。

    
    #creates a list 
    x <- c(45,76,56,87,65,45,34,56,78,98,87,65,34,48,76)  
      
    #displays the values
    show(x)     
    ---> 45 76 56 87 65 45 34 56 78 98 87 65 34 48 76
    
    #calculates the median of the values in the list 'x'
    median(x)
    

    Output: 65

    输出:65

    You may wonder how 65 can be a middle value. Well, the median() function first groups or order the values in ascending or descending order, then it will calculate the middle or central value.

    您可能想知道65如何成为中间值。 好吧,位数()函数首先将值分组或以升序或降序排列,然后将计算中间值或中心值。

    Note: If one or more values are found to be central values, then the average of them will be considered as the median.

    注意:如果发现一个或多个值是中心值,则将它们平均值视为中位数



    查找“国家的用电量数据”的中位数。 (Finding the median of the ‘Electricity consumption data of the countries’.)

    In this section, we import the CSV file which includes the data of ‘Electricity/energy consumption’ across the above-mentioned countries – India, Romania, USA, and Jamaica in the year 2019.

    在本部分中,我们导入CSV文件 ,其中包含上述国家(印度,罗马尼亚,美国和牙买加)在2019年的“电力/能源消耗”数据。

    Execute the below code to find the median of the ‘Voltage’ consumed by these countries in 2019.

    执行以下代码以查找这些国家/地区在2019年所消耗的“电压”中位数。

    Note: View or Download the ‘Energy consumtion’ dataset here

    注意: 在此处查看或下载“能源消耗”数据集

    
    #reads the value present in the file. 
    df <- read.csv("energydata.csv")
    
    #displays the values.
    df
    
    #calculates the median of the 'voltage' values. 
    median(df$Voltage)
    
    Median In R

    Output: 220 Volts,

    输出:220

    Note: In this data set, the results showed that the median is 220, i.e. the central tendency of the data is 220 volts.

    注意:在此数据集中,结果显示中位数为220,即数据的中心趋势为220伏。



    借助箱形图可视化数据的中位数 (Visualizing the Median of the data with the help of the box plot)

    In R, you can create a box plot to understand the distribution of median as shown in the below plot.

    在R中,您可以创建一个箱形图以了解中位数的分布,如下图所示。

    boxplot: Boxplots are used in R to understand the distribution of data. R offers the function boxplot() to create the box graph. The thick line in the plot represents the median.

    boxplot R中使用Boxplots来了解数据的分布。 R提供了boxplot()函数来创建箱形图。 图中的粗线代表中位数。

    Box Plot In R


    使用直方图了解“电压”的中值 (Using Histogram to Understand the Median of the ‘voltage’)

    In this section, we are going to plot the voltage distribution with the help of a histogram in Rstudio.

    在本节中,我们将借助Rstudio中的直方图来绘制电压分布

    Execute the below code to plot the histogram, which shows the voltage distribution and the median of the voltage.

    执行以下代码以绘制直方图,该直方图显示电压分布和电压中值。

    
    #reads the value present in the file. 
    df <- read.csv("energydata.csv")
    #displays the values.
    df
    #calculates the median of the 'voltage' values. 
    median(df$Voltage)
    #plots the histogram
    hist(df$Voltage, col='orange', xlab='voltage', ylab='frequency', main='Voltage distribution')
    #adds the median line
    abline(v=median(df$Voltage), col='black', lwd='3')
    #adds the legend 
    legend(x='topright', c('median'),col = 'black', lwd = '3')
    
    Histogram In R

    In the above plot, you can see the ‘black’ line, which is actually showing the median. Through the histograms we can easily demonstrate the mean, median, and density curves as well.

    在上图中,您可以看到“黑”线,它实际上是显示中位数。 通过直方图,我们还可以轻松显示均值,中值和密度曲线。

    结论 (Conclusion)

    With the help of the Median() function, we can understand the central tendency of the data. Median is very easy to find in some cases, where you are able to tell the median value by just inspecting it.

    借助Median()函数,我们可以了解数据的集中趋势。 在某些情况下,很容易找到中值,您可以通过检查中值来判断中值。

    R offers great visualizing functions to understand the hidden data patterns. As shown above, you can easily analyze the median using the histogram and box plots.

    R提供了出色的可视化功能,以了解隐藏的数据模式。 如上所示,您可以使用直方图和箱形图轻松分析中位数

    That’s all for now. Connect with us for more R tutorials. Don’t hesitate to comment below if you have any queries. Happy learning!!!.

    目前为止就这样了。 与我们联系以获取更多R教程。 如有任何疑问,请在下面评论。 学习愉快!

    翻译自: https://www.journaldev.com/39066/find-the-median-in-r

    rstudio中位数的公式

    展开全文
  • 聚类算法优缺点分析

    千次阅读 2020-12-11 10:03:46
    分析 算法 定义 优点 缺点 Kmeans 简单、高效、快速收敛、当簇接近高斯分布式,聚类效果好 必须定义平均值,K事先给定,K的值影响聚类效果,对异常值影响大 DBSCAN 可以对任意形状进行聚类,对异常值不敏感 对簇密度...
  • SQL笔面试题:如何求取中位数

    千次阅读 2021-08-19 00:32:34
    公众号后台回复“图书“,了解更多号主新书内容 作者:胖里 来源: 胖里的日常 先来看看中位数的概念。中位数(Median)又称中值,统计学中的专有名词,是按顺序排...
  • ospf和rip 优缺点

    千次阅读 2021-01-12 07:18:14
    ospf和rip 优缺点ospf和rip比较:rip协议是距离矢量路由选择协议,它选择路由的度量标准(metric)是跳,最大跳是15跳,如果大于15跳,它就会丢弃数据包。ospf协议是链路状态路由选择协议,它选择路由的度量标准是...
  • 两个序列的中位数问题

    千次阅读 2019-06-27 15:22:57
    例如,若序列S1=(11,13,15,17,19)S_1=(11,13,15,17,19)S1​=(11,13,15,17,19),则S_1的中位数是15,两个序列的中位数是含他们所有元素的升序序列的中位数,例如,若S2=(2,4,6,8,20)S_2=(2,4,6,8,20)S2​=(...
  • 深入理解XGBoost,优缺点分析,原理推导及工程实现

    万次阅读 多人点赞 2019-12-26 20:04:00
    本文将从XGBoost的数学原理和工程实现上进行介绍,然后介绍XGBoost的优缺点,并在最后给出面试经常遇到的关于XGBoost的问题。 2. XGBoost的原理推导 2.1 从目标函数开始,生成一棵树 XGBoost和GBDT两者都是...
  • 空间统计之八:平均中心和中位数中心

    万次阅读 多人点赞 2015-08-17 15:33:23
    昨天讲了中心要素,因为中心要素是要从原来的要素去选择一个已有的,所以算出来的,与我们观念和感知的“中心”这个概念,还是差距很大,所以今天来讲讲这两种中心的计算方式和应用范围。   我们来看看三者...
  • 常见距离度量方法优缺点对比!

    千次阅读 2021-02-09 21:19:51
    曼哈顿距离公式为: 缺点 虽然曼哈顿距离对于高维数据似乎还不错,但它是一个比欧几里得距离更不直观的测量方法,尤其是在高维数据使用时。 而且,它比欧几里得距离更容易给出一个更高的距离值,因为它不可能是...
  • 均值、中位数中位数的概念以及优缺点对比。偏态分布难点分析,以及偏度、峰度计算公式。文末附相关学习链接。
  • 滤波算法及优缺点

    千次阅读 2020-12-03 17:54:56
    传感器比如关节力矩传感器采用滑动平均...对于AHRS传感器输出的数据是补码的形式,比方说是16必须赋值给short类型,且参与的变量为有符号,否则在接收于零时波形会畸变.  对于滑动平均滤波法,其缺点:灵敏度低,对...
  • 中位数和平均值

    万次阅读 2018-09-27 23:09:44
    部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。 3)众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最...
  • 一丶ArrayList ArrayList是动态扩展数组,底层是...1.当添加数据是在首插入时,先将新的数据放入到新的数组内,然后将原始的数据复制到新的数组。 2.当数据插入的位置是中间位置时,先将插入位置前面的...
  • Hadoop技术优缺点详解

    千次阅读 2019-09-10 21:00:14
    给大家介绍一下关于Hadoop技术的优缺点,目前我们正被数据包围,全球43亿部电话、20亿互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告...
  • kmeans-聚类,优缺点

    万次阅读 2019-07-18 20:17:59
     2)在确定了k的个数后,我们需要选择k个初始化的质心,就像上图b的随机质心。由于我们是启发式方法,k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择...
  • RAID模式优缺点

    千次阅读 2018-09-10 14:57:27
    一、RAID模式优缺点的简要介绍 目前被运用较多的RAID模式其优缺点大致是这样的: 1、RAID0模式 优点:在RAID 0状态下,存储数据被分割成两部分,分别存储在两块硬盘上,此时移动硬盘的理论存储速度是单块硬盘...
  • 箱形图的优缺点,python绘制箱形图

    千次阅读 2021-08-02 08:35:01
    箱型图不能精确地衡量数据分布的偏态和尾重程度,并且对于批量比较大的数据,其反映的信息更加模糊(如果一批数据用中位数代表总体评价水平不行的话,则其箱型图的表现也具有一定的局限性) 箱形图的五要素 箱形图...
  • 基于PC的工业控制系统的优缺点分析

    万次阅读 2016-03-16 18:32:08
    今天,这些竞争对手很容易接受PC机用于许多工业生产控制的现状,因为一个接一个的制造商已经在部分生产采用了PC控制方案。因此,传统上坚持PC是办公机器,不适合工厂灰尘环境的观点也会发生转变。  Beckhoff 是...
  • UART、I2C、SPI的优缺点和区别

    千次阅读 2021-04-01 20:03:39
    UART、I2C、SPI的优缺点和区别 协议 UART SPI I2C 总线 3(RX、TX、GND) 4(CS、CLK、MOSI、MISO) 4(VCC、GND、SCL、SDA) 同/异步 异步 同步 同步 全/半双工 半双工 全双工 半双工 传输速度 低 高...
  • 主流操作系统及其优缺点

    万次阅读 多人点赞 2019-06-09 21:07:00
    文章目录主流操作系统介绍目录如下:简介:更多信息中文名外文名英文简称组成部分主流操作系统及其优缺点:85~95年主要操作系统- DOSMS-DOS的发展历史MS-DOS 1.0MS-DOS 2.0MS-DOS 3.XMS-DOS 4.0MS-DOS 5.0MS...
  • 聚类总结:分类、优缺点、适用场景总结

    万次阅读 多人点赞 2020-05-26 23:11:50
    聚类指的是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,...
  • javascript优缺点

    千次阅读 2017-06-27 11:12:08
    4.常用JS框架介绍及其优缺点 (1).Jquery   <1>.介绍 JQuery 是一款同 prototype 一样优秀 js 开发库类,特别是对 css 和 XPath 的支持,使我们写 js 变得更加方便!如果你不是个 js 高手又想写出优秀的 js ...
  • 十大排序算法的实现以及各自的优缺点、适用情况

    千次阅读 多人点赞 2020-02-15 18:39:57
    学习排序算法的体会: 也许在一些题目我们可以轻松地用STL库的函数或者容器...我们有必要熟悉各种排序算法的实现以及他们的优缺点。 在说这些排序算法之前,我们先来看看真香的sort库函数究竟是由什么算法实现的...
  • RAID各个级别的优缺点

    千次阅读 2019-01-04 19:00:01
     校验码是由2块硬盘的chunk块按进行异或运算后而得的值;  其中1块硬盘坏了不影响文件数据读写操作,数据还可以恢复,但就是有些慢;即使坏了1块硬盘仍然继续在线工作时,称为降级模式,此时数据没有保障,...
  • MySQL在Docker部署的优缺点

    万次阅读 2021-12-01 17:44:34
    MySQL在Docker部署的优缺点 容器的定义:容器是为了解决“在切换运行环境时,如何保证软件能够正常运行”这一问题。 目前,容器和 Docker 依旧是技术领域最热门的词语,无状态的服务容器化已经是大势所趋,同时...
  • 六种电平转换的优缺点

    千次阅读 2022-01-09 15:12:36
    每个工程师都有自己的 一套转换方案,今天我们将5种电平转换的方法进行汇总,并且总结各种的劣势,避免设计过程踩坑。 一、电平转换方法 5种电平转换方法分别是: 晶体管电平转换方法; 专用电平转换芯片; 限流...
  • 概述 在安全领域,利用密钥加密算法来对通信的过程进行加密是一种常见的安全手段。...在加密传输最初是采用对称密钥方式,也就是加密和解密都用相同的密钥。 对称加密过程如下: 1.对称加密算法采用单密钥
  • 优点:在值的更改公开详细信息,或者在广泛数据类别公开地详细分解 缺点:流的许多值和变化导致复杂而且交叉的视觉效果,虽然很漂亮,但可能很难解释 03 条形图 表示类别之间关系(“分类数据”)的高度或...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 71,337
精华内容 28,534
关键字:

中位数的优缺点