精华内容
下载资源
问答
  • JS浮点数表示法
    千次阅读
    2019-03-04 09:55:41

    【前言】

        本文简单说下JS浮点数表示法(不精确)的解决方法

     

    【主体】

        Javascript采用了IEEE-745浮点数表示法,这是一种二进制表示法,可以精确地表示分数,比如1/2,1/8,1/1024。遗憾的是,我们常用的分数都是十进制分数1/10,1/100等,二进制浮点数表示法并不能精确的表示类似0.1这样的简单的数字。所以js浮点数运算会不精准。

        例如:

    js加法:9.3+0.3;//结果为9.600000000000001
    js加法:9.3-0.7;//结果为8.600000000000001
    js乘法:7*0.8;//结果为5.6000000000000005
    js除法:9.3/0.3;//结果为31.000000000000004

        解决办法:把浮点数先转换为整数再运算,运算后再对结果转换为小数

     

       我们一般会重写js的四则运算:

    //JS加法函数
    function accAdd(arg1,arg2){
      var r1,r2,m;
      try{r1=arg1.toString().split()[1].length}catch(e){r1=0}
      try{r2=arg2.toString().split()[1].length}catch(e){r2=0}
      m=Math.pow(10,Math.max(r1,r2))
      return (arg1*m+arg2*m)/m
    }
    
    //JS减法函数
    function Subtr(arg1,arg2){
      var r1,r2,m,n;
      try{r1=arg1.toString().split()[1].length}catch(e){r1=0}
      try{r2=arg2.toString().split()[1].length}catch(e){r2=0}
      m=Math.pow(10,Math.max(r1,r2));
      //动态控制精度长度
      n=(r1>=r2)?r1:r2;
      return ((arg1*m-arg2*m)/m).toFixed(n);
    }
    
    //JS乘法函数
    function accMul(arg1,arg2){
      var m=0,s1=arg1.toString(),s2=arg2.toString();
      try{m+=s1.split()[1].length}catch(e){}
      try{m+=s2.split()[1].length}catch(e){}
      return Number(s1.replace(,))*Number(s2.replace(,))/Math.pow(10,m)
    }
    
    //JS除法函数
    function accDiv(arg1,arg2){
      var t1=0,t2=0,r1,r2;
      try{t1=arg1.toString().split()[1].length}catch(e){}
      try{t2=arg2.toString().split()[1].length}catch(e){}
      with(Math){
        r1=Number(arg1.toString().replace(,))
        r2=Number(arg2.toString().replace(,))
        return (r1/r2)*pow(10,t2-t1);
      }
    }

     

     

    .

    更多相关内容
  • 32位单精度浮点数表示法

    万次阅读 2017-12-19 16:28:58
    32位单精度浮点数表示法

    32位单精度浮点数表示法






    展开全文
  • IEEE制定的浮点数表示法

    万次阅读 2016-04-09 15:33:46
    目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的...
    

    基础知识:

    十进制转十六进制;

    十六进制转二进制;

    IEEE制定的浮点数表示规则;

    了解:

    目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格:
                
    符号位     阶码      尾数     长度
    float           1          8        23      32
    double          1         11        52      64

     

    以下通过几个例子讲解浮点数如何转换为二进制数

    例一:

    已知:double类型38414.4

    求:其对应的二进制表示。

    分析:double类型共计64位,折合8字节。由最高到最低位分别是第636261……0位:
        
    最高位63位是符号位,1表示该数为负,0表示该数为正;
        62-52
    位,一共11位是指数位;
        51-0
    位,一共52位是尾数位。

        
    步骤:按照IEEE浮点数表示法,下面先把38414.4转换为十六进制数。
         
    把整数部和小数部分开处理:整数部直接化十六进制:960E。小数的处理:
    0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……
        
    实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。隐藏位技术:最高位的1不写入内存(最终保留下来的还是52位)。
        
    如果你够耐心,手工算到53位那么因该是:38414.4(10)=1001011000001110.
    0110011001100110011001100110011001100(2)

    科学记数法为:1.001011000001110 0110011001100110011001100110011001100,右移了15位,所以指数为15。或者可以如下理解:

    1.001011000001110 0110011001100110011001100110011001100×2^15
        
    于是来看阶码,按IEEE标准一共11位,可以表示范围是-1024 ~ 1023。因为指数可以为负,为了便于计算,规定都先加上1023(2^10-1),在这里,阶码:15+1023=1038。二进制表示为:100 00001110
        
    符号位:因为38414.4为正对应 0
        
    合在一起(注:尾数二进制最高位的1不要):
    01000000 11100010 11000001 110
    01100  11001100  11001100  11001100  11001100

     

    例二:

    已知:整数3490593(16进制表示为0x354321)

    求:其对应的浮点数3490593.0的二进制表示。 

    解法如下:

    先求出整数3490593的二进制表示:

     H:    3     5    4    3    2     1   (十六进制表示)

     B:   0011  0101 0100 0011 0010  0001 (二进制表示)

            │←─────  21────→│

     

    即: 

                   1.1010101000011001000012×221

    可见,从左算起第一个121位,我们将这21为作为浮点数的小数表示,单精度浮点数float由符号位1位,指数域位k=8位,小数域位(尾数)n=23位构成,因此对上面得到的21位小数位我们还需要补上20,得到浮点数的小数域表示为:

             1 0101 0100 0011 0010 0001 00

     

    float类型的偏置量Bias=2k-1-1=28-1-1=127,但还要补上刚才因为右移作为小数部分的21位,因此偏置量为127+21=148,就是IEEE浮点数表示标准:

                              V = (-1)s×M×2E

                        E = e-Bias

    中的e,此前计算Bias=127,刚好验证了E=148-127=21

     

    148转为二进制表示为10010100,加上符号位0,最后得到二进制浮点数表示1001010010101010000110010000100,其16进制表示为:

     H:     4        A       5          5         0         C         8        4  

     B:  0100   1010   0101    0101   0000   1100  1000   0100

                        |←────      21        ─────→   |

         1|←─8   ─→||←─────       23       ─────→ |

     

    这就是浮点数3490593.0(0x4A550C84)的二进制表示。

     

    例三:

    0.5的二进制形式是0.1

    它用浮点数的形式写出来是如下格式

     

    0                01111110                 00000000000000000000000


    符号位           阶码                       小数位

    正数符号位为0,负数符号位为1

    阶码是以2为底的指数

    小数位表示小数点后面的数字


    下面我们来分析一下0.5是如何写成0 01111110 00000000000000000000000


    首先0.5是正数所以符号位为0

    再来看阶码部分,0.5的二进制数是0.1,0.11.0*2^(-1),所以我们总结出来:

    要把二进制数变成(1.f)*2^(exponent)的形式,其中exponent是指数

    而由于阶码有正负之分所以阶码=127+exponent;

    即阶码=127+(-1)=126 01111110

    余下的小数位为二进制小数点后面的数字,00000000000000000000000


    由以上分析得0.5的浮点数存储形式为0 01111110 00000000000000000000000  

    注:如果只有小数部分,那么需要右移小数点. 比如右移3位才能放到第一个1的后面, 阶码就是127-3=124.

    例四   (20.59375)10 =(10100.10011 2

    首先分别将整数和分数部分转换成二进制数:

    20.59375
    10100.10011

    然后移动小数点,使其在第12位之间

    10100.10011
    1.010010011×2^4   e4

    于是得到:

    S
    0 E4127131 M010010011

    最后得到32位浮点数的二进制存储格式为:

    0100 1001 1010 0100 1100 0000 0000 0000
    (41A4C000)16

     

     

    例五:
    -12.5转为单精度二进制表示
    12.5:
    1.
    整数部分12,二进制为1100; 小数部分0.5, 二进制是.1,先把他们连起来,从第一个1数起取24位(后面补0):
    1100.10000000000000000000
    这部分是有效数字。(把小数点前后两部分连起来再取掉头前的1,就是尾数)
    2.
    把小数点移到第一个1的后面,需要左移3位(1.10010000000000000000000*2^3, 加上偏移量127127+3=130,二进制是10000010,这是阶码。
    3. -12.5
    是负数,所以符号位是1。把符号位,阶码和尾数连起来。注意,尾数的第一位总是1,所以规定不存这一位的1,只取后23位:
    1 10000010 10010000000000000000000
    把这32位按8位一节整理一下,得:
    11000001 01001000 00000000 00000000
    就是十六进制的 C1480000.

    例六:

    2.025675
    1.
    整数部分2,二进制为10; 小数部分0.025675, 二进制是.0000011010010010101001,先把他们连起来,从第一个1数起取24位(后面补0):
    10.0000011010010010101001
    这部分是有效数字。把小数点前后两部分连起来再取掉头前的1,就是尾数: 00000011010010010101001
    2.
    把小数点移到第一个1的后面,左移了1, 加上偏移量127127+1=128,二进制是10000000,这是阶码。
    3. 2.025675
    是正数,所以符号位是0。把符号位,阶码和尾数连起来:
    0 10000000 00000011010010010101001
    把这32位按8位一节整理一下,得:
    01000000 00000001 10100100 10101001
    就是十六进制的 4001A4A9. 


    例七:
    (
    逆向求十进制整数)一个浮点二进制数手工转换成十进制数的例子:
    假设浮点二进制数是 1011 1101 0100 0000 0000 0000 0000 0000
    1823位分成三段:
    1 01111010 10000000000000000000000
    最后一段是尾数。前面加上"1.", 就是 1.10000000000000000000000
    下面确定小数点位置。由
    E = e-Bias阶码E01111010,加上00000101才是01111111127),
    所以他减去127的偏移量得e=-5。(或者化成十进制得122122-127=-5)。
    因此尾数1.10(后面的0不写了)是小数点右移5位的结果。要复原它就要左移5位小数点,得0.0000110, 即十进制的0.046875
    最后是符号:1代表负数,所以最后的结果是 -0.046875

    注意:其他机器的浮点数表示方法可能与此不同. 不能任意移植

     

    再看一例(类似例七)

    比如:53004d3e

    二进制表示为:

    01010011000000000100110100111110

    按照1个符号    8个指数          23个小数位划分

    0              10100110         00000000100110100111110

    正确的结果转出来应该是551051722752.0

    该怎么算?

    好,我们根据IEEE的浮点数表示规则划分,得到这个浮点数的小数位是:

     00000000100110100111110

    那么它的二进制表示就应该是:

    1.000000001001101001111102 × 239

    这是怎么来的呢? 别急,听我慢慢道来。
    标准化公式中的M要求在规格化的情况下,取值范围1<M<(2-ε)

    正因为如此,我们才需要对原始的整数二进制表示做偏移,偏移多少呢?偏移2E
    这个“E”怎么算?上面的239怎么得来的呢?浮点数表示中的8位指数为就是告诉这个的。我们知道:
    E = e-Bias
    那么根据指数位:

    101001102=>16610
    e=166,由此算出E=e-Bias=166-127=39,就是说将整数二进制表示转为标准的浮点数二进制表示的时候需要将小数点左移39位,好,我们现在把它还原得到整数的二进制表示:

    1 00000000100110100111110 0000000000000000

    1│←───── 23─────→│← 16─→│

    23+16=39
    ,后面接着就是小数点了。
    拿出计算器,输入二进制数1000000001001101001111100000000000000000
    转为十进制数,不正是:551051722752么!基础知识:

    十进制转十六进制;

    十六进制转二进制;

    IEEE制定的浮点数表示规则;


    了解:

    目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格:
    符号位 阶码 尾数 长度
    float 1 8 23 32
    double 1 11 52 64



    以下通过几个例子讲解浮点数如何转换为二进制数

    例一:

    已知:double类型38414.4。

    求:其对应的二进制表示。

    分析:double类型共计64位,折合8字节。由最高到最低位分别是第63、62、61、……、0位:
    最高位63位是符号位,1表示该数为负,0表示该数为正;
    62-52位,一共11位是指数位;
    51-0位,一共52位是尾数位。

    步骤:按照IEEE浮点数表示法,下面先把38414.4转换为十六进制数。
    把整数部和小数部分开处理:整数部直接化十六进制:960E。小数的处理:
    0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……
    实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。隐藏位技术:最高位的1不写入内存(最终保留下来的还是52位)。
    如果你够耐心,手工算到53位那么因该是:38414.4(10)=1001011000001110.0110011001100110011001100110011001100(2)

    科学记数法为:1.001011000001110 0110011001100110011001100110011001100,右移了15位,所以指数为15。或者可以如下理解:

    1.001011000001110 0110011001100110011001100110011001100×2^15
    于是来看阶码,按IEEE标准一共11位,可以表示范围是-1024 ~ 1023。因为指数可以为负,为了便于计算,规定都先加上1023(2^10-1),在这里,阶码:15+1023=1038。二进制表示为:100 00001110;
    符号位:因为38414.4为正对应 为0;
    合在一起(注:尾数二进制最高位的1不要):
    01000000 11100010 11000001 110 01100 11001100 11001100 11001100 11001100



    例二:

    已知:整数3490593(16进制表示为0x354321)。

    求:其对应的浮点数3490593.0的二进制表示。

    解法如下:

    先求出整数3490593的二进制表示:

    H: 3 5 4 3 2 1 (十六进制表示)

    B: 0011 0101 0100 0011 0010 0001 (二进制表示)

    │←───── 21────→│



    即:

    1.1010101000011001000012×221

    可见,从左算起第一个1后有21位,我们将这21为作为浮点数的小数表示,单精度浮点数float由符号位1位,指数域位k=8位,小数域位(尾数)n=23位构成,因此对上面得到的21位小数位我们还需要补上2个0,得到浮点数的小数域表示为:

    1 0101 0100 0011 0010 0001 00



    float类型的偏置量Bias=2k-1-1=28-1-1=127,但还要补上刚才因为右移作为小数部分的21位,因此偏置量为127+21=148,就是IEEE浮点数表示标准:

    V = (-1)s×M×2E

    E = e-Bias

    中的e,此前计算Bias=127,刚好验证了E=148-127=21。



    将148转为二进制表示为10010100,加上符号位0,最后得到二进制浮点数表示1001010010101010000110010000100,其16进制表示为:

    H: 4 A 5 5 0 C 8 4

    B: 0100 1010 0101 0101 0000 1100 1000 0100

    |←──── 21 ─────→ |

    1|←─8 ─→||←───── 23 ─────→ |



    这就是浮点数3490593.0(0x4A550C84)的二进制表示。



    例三:

    0.5的二进制形式是0.1

    它用浮点数的形式写出来是如下格式



    0 01111110 00000000000000000000000


    符号位 阶码 小数位

    正数符号位为0,负数符号位为1

    阶码是以2为底的指数

    小数位表示小数点后面的数字


    下面我们来分析一下0.5是如何写成0 01111110 00000000000000000000000


    首先0.5是正数所以符号位为0

    再来看阶码部分,0.5的二进制数是0.1,而0.1是1.0*2^(-1),所以我们总结出来:

    要把二进制数变成(1.f)*2^(exponent)的形式,其中exponent是指数

    而由于阶码有正负之分所以阶码=127+exponent;

    即阶码=127+(-1)=126 即 01111110

    余下的小数位为二进制小数点后面的数字,即00000000000000000000000


    由以上分析得0.5的浮点数存储形式为0 01111110 00000000000000000000000

    注:如果只有小数部分,那么需要右移小数点. 比如右移3位才能放到第一个1的后面, 阶码就是127-3=124.

    例四 (20.59375)10 =(10100.10011 )2

    首先分别将整数和分数部分转换成二进制数:

    20.59375=10100.10011

    然后移动小数点,使其在第1,2位之间

    10100.10011=1.010010011×2^4 即e=4

    于是得到:

    S=0, E=4+127=131, M=010010011

    最后得到32位浮点数的二进制存储格式为:

    0100 1001 1010 0100 1100 0000 0000 0000=(41A4C000)16





    例五:
    -12.5转为单精度二进制表示
    12.5:
    1. 整数部分12,二进制为1100; 小数部分0.5, 二进制是.1,先把他们连起来,从第一个1数起取24位(后面补0):
    1100.10000000000000000000
    这部分是有效数字。(把小数点前后两部分连起来再取掉头前的1,就是尾数)
    2. 把小数点移到第一个1的后面,需要左移3位(1.10010000000000000000000*2^3), 加上偏移量127:127+3=130,二进制是10000010,这是阶码。
    3. -12.5是负数,所以符号位是1。把符号位,阶码和尾数连起来。注意,尾数的第一位总是1,所以规定不存这一位的1,只取后23位:
    1 10000010 10010000000000000000000
    把这32位按8位一节整理一下,得:
    11000001 01001000 00000000 00000000
    就是十六进制的 C1480000.

    例六:

    2.025675
    1. 整数部分2,二进制为10; 小数部分0.025675, 二进制是.0000011010010010101001,先把他们连起来,从第一个1数起取24位(后面补0):
    10.0000011010010010101001
    这部分是有效数字。把小数点前后两部分连起来再取掉头前的1,就是尾数: 00000011010010010101001
    2. 把小数点移到第一个1的后面,左移了1位, 加上偏移量127:127+1=128,二进制是10000000,这是阶码。
    3. 2.025675是正数,所以符号位是0。把符号位,阶码和尾数连起来:
    0 10000000 00000011010010010101001
    把这32位按8位一节整理一下,得:
    01000000 00000001 10100100 10101001
    就是十六进制的 4001A4A9.




    例七:
    (逆向求十进制整数)一个浮点二进制数手工转换成十进制数的例子:
    假设浮点二进制数是 1011 1101 0100 0000 0000 0000 0000 0000
    按1,8,23位分成三段:
    1 01111010 10000000000000000000000
    最后一段是尾数。前面加上"1.", 就是 1.10000000000000000000000
    下面确定小数点位置。由E = e-Bias,阶码E是01111010,加上00000101才是01111111(127),
    所以他减去127的偏移量得e=-5。(或者化成十进制得122,122-127=-5)。
    因此尾数1.10(后面的0不写了)是小数点右移5位的结果。要复原它就要左移5位小数点,得0.0000110, 即十进制的0.046875 。
    最后是符号:1代表负数,所以最后的结果是 -0.046875 。

    注意:其他机器的浮点数表示方法可能与此不同. 不能任意移植。



    再看一例(类似例七):

    比如:53004d3e

    二进制表示为:

    01010011000000000100110100111110

    按照1个符号 8个指数 23个小数位划分

    0 10100110 00000000100110100111110

    正确的结果转出来应该是551051722752.0

    该怎么算?

    好,我们根据IEEE的浮点数表示规则划分,得到这个浮点数的小数位是:

    00000000100110100111110

    那么它的二进制表示就应该是:

    1.000000001001101001111102 × 239

    这是怎么来的呢? 别急,听我慢慢道来。
    标准化公式中的M要求在规格化的情况下,取值范围1<M<(2-ε)

    正因为如此,我们才需要对原始的整数二进制表示做偏移,偏移多少呢?偏移2E。
    这个“E”怎么算?上面的239怎么得来的呢?浮点数表示中的8位指数为就是告诉这个的。我们知道:
    E = e-Bias
    那么根据指数位:

    101001102=>16610
    即e=166,由此算出E=e-Bias=166-127=39,就是说将整数二进制表示转为标准的浮点数二进制表示的时候需要将小数点左移39位,好,我们现在把它还原得到整数的二进制表示:

    1 00000000100110100111110 0000000000000000

    1│←───── 23─────→│← 16─→│

    23+16=39,后面接着就是小数点了。
    拿出计算器,输入二进制数1000000001001101001111100000000000000000
    转为十进制数,不正是:551051722752么!


    展开全文
  • 浮点数表示方法

    万次阅读 多人点赞 2018-12-11 21:01:06
    浮点数表示  浮点数是一种 公式化 的表达方式,用来近似表示实数,并且可以在表达范围和表示精度之间进行权衡(因此被称为浮点数)。 浮点数通常被表示为: N=M×R^E 比如: 12.345=1.2345×10^1 其中,...

    之前的一些工作当中碰到了很多有关浮点数的问题,比如浮点数的表达范围、表达精度、浮点数的存储方式、浮点数的强制类型转换等等,因此感觉有必要系统了解一下有关浮点数的问题。

    浮点数表示 

    浮点数是一种 公式化 的表达方式,用来近似表示实数,并且可以在表达范围和表示精度之间进行权衡(因此被称为浮点数)。

    浮点数通常被表示为:

    N=M×R^E

    比如: 12.345=1.2345×10^1

    其中,M(Mantissa)被称为浮点数的 尾数 ,R(Radix)被称为阶码的 基数 ,E(Exponent)被称为阶的 阶码 。计算机中一般规定R为2、8或16,是一个确定的常数,不需要在浮点数中明确表示出来。

    因此,在已知标准下,要表示浮点数,

    一是要给出尾数M的值,通常用定点小数形式表示,它决定了浮点数的表示精度,即可以给出的有效数字的位数。

    二是要给出阶码,通常用定点整数形式表示,它指出的是小数点在数据中的位置,决定了浮点数的表示范围。因此,在计算机中,浮点数通常被表示成如下格式:(假定为32位浮点数,基为2,其中最高位为符号位)

    浮点数

    浮点数的规格化表示 

    按照上面的指数表示方法,一个浮点数会有不同的表示:

    0.3×10^0;0.03×10^1;0.003×10^2;0.0003×10^3;

    为了提高数据的表示精度同时保证数据表示的唯一性,需要对浮点数做规格化处理。

    在计算机内,对非0值的浮点数,要求尾数的绝对值必须大于基数的倒数,即|M|≥1/R。

    即要求尾数域的最高有效位应为1,称满足这种表示要求的浮点数为规格化表示:把不满足这一表示要求的尾数,变成满足这一要求的尾数的操作过程,叫作浮点数的规格化处理,通过尾数移位和修改阶码实现。

    比如,二进制原码的规格化数的表现形式:(0正1负)

    正数 0.1xxxxxx

    负数 1.1xxxxxx

    注意,尾数的最高位始终是1,因此我们完全可以省略掉该位。

    至此,我们引入IEEE754 标准,该标准约束了浮点数的大部分使用设置:(尾数用原码;阶码用“移码”;基为2)

    (1) 尾数用原码,且隐藏尾数最高位。

    原码非0值浮点数的尾数数值最高位必定为 1,因此可以忽略掉该位,这样用同样多的位数就能多存一位二进制数,有利于提高数据表示精度,称这种处理方案使用了隐藏位技术。当然,在取回这样的浮点数到运算器执行运算时,必须先恢复该隐藏位。

    (2) 阶码使用“移码”,基固定为2

    如下图的32bit浮点数和64bit浮点数,从最高位依次是符号位、阶码和尾数 

    float
    于是,

    一个规格化的32位浮点数x的真值为:

    x=(−1)^s×(1.M)×2E^−127

    一个规格化的64位浮点数x的真值为:

    x=(−1)^s×(1.M)×2E^−1023

    下面举一个32位单精度浮点数-3.75表示的例子帮助理解:

    (1) 首先转化为2进制表示

    −3.75=−(2+1+1/2+1/4)=−1.111×2^1

    (2) 整理符号位并进行规格化表示

    −1.111×2^1=(−1)^(1)×(1+0.1110 0000 0000 0000 0000 000)×2^1

    (3) 进行阶码的移码处理 
    (−1)^(1)×(1+0.1110 0000 0000 0000 0000 000)×2^1
     
    =(−1)^(1)×(1+0.1110 0000 0000 0000 0000 000)×2^(128−127)

    于是,符号位S=1,尾数M为1110 0000 0000 0000 0000 000
    阶码E为12810=1000 00002
    ,则最终的32位单精度浮点数为

    1 1110 0000 0000 0000 0000 000 1000 0000

    浮点数的表示范围 

    通过上面的规格化表示,我们可以很容易确定浮点数的表示范围:

    float range

    既然有表示范围,那肯定也有不能表示的数值: 
    首先来说明溢出值,如下图: 

    float overflow


    (1)无穷值:

    如果指数E=11111111(2)=255(10)
    且尾数M=0
    ,则根据符号位S分别表示+∞
    和−∞
    。因此,一个有效的32位浮点数其指数最大只能为254。

    此外,无穷具有传递性,比如

    (+∞) + (+7) = (+∞)

    (+∞) × (−2) = (−∞)

    (+∞) × 0 = NaN

    (2)零值:

    如果指数E=0
    且尾数M=0
    时,表示机器0.需要注意的是,这里的0也是有符号的,在数值比较的时候 +0=−0
    ; 但在一些特殊操作下,二者并不显相等,比如log(x), 1/+0≠1/−0。

    此外,处于负下溢出和负上溢出之间的数值会被直接归为0。

    (3)NAN:

    如果E=0,且尾数M≠0,则表示这个值不是一个真正的值(Not A Number)。NAN又分成两类:QNAN(Quiet NAN)和SNAN(Singaling NAN)。QNAN与SNAN的不同之处在于,QNAN的尾数部分最高位定义为1,SNAN最高位定义为0;QNAN一般表示未定义的算术运算结果,如0/0, ∞×0, sqrt(−1);SNAN一般被用于标记未初始化的值,以此来捕获异常。

    浮点数的表示精度

    一般提到浮点数的精度(有效位数)的时候,总是会出现 float的有效位为6~7位, double的有效位为15~16位 。

    下面以float为例,解释一下有效位数是怎样来的。

    有效位数只和规格化浮点数的尾数部分有关,而尾数部分的位数是23位,因此我们首先列出下表

    float overflow

    由上面的表格可以看出:

    2^−23 和 2^−22 之间是存在间隔的,即0.0000001和0.0000002之间的小数我们是没有办法描述的,因此23位尾数最多只能描述到小数点后第7位;此外,我们通过四舍五入可以很容易发现0.0000003=0.0000004=2^−23+2^−22
    , 这表明第7位有效数字只是部分准确。而第6位及之前的都是可以准确描述的,因此我们说float的有效位为6~7位。

     参考资料 

    (1) WIKI 词条 “Floating Point”: https://en.wikipedia.org/wiki/Floating_point

    (2) WIKI 词条 “IEEE floating point”: https://en.wikipedia.org/wiki/IEEE_floating_point

    (2) 浮点异常值:NAN,QNAN,SNAN: 
    http://www.cnblogs.com/konlil/archive/2011/07/06/2099646.html
    --------------------- 
    作者:shuzfan 
    来源:CSDN 
    原文:https://blog.csdn.net/shuzfan/article/details/53814424 

    展开全文
  • 参考资料: 计算机组成原理 唐朔飞 哈工大计算机组成原理课程
  • 浮点数表示方法

    万次阅读 多人点赞 2019-02-13 23:44:28
    这种把数的范围和精度分别表示的方法,相当于数的小数点位置随比例因子的不同而在一定范围内可以自由浮动,所以称为浮点表示法。 在计算机中一个任意二进制数N可以写成: N=2^e.M 其中M称为浮点数的尾数,是一个纯...
  • 目前已知的所有的C/C++编译器都是按照IEEE (国际电子电器工程师协会)制定的IEEE 浮点数表示法来进行运算的。这种结构是一种科学表示法,用符号(正或负)、指数和尾数来表示,底数被确定为2,也就是说是把一个...
  • 1.2.2 浮点数表示 1 符号位 2价码位 1.2.3 加减运算 1.2.4 浮点数的使用 1.2浮点数 浮点数是采用科学计数来表示的,由符号位、有效数字、指数三部分组成。使用浮点数存储和计算的场景无处不在,若使 用...
  • 浮点数运算模拟

    2015-06-28 12:24:21
    模拟计算机中浮点数的除运算,采用二进制表示,符合IEEE7标准
  • 凌宇 在www.360doc.com中转帖【IEEE浮点数表示法】,经过仔细研究,终于有点心得了。 float转十六进制: 16进制浮点数的表示方法,根据IEEE的标准,分为32位和64位两种,参数分别如下:   符号...
  • 计算机实数表示法---浮点数(一)

    千次阅读 2019-02-20 20:12:00
    以上是单精度浮点数表示规则,下面着重说明某些特殊值的表示: 1、0有正0和负0分别表示为0_00000000_00000000000000000000000,1_00000000_00000000000000000000000 2、无穷大和无穷小分别表示为1.0f/0.0f...
  • IEEE浮点数表示

    万次阅读 2017-09-29 18:10:15
    3.阶码(exponent)E对浮点数加权。 单精度,双精度的表示如下: exp为阶码,frac为尾数 给定了位表示,根据exp的值,被编码的值可以分为三种情况: 规格化的表示一般的数,非规格化的表示
  • 浮点数表示法

    千次阅读 2011-05-02 20:35:00
    定点数表示法 •定点数表示法通常把小数点固定在数值部分的最高位之前, 或把小数点固定在数值部分的最后。前者用来表示纯小数, 后者用于表示整数。如图3-3所示。 •在计算机中, 图示的小数点“.”实际上是不表示...
  • 浮点数表示和精度如果a>0,那么1+a一定大于1吗?在数学上,答案是肯定的。但在计算机上,答案就与a的大小和浮点数的精度有关了。在matalb上,可以作以下计算:>> a=1/2^52a =2.220446049250313e-016>&...
  • 8位浮点数表示法

    2021-09-21 21:41:53
    IEEE754规范中只定义了32位(float)和64位(double)浮点的表示法,好像还有扩展的16位、128位的浮点数表示法,但用的场景不多。 8位浮点数表示法,并没有相关规范,详细内容搜索IEEE754规范,并仔细阅读。 /// +----+-...
  • IEEE标准:浮点数表示

    千次阅读 2020-08-16 22:27:26
    目录一,表示形式二,浮点数格式三,计算 e、m 一,表示形式 从表面上看,浮点数也是一串0和1构成的位序列。IEEE标准从逻辑上用三元组{S,E,M}表示一个数N,如下图所示: N的实际值n由下列式子表示: 其中:  ★ n,s...
  • 定点数和浮点数表示

    千次阅读 2020-07-29 20:44:36
    计算机中常用的数据表示格式有两种,一种是定点格式,二是浮点格式。定点数和浮点数的意思是,小数点的位置是固定的还是浮动的。一般来说定点格式能表示的数值范围有限,单要求处理的硬件简单一些。浮点格式能表示的...
  • 计算机中浮点数表示方法 http://cenalulu.github.io/linux/about-denormalized-float-number/ 可以在这个网址验证自己的想法 https://www.h-schmidt.net/FloatConverter/IEEE754.html ...
  • 计算机中浮点数表示

    2021-09-01 15:26:59
    浮点数表示 浮点数在计算机中由符号位、指数和尾数组合而成。 通常,浮点数表示为如下形式: F为小数(尾数)字段值,E为指数字段值。 溢出(浮点的上溢):正的指数太大而超过了指数字段的表示范围。 下溢:...
  •   在这个标准中,任意一个二进制浮点数 V 可以表示成下面这样的形式:   1. (-1)^s 表示符号位,当 s = 0 时, V 为正, s = 1 时,V 为负   2. M 表示有效数字,1 <= M < 2   3. E 表示指数,如 2^E ...
  • 计算机二进制的浮点表示法

    千次阅读 2021-05-02 10:55:48
    计算机二进制的浮点表示法 0.1 * 3 != 0.3 组成: 符号位: 0表示正、1表示负; 指数位: 2的n次方,n+127(对于4字节浮点数,此处为127)再换算成二进制; 尾数位: 直接用. 过程: 将整数部分换算成二进制; 小数部分...
  • 具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学记数。浮点计算是指浮点数参与的运算,这种运算通常伴随着因为无法精确表示而进行...
  • IEEE浮点数表示法

    千次阅读 2004-11-01 20:00:00
    IEEE浮点数表示法中,一个float数以32位存储,具体分配是: 31位:符号位 30-23位:指数位 22-0:数位 也就是说,只能有23位用来存数(实际可存24位二进制数,因为首位总是1可以略去),而12345678900转成二进制后有...
  • 第一次写博客,没什么经验,会保持更新的,文章也会不断优化的,请大家多多指教 整数表示 现代计算机存储和处理的信息以二值表示...下表为十六进制、十进制、和二进制的对应表示法。 十六进制 0 1 2 3 4 5 6 ...
  • python中的浮点数range方法

    千次阅读 2020-12-18 08:52:04
    我们知道python中有个range函数用来产生一个范围内的数字数组,但是浮点数没有,我们来定义一个#python中的range函数支持步进,如下:>>> print range(2,15,3)[2, 5, 8, 11, 14]#但是浮点数不支持range函数...
  • 《计算机系统》 这些课程的小伙伴们应该都知道,浮点数在计算机中的存储方式遵循IEEE 754 浮点数计数标准,可以表示为: 图片采用尾数 + 阶码的编码方式,更通俗一点说,就是类似于数学课本上所学的科学计数法表示...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 98,255
精华内容 39,302
关键字:

浮点数表示法

友情链接: HibraryLibrary.rar