单精度浮点数(Float)与双精度浮点数(Double)
前言
对于十进制的整数使用二进制表示很简单,但是对于十进制小数如何使用二进制进行存储?十进制的小数又何如使用二进制小数表示?此文章描述了如何将十进制小数转换为二进制小数以及浮点数再内存中时如何进行存储。
二进制小数
在计算机中,无论什么数据,最终存储都为二进制,对于整数部分很容易表示,但是对于非整数则比较困难。例如,十进制数0.125可表示为二进制0.001,怎么得来的?简单的计算可以用0.125不断乘2,结果小于1将二进制位记为0,结果大于1时将二进制位记为1:
0.125 * 2 = 0.25 二进制位记作 0
0.25 * 2 = 0.5 二进制位记作 0
0.5 * 2 = 1 二进制位记作 1
所以得出结果为0.001
另外可以把可以把十进制数0.125看做1/2/2/2 = 1*2^-3,十进制1换算为二进制还为1,二进制的负指数则相当于二进制数1右移位,用2的指数记为2^-3。
上面的例子因为能够用2的指数表示,所以能够被二进制精确的表达,但是有些情况,则无法使用二进制准确表达,例如一个人尽皆知的例子:十进制数0.1如何使用二进制表达?你会发现你无法用2的指数去表达它,即使用我们上面的计算方法:
0.1 * 2 = 0.2 二进制位记作 0
0.2 * 2 = 0.4 二进制位记作 0
0.4 * 2 = 0.8 二进制位记作 0
0.8 * 2 = 1.6 二进制位记作 1
0.6 * 2 = 1.2 二进制位记作 1
0.2 * 2 = 0.4 二进制位记作 0
0.4 * 2 = 0.8 二进制位记作 0
0.8 * 2 = 1.6 二进制位记作 1
...
你会发现,它会无穷无尽的循环0.0001100110011...,这便是为何无法使用二进制数精确表达十进制小数。类似于使用十进制数也无法精确表达⅓,永远是0.33333333...。
浮点数
浮点数是相对于定点数而言的。
十进制数1234用科学计数法可写作:1.234*10^3,类似的,可用二进制表示为0.10011010010*2^11,我们称10011010010为尾数(mantissa/fraction),2称为基数(Radix),11则称之为指数(Exponent)。如此,小数点的位置根据指数的不同而浮动,称为浮点数。
那么在内存中,是如何使用二进制表示小数?IEEE_754对此进行了标准化。
单精度浮点数(Float)
单精度浮点数的存储使用32位二进制数,最高位31是符号位,用来表示正负数,23-30存储指数,低位0-22存储尾数。
需要注意的是,指数位的存储有两种方式:
- 一种为有符号整数,意为有
1位用来存储是正指数还是负指数。 - 另外一种情况存储为无符号整数,使用指数偏移量来计算是正指数还是负指数,例如,单进度浮点数的指数偏移量为
127,意味着所存储的指数需要减去127,得出的结果便是正确的指数。
另外关于尾数的存储,在正规数(normal numbers)的情况下,二进制小数的表示总是以1.x开头,例如二进制数1001会表示为1.001*2^3而不是0.1001*2^4或0.01001*2^5。这在存储时则可省略开头的1,上面的1001则可存储为001且指数为3。
我们看一个具体的例子:十进制数0.15625

符号(Sign):0
指数(Exponent):偏移量计算方法,实际上我们应当存储的是-3指数,
用偏移量则为 127 - 3 = 124 转换为二进制为 0111 1100
尾数(Fraction):按照上面的十进制小数计算二进制小数得出0.00101 = 1.01 * 2^-3,
去除前导1和指数得出尾数 = 01
双精度浮点数(Double)
双精度浮点数的计算类似于单精度浮点数,只不过存储大了一倍,它使用64位二进制数进行存储,与单精度浮点数相似,最高位63是符号位,用来表示正负数,52-62存储指数,低位0-51存储尾数,它的指数偏移为1023。

其它值
无论是单精度还是双精度浮点数,都存在一些特殊的值,例如次正规数(subnormal numbers)和0以及±无穷大的数,还有无法正确转换的值NaN。
结尾
精度越高的存储所需要的存储空间是越大的,当尾数过大无法存储时,根据IEEE_754标准进行丢失精度的舍入。
Reference
- IEEE_754
- Single-precision floating-point format
- Double-precision floating-point format
- Binary floating point and .NET
- How to get the sign, mantissa and exponent of a floating point number
- Floating point data types
- Why do higher-precision floating point formats have so many exponent bits?
- 浮点数
- How to convert float number to Binary?
- IEEE-754 Floating Point Converter