FP4¶

说明¶

该数据格式为 4位低精度浮点数表示格式，遵循IEEE 754-2008标准规范。

FP4包含E2M1和E1M2两种存储结构。

FP4-E2M1的二进制结构包含1bit符号位、2bit指数和1bit尾数，简写为E2M1。示意图如下：

e2m1

FP4-E2M1的指数偏移为1，可以表达的数值通过公式定义如下。

1.对于规格化浮点数： $$ Value = (−1)^S x 2^{E−1} x (1 + m_0 x 2^{-1}) $$

2.对于非规格化浮点数： $$ Value = (−1)^S x 2^E x m_0 x 2^{-1} $$

其中：

FP4-E2M1的取值范围为：

数值	S	Exponent	Mantissa	表达范围
零值(Zeros)	0/1	00	0	$\pm$0
非规格数(Subnormal)	0/1	00	1	$\pm$2^0 x 2^{-1}
最小规格数(Min Normal)	0/1	01	00	$\pm$2^0
最大规格数(Max Normal)	0/1	11	11	$\pm$(1 + 2^{-1}) x 2^2
无穷值(Infinities)	-	-	-	-
非数(NaN)	-	-	-	-

FP4-E1M2的二进制结构包含1bit符号位、1bit指数和2bit尾数，简写为E1M2。示意图如下：

e1m2

FP4-E1M2的指数偏移为1，可以表达的数值通过公式定义如下。

1.对于规格化浮点数： $$ Value = (−1)^S x 2^{E−1} x (1 + \Sigma_{i=0}^1 m_i x 2^{-2+i}) $$

2.对于非规格化浮点数： $$ Value = (−1)^S x 2^E x \Sigma_{i=0}^1 m_i x 2^{-2+i} $$

其中：

FP4-E1M2的取值范围为：

数值	S	Exponent	Mantissa	表达范围
零值(Zeros)	0/1	0	00	$\pm$0
最小非规格数(Min Subnormal)	0/1	0	01	$\pm$2^{-2} x 2^0
最大非规格数(Max Subnormal)	0/1	0	11	$\pm$(2^{-1} + 2^{-2}) x 2^0
最小规格数(Min Normal)	0/1	1	00	$\pm$2^0
最大规格数(Max Normal)	0/1	1	11	$\pm$(1 + 2^{-1} + 2^{-2}) x 2^0
无穷值(Infinities)	-	-	-	-
非数(NaN)	-	-	-	-

当数值超出范围时会发生溢出（Overflow）或下溢（Underflow）