跳转至

FP4

说明

该数据格式为 4位低精度浮点数表示格式,遵循IEEE 754-2008标准规范。

FP4包含E2M1E1M2两种存储结构。

E2M1

二进制结构

FP4-E2M1的二进制结构包含1bit符号位、2bit指数和1bit尾数,简写为E2M1。示意图如下:

e2m1

数值范围

FP4-E2M1的指数偏移为1,可以表达的数值通过公式定义如下。

1.对于规格化浮点数: $$ Value = (−1)^S x 2^{E−1} x (1 + m_0 x 2^{-1}) $$

2.对于非规格化浮点数: $$ Value = (−1)^S x 2^E x m_0 x 2^{-1} $$

其中:

  • S ∈ {0,1}。
  • E ∈ [0, 3],但全0 用于特殊值。
  • $m_0$ 是尾数的第0bit。

FP4-E2M1的取值范围为:

数值 S Exponent Mantissa 表达范围
零值(Zeros) 0/1 00 0 $\pm$0
非规格数(Subnormal) 0/1 00 1 $\pm$2^0 x 2^{-1}
最小规格数(Min Normal) 0/1 01 00 $\pm$2^0
最大规格数(Max Normal) 0/1 11 11 $\pm$(1 + 2^{-1}) x 2^2
无穷值(Infinities) - - - -
非数(NaN) - - - -

E1M2

二进制结构

FP4-E1M2的二进制结构包含1bit符号位、1bit指数和2bit尾数,简写为E1M2。示意图如下:

e1m2

数值范围

FP4-E1M2的指数偏移为1,可以表达的数值通过公式定义如下。

1.对于规格化浮点数: $$ Value = (−1)^S x 2^{E−1} x (1 + \Sigma_{i=0}^1 m_i x 2^{-2+i}) $$

2.对于非规格化浮点数: $$ Value = (−1)^S x 2^E x \Sigma_{i=0}^1 m_i x 2^{-2+i} $$

其中:

  • S ∈ {0,1}。
  • E ∈ [0, 1],0用于特殊值。
  • $m_i$ 是尾数的第ibit,i ∈ [0, 1]。

FP4-E1M2的取值范围为:

数值 S Exponent Mantissa 表达范围
零值(Zeros) 0/1 0 00 $\pm$0
最小非规格数(Min Subnormal) 0/1 0 01 $\pm$2^{-2} x 2^0
最大非规格数(Max Subnormal) 0/1 0 11 $\pm$(2^{-1} + 2^{-2}) x 2^0
最小规格数(Min Normal) 0/1 1 00 $\pm$2^0
最大规格数(Max Normal) 0/1 1 11 $\pm$(1 + 2^{-1} + 2^{-2}) x 2^0
无穷值(Infinities) - - - -
非数(NaN) - - - -

注意

当数值超出范围时会发生溢出(Overflow)或下溢(Underflow)