– 博伟

GPU关键指标(一)算力

1、GPU硬件基础(以Hopper架构为例)

 

GH100 Full GPU Architecture

GPC

     

GH100的架构是按照GPC/TPC/SM的三个层次为基础构建:

  • GPC:Graph Process Cluster  图像处理集群
  • TPC:Texture Process Cluster 纹理处理集合
  • SM:Streaming Multiprocessor 流处理器

SM

   

                                           GH100 Streaming Multiprocessor (SM)

SM中的计算核心(Core)划分到4个处理单元中:

  •  CUDA Core(标量计算核心):INT32/FP32/FP64
  •  TENSOR Core(张量计算核心)


2、计算精度

不同应用对计算精度有不同的要求,了解不同架构对计算精度的支持对于GPU选型是十分必要的:



3、算力计算

算力 = 核心数量(Cores)* 时钟频率(Boost Clock)* FFMA操作次数*2/时钟周期

一次FFMA操作 = 2次计算(一次乘法,一次加法)

  •  CUDA Core (标量计算):FFMA操作次数/时钟周期 =1  
  •  TENSOR Core(张量计算):

   

不同架构TENSOR Core FFMA FP16)操作次数/时钟周期

例如:H100 PCIe 

FP32 Cores =14592;Boost Clock = 1755 MHz;

FP32 算力 = 14592 *1755 *2 = 51 TFlops