1、GPU硬件基础(以Hopper架构为例)
GH100 Full GPU Architecture
GPC
GH100的架构是按照GPC/TPC/SM的三个层次为基础构建:
SM
GH100 Streaming Multiprocessor (SM)
SM中的计算核心(Core)划分到4个处理单元中:
2、计算精度
不同应用对计算精度有不同的要求,了解不同架构对计算精度的支持对于GPU选型是十分必要的:
3、算力计算
算力 = 核心数量(Cores)* 时钟频率(Boost Clock)* FFMA操作次数*2/时钟周期
一次FFMA操作 = 2次计算(一次乘法,一次加法)
不同架构TENSOR Core FFMA (FP16)操作次数/时钟周期
例如:H100 PCIe
FP32 Cores =14592;Boost Clock = 1755 MHz;
FP32 算力 = 14592 *1755 *2 = 51 TFlops