边缘计算~AI盒子的大脑~GPU

发布时间: 2024-03-01 21:20:34

作为通用计算的“加速神器”—高端GPU正在成为大型数据中心、人工智能、超算等领域的刚需。

执法记录仪、一体化布控球等目前支持的AI智能算法、视频智能分析算法有哪些，https://www.besovideo.com/detail?t=1&i=297

智慧工地-智能AI算法的实现机制，https://www.besovideo.com/detail?t=1&i=129

对于高端GPU的AI算力情况，主要掌握以下几个概念，帮助你理解性能参数：

TFLOPS：是每秒执行1万亿次浮点运算次数。（F表示Float浮点）
TOPS：每秒执行1万亿次运算次数。
FP：代表浮点运算数据格式，包括双精度（FP64）、单精度（FP32）、半精度（FP16）以及FP8等，INT代表整数格式，包括INT8、INT4等。后面的数字位数越高，意味着精度越高，能够支持的运算复杂程度就越高，适配场景越广；
FP32：也叫做 float32，两种叫法是完全一样，全称是Single-precision floating-point(单精度浮点数)；
BF16：也叫做BFLOAT16 (这是最常叫法)，全称brain floating point，用16位二进制来表示的，Google Brain开发；
FP16：也叫float16，全称是Half-precision floating-point(半精度浮点数)。

英伟达（NVIDIA）在高端GPU市场长期占据主导地位，市场份额一度超过90%。目前国内企业要突破英伟达等国外公司的垄断还有很长的路要走。

图1：英伟达GPU L2/T4/A10/A10G/V100对比：

详细参数参考官网:

V100-PCIe/V100-SXM2/V100S-PCIe:https://www.nvidia.com/en-us/data-center/v100/

而国内基于架构创新的DSA（针对特定领域的可编程处理器）芯片产品日益丰富，可能会带来一些曙光。

图2：英伟达A100/A800/H100/H800/华为Ascend 910B对比：

A100:https://www.nvidia.com/en-us/data-center/a100
H100:https://www.nvidia.com/en-us/data-center/h100/

Huawei Ascend-910B (404)见HUAWEIAscend)310:https://www.hisilicon.com/cn/products/Ascend/Ascend-310
910论文: Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing, HPCA, 2021:https://ieeexplore.ieee.org/abstract/document/9407221

一句话总结，H100 vs. A100：3 倍性能，2 倍价格

值得注意的是，HCCS vs. NVLINK的GPU 间带宽。

对于 8 卡 A800 和 910B 模块而言，910B HCCS 的总带宽为392GB/s，与 A800 NVLink (400GB/s) 相当。然而，两者之间也存在一些区别。

NVIDIA NVLink采用全网状拓扑，如下所示，（双向）GPU-to-GPU 最大带宽可达到400GB/s （需要注意的是，下方展示的是8*A100模块时的600GB/s速率，8*A800也是类似的全网状拓扑）；

华为HCCS采用对等拓扑（没有 NVSwitch 芯片之类的东西），所以（双向） GPU-to-GPU 最大带宽是56GB/s;

图3：H20/L20/Ascend 910B对比：