边缘计算~AI盒子的大脑~GPU

发布时间: 2024-03-01 21:20:34
作为通用计算的“加速神器”­­—高端GPU正在成为大型数据中心、人工智能、超算等领域的刚需。
执法记录仪、一体化布控球等目前支持的AI智能算法、视频智能分析算法有哪些,https://www.besovideo.com/detail?t=1&i=297
智慧工地-智能AI算法的实现机制,https://www.besovideo.com/detail?t=1&i=129
对于高端GPU的AI算力情况,主要掌握以下几个概念,帮助你理解性能参数:
  • TFLOPS:是每秒执行1万亿次浮点运算次数。(F表示Float浮点)
  • TOPS:每秒执行1万亿次运算次数。
  • FP:代表浮点运算数据格式,包括双精度(FP64)、单精度(FP32)、半精度(FP16)以及FP8等,INT代表整数格式,包括INT8、INT4等。后面的数字位数越高,意味着精度越高,能够支持的运算复杂程度就越高,适配场景越广;
  • FP32:也叫做 float32,两种叫法是完全一样,全称是Single-precision floating-point(单精度浮点数);
  • BF16:也叫做BFLOAT16 (这是最常叫法),全称brain floating point,用16位二进制来表示的,Google Brain开发;
  • FP16:也叫float16,全称是Half-precision floating-point(半精度浮点数)。

英伟达(NVIDIA)在高端GPU市场长期占据主导地位,市场份额一度超过90%。目前国内企业要突破英伟达等国外公司的垄断还有很长的路要走。

图1:英伟达GPU L2/T4/A10/A10G/V100对比:
详细参数参考官网:
      • T4:https://www.nvidia.com/en-us/data-center/tesla-t4/
      • A10:https://www.nvidia.com/en-us/data-center/products/a10-gpu/
      • A30:https://www.nvidia.com/en-us/data-center/products/a30-gpu/
    V100-PCIe/V100-SXM2/V100S-PCIe:https://www.nvidia.com/en-us/data-center/v100/
    而国内基于架构创新的DSA(针对特定领域的可编程处理器)芯片产品日益丰富,可能会带来一些曙光。
    图2:英伟达A100/A800/H100/H800/华为Ascend 910B对比:
    1. A100:https://www.nvidia.com/en-us/data-center/a100
    2. H100:https://www.nvidia.com/en-us/data-center/h100/
      Huawei Ascend-910B (404)见HUAWEIAscend)310:https://www.hisilicon.com/cn/products/Ascend/Ascend-310
    3. 910论文: Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing, HPCA, 2021:https://ieeexplore.ieee.org/abstract/document/9407221
    一句话总结,H100 vs. A100:3 倍性能,2 倍价格
    值得注意的是,HCCS vs. NVLINK的GPU 间带宽。
    对于 8 卡 A800 和 910B 模块而言,910B HCCS 的总带宽为392GB/s,与 A800 NVLink (400GB/s) 相当。然而,两者之间也存在一些区别。
    NVIDIA NVLink采用全网状拓扑,如下所示,(双向)GPU-to-GPU 最大带宽可达到400GB/s (需要注意的是,下方展示的是8*A100模块时的600GB/s速率,8*A800也是类似的全网状拓扑);
    华为HCCS采用对等拓扑(没有 NVSwitch 芯片之类的东西),所以(双向) GPU-to-GPU 最大带宽是56GB/s;
    图3:H20/L20/Ascend 910B对比: