0755-26981705

dongtao@tesin.cn

特盛科技

IT
HPC人工智能硬件平台供应商

PRODUCT  CENTER

产品中心    

PRODUCT  CENTER
为企业提供全方位一体化的产品和服务

PRODUCT

产品
NVIDIA A30
    发布时间: 2021-07-27 17:21    

        适用于主流企业服务器的多用途计算加速GPU

        NVIDIA A30 Tensor Core GPU 为各种企业工作负载带来加速性能。例如大规模 AI 推理和高性能计算 (HPC) 应用程序。

        具有 PCIe 外形规格(非常适合主流服务器)的 A30 集快速显存带宽与低功耗于一体,不仅能实现弹性数据中心,还能为企业带来更大价值。


 

配置及亮点


        NVIDIA A30采用的NVIDIA Ampere 架构,以540亿个晶体管打造,是有史以来最大的 7 纳米 (nm) 芯片,包含多项关键的突破性创新。

 

第三代 Tensor 核心

 

        NVIDIA Tensor 核心技术最先运用在 NVIDIA Volta™ 架构上,不只大幅加速人工智能,也将训练时间从数周降至数小时,同时显著提升推论速度。NVIDIA Ampere 架构以这些创新技术为基础,采用全新精度标准 Tensor Float 32 (TF32) 与 64 位浮点 (FP64),以加速并简化人工智能应用,同时将 Tensor 核心效能拓展至高效能运算。

        TF32 与 FP32 运作方式相同,无需更改任何程序代码即可将人工智能速度提升至最高 20 倍。透过 NVIDIA 自动混合精度,研究人员只要多加几行程序代码,就可以利用自动混合精度和 FP16 将效能提升 2 倍。通过支持 bfloat16、INT8 与 INT4,更能为人工智能训练和推论创造极致多元的加速器。

        NVIDIA A30 GPU 将强大的 Tensor 核心导入高效能运算,还支持完整矩阵运算、通过 IEEE 认证,并使用 FP64 精度。

 

多实例 GPU (MIG)

 

        如果把传统GPU比作一个饮水机,那么MIG就像一个多头的喷泉。多实例 GPU (MIG)可让工作负载共享 GPU。MIG将一个NVIDIA A30 GPU划分为多达四个独立的GPU实例。它们同时运行,每个都有自己的内存、缓存和流式多处理器,这使得A30 GPU能够以比以前的GPU高4倍的利用率提供有保证的服务质量。

 

第三代 NVLink

 

        第三代 NVIDIA® NVLink® 可将 GPU 到 GPU 的直接带宽翻倍,达到每秒 600 GB (GB/秒),比第四代 PCIe 速度快近 10 倍。搭配最新一代 NVIDIA NVSwitch™ 使用时,服务器中的所有 GPU 都能透过 NVLink 全速相互交流,执行极高速的数据传输。

 

结构化稀疏

 

        现代人工智能网络相当庞大且越来越大,有数百万、甚至数十亿个参数。精准预测与推论不需要用到所有参数,而有些参数可以转换为零,以确保模型变「稀疏」的同时不会牺牲准确性。Tensor 核心最高可以将稀疏模型的效能提高 2 倍。将模型稀疏化对于人工智能推论有益,同时也能改善模型训练效能。

 

第二代 RT 核心

 

        NVIDIA Ampere 架构的第二代 RT 核心可大幅提升电影作品的拟真渲染、建筑设计评估,以及产品设计的虚拟原型制作等工作负载的速度。RT 核心还能加速光线追踪于动态模糊的渲染效果,以更快的速度获得更高的视觉准确度。在执行着色或噪声消除功能的同时,还能执行光线追踪。

 


专业功能及应用


        NVIDIA Ampere 架构是完整的 NVIDIA 企业数据中心解决方案的一部分,它囊括了硬件、网络、软件和库的构建模块,以及 NVIDIA NGC™ 目录中经优化的 AI 模型和应用程序。NVIDIA A30为数据中心提供了强大的端到端 AI 和 HPC 平台,让研究人员能够快速交付真实的结果,并且大规模地将解决方案部署到生产环境中。

 

深度学习训练

 

        NVIDIA A30 Tensor Core 具备 Tensor Float (TF32) 精度,可提供比 NVIDIA T4 高 10 倍之多的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍,综合起来可将吞吐量提高 20 倍。与 NVIDIA® NVLink®、PCIe Gen4、NVIDIA Mellanox® 网络和 NVIDIA Magnum IO™ SDK 配合使用时,可以扩展到数千个 GPU。

        Tensor Core 和 MIG 使 A30 全天都能够动态地用于工作负载。它可以在需求高峰时段用于生产推理,并且部分 GPU 可以在非高峰时段改用于快速重新训练同一批模型。

 

深度学习推理

 

        A30 引入了突破性的功能来优化推理工作负载。它能在从 FP64 到 TF32 和 INT4 的整个精度范围内进行加速。A30 每个 GPU 支持多达 4 个 MIG,允许多个网络在安全的硬件分区中同时运行,同时保证服务质量。在 A30 其他推理性能增益的基础之上,仅结构化稀疏支持一项就能带来高达两倍的性能提升。

        NVIDIA 产品的出色 AI 性能在 MLPerf 推理测试中得到验证。通过与可以轻松地大规模部署 AI 的 NVIDIA Triton™ 推理服务器配合使用,A30 能为不同企业带来此突破性性能。

 

高性能计算

 

        NVIDIA A30 采用 FP64 NVIDIA Ampere 架构 Tensor Core,提供自 GPU 推出以来幅度非常大的 HPC 性能飞跃。配合 24 GB 的 GPU 显存和 933 GB/s 的带宽,可让研究人员快速解决双精度计算问题。HPC 应用程序还可以利用 TF32 提高单精度、密集矩阵乘法运算的吞吐量。

        FP64 Tensor Core 与 MIG 的结合能让科研机构安全地对 GPU 进行分区,以允许多位研究人员访问计算资源,同时确保 QoS 和更高的 GPU 利用率。部署 AI 的企业可以在需求高峰时段使用 A30 的推理功能,然后在非高峰时段将同一批计算服务器改用于处理 HPC 和 AI 训练工作负载。

 

高性能数据分析

 

        数据科学家需要能够分析和可视化庞大的数据集,并将其转化为宝贵见解。但是,由于数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。

        搭载 A30 的加速服务器可以提供必需的计算能力,并能利用大容量 HBM2 显存、933 GB/s 的显存带宽和通过 NVLink 实现的可扩展性妥善处理这些工作负载。通过结合 InfiniBand、NVIDIA Magnum IO 和 RAPIDS™ 开源库套件(包括 RAPIDS Accelerator for Apache Spark),NVIDIA 数据中心平台能够加速这些大型工作负载,并实现超高的性能和效率水平。

 

NVIDIA AI ENTERPRISE

 

        NVIDIA AI Enterprise 是一套端到端云原生 AI 和数据分析软件,经认证可在基于服务器虚拟化平台的虚拟基础设施(带有 VMware vSphere)中的 A30 上运行。这允许在混合云环境中管理和扩展 AI 工作负载。

 

主流 NVIDIA-CERTIFIED SYSTEMS

 

        搭载 NVIDIA A30 的 NVIDIA-Certified Systems™ 将计算加速功能与高速、安全的 NVIDIA 网络整合到 NVIDIA 的 OEM 合作伙伴构建并销售的企业数据中心服务器中。利用此计划,客户可以在单个高性能、经济高效且可扩展的基础设施上识别、获取和部署系统,以运行 NVIDIA NGC (NVIDIA GPU CLOUD) 目录中的传统和多样化的现代 AI 应用程序。

 


规格


        Nvidia A30 Tensor Core GPU采用双槽全长尺寸,核心基于GA100 SKU,其基础频率为930MHz,可加速至1440MHz,拥有24GB HBM2显存、带宽933GB/s。显卡的TDP为165W,单8-pin供电。