黄仁勋演讲全文：行业高性能计算时代已经到来

0755-26981705

dongtao@tesin.cn

特盛 科技

NEWS

INFORMATION

洞悉互联网前沿资讯，探索行业解决方案

Insight into the forefront of the Internet information

新闻

资讯

NEWS

INFORMATION

新闻资讯 NEWS & INFORMATION

黄仁勋演讲全文：行业高性能计算时代已经到来

很高兴今天能与大家一起讨论高性能计算，我非常关注这个主题。

高性能计算是科学领域的必备工具，帮助科学家更好地了解我们的世界和宇宙。

尽管多个行业已经从高性能计算中受益颇多，然而这还仅是特例，我们坚信，得益于一系列进步，我们正处于一个重要的转折点和行业高性能计算革命的开端。

在我们听到数字生物学革命，或未来工厂革命、数字孪生革命时，他们都有同样的内因在发挥作用。

我的演讲将重点介绍推动计算领域以超指数级、超摩尔定律速度进步的动力，这使高性能计算最终成为对各个行业都有用的工具。

随后，我将介绍如何扩展高性能计算系统，以服务各行各业的应用。

先跟大家聊一下我们的行业，以及高性能计算是如何给这个行业带来翻天覆地的变化。

NVIDIA 的成功一部分是源自我们构建的内容，但更多的是与构建方式有关。

NVIDIA 很早就制定了完全在硅晶片中构建我们芯片的理念，并且只将我们认为完美的设计送到晶圆厂去生产。

NVIDIA 要模拟一切，并不惜一切代价实现这一目标，为了模拟我们的芯片和系统，我们已经在芯片设计基础设施、硬件和软件方面投资了数十亿。

计算机模拟仿真的方法让我们在项目成本最低的阶段发现问题，最终将高质量的产品更快地投放市场。

不仅如此，这样做还有更深远的意义。

模拟文化会自然地促进软硬件协同设计，并使内部团队自然地保持一致。

计算机模拟文化贯穿整个过程并有着深远的影响：产品开发的各个方面都整合在一起，故障和结果可重现，进而获得持续改进，过去学到的所有知识都记录在工具和流程中。

随着时间的推移，使我们获得了快速扩展和前进的整合优势。

1997 年，RIVA128 有 400 万个晶体管，它由50 名工程师打造。23年后，A100 的规模扩大了15000 倍，需要5000 名工程师参与。

如果没有计算机模拟，电影行业不可能让我们身临其境非常非常遥远的星系。在电影《星球大战9: 天行者崛起》中，ILM(工业光魔公司) 在数万台服务器上模拟出了数百万加仑的水。

CGI （计算机成像技术）使得ILM 打造出令人难以置信的镜头–要召唤出他们模拟的壮观海浪显然是不可能的。

但是，CGI 开辟了更多新天地–能够从任何角度进行拍摄，反复拍摄直到获得完美镜头，每当镜头中有海洋时重用之前的算法–创作自由度令人震撼。

导演能想到的，CGI都能实现。

计算机模拟也改变了电子商务、媒体和互联网领域。

互联网上有数万亿物品，数十亿人通过4 英寸的屏幕在这里“网上冲浪”。

预测用户意图和偏好，对于建立用户和物品之间的联系至关重要。

通过学习每款产品的几十到几百个属性，以及每位用户也有数十个到数百个属性，互联网服务提供商使用在超大规模数据中心运行的推荐系统来预测你的隐性偏好。

推荐系统可以有效模拟你的偏好，并预测你喜欢购买、阅读或观看的内容。

数据来自你与其服务进行的每一次互动。

推荐系统也是大规模的商用高性能计算系统之一，并且它们会不间断运行。

每年，超大规模数据中心和云数据中心部署的服务器数量能达到3000 万台，其中大量服务器用于学习预测特征和用户偏好。

这些行业都因高性能计算而发生变革。

但是，基于物理和生物科学的产品制造业会遇到因问题过于庞大且复杂，以至于难以在模拟中正确求解。

为帮助打造实际产品–无论是破解和理解生物分子、研发新药、寻找更可持续的食物和燃料来源，还是安全操作自主机器以制造并交付产品–只有在企业能够通过模拟设计整个产品和完成相关压力测试后，工业高性能计算才能被广泛采用。

这需要达到一定的规模。

到目前为止，高性能计算能够模拟的规模太小，以至于在工业领域无法发挥作用。

有句话说的好：“梯子再高也上不了月球。”

得需要火箭才行。

计算机科学领域的两项突破大大提高了高性能计算的模拟规模。

第一个是 CUDA GPU 加速。

我们来看看科学家们使用NAMD 对模拟规模检验的进度。

NAMD 是一种分子动力学求解器，用于模拟化学物质与蛋白质的相互作用来进行虚拟药物筛选，或模拟蛋白质折叠以预测其3D 结构。

2006 年，UIUC利用NVIDIA GPU 加速 NAMD，对 100 万个原子 20纳秒的活动机制进行了建模，达到2000 万原子x纳秒。

如今，通过GPU 加速，研究人员正在对10 亿个原子 500纳秒的活动机制建模，达到5000 亿原子x纳秒。

原子模拟的性能在15 年内提高了100 万倍。

但按照摩尔定律，只会提高1000 倍。

事实上，最庞大的Top 500 超级计算机在这一时期仅增加了400 倍。

GPU 加速计算推动着超指数级的增长。

实现这一目标需要 CUDA GPU、多 GPU 系统、网络性能提升和全栈优化，这种完全集成的计算方法就是我们所说的 GPU 加速计算。

尽管如此，我们目前只接近了微秒级的时间尺度，我们需要进行毫秒级的模拟来观察重要的细胞过程，例如新冠肺炎刺突蛋白的作用机制。

以及在秒级的时间尺度上观察蛋白质折叠过程。

这又增大了 3 到6 个数量级，即使使用GPU 加速计算，也可能需要10 年才能实现。

此时，深度学习应运而生。

深度学习模型是通用函数学习工具。

其有效性以及 NVIDIA GPU 的通用性吸引了全球科学家加入深度学习研究，我们经常从中看到重大突破。

AI 模型的规模在短短4 年内增加了 4 个数量级，现已超过一万亿个参数！

我们预计几年内会有100 万亿以上参数的模型，因为从规模上来说，人脑大约有150 万亿个突触。

美国能源部国家实验室的研究人员结合深度学习与NAMD 对新型冠状病毒的3.05 亿个原子模拟超过了1ms ，以观察其刺突蛋白的作用机制。

在过去 15 年里，我们实现了从 2000 万原子 x 纳秒到 305 万亿原子 x 纳秒的模拟，增长了 1000 万倍。

GPU 和深度学习使高性能计算速度实现超指数级增长。

自从采用深度学习以来，行业高性能计算应用明显增加，尤其是在数字生物学、药物研发、金融服务、制造和运输领域。

领军者们看到了即将到来的转折点，正跃跃欲试，期待着高性能计算超指数级的进步。

索邦大学的研究人员与 GENCI、CRNS 和 NVIDIA 合作，用 GPU 加速一个大规模分子动力学模拟软件Tinker-HP。

他们模拟了新冠病毒刺突蛋白 38 微秒的活动机制，研究员 Jean Philippe 表示说“以前需要几年努力或者使用几百万个 CPU 核心”才能实现这个结果。

六家领先的制药公司开始使用 Tinker-HP 进行药物研发。

Transformer是一个可以学习序列模式的突破性 AI 模型，已经取得了惊人的自然语言理解成果。

Google 的 BERT、OpenAI 的 GPT-3、NVIDIA 的 BioMegatron 就是典型的例子。

语言理解技术将实现计算的大众化，让所有人都能使用，可能会对社会产生深远影响。

GENCI 和 BigScience 的开放大型语言模型协作项目汇集了来自 45 个国家和地区的 500 名研究人员，共同为行业和科学界开发开源语言模型。

Transformer 不仅在语言理解方面具有革命性意义。

这些模型还可以学习 SMILES 的语法规则，SMILES 是描述化学结构的语言 – 化学语言。

NVIDIA 和阿斯利康合作开发了一种 AI 模型，可以预测药物靶向反应并生成新型分子药物化合物。

该模型使用由十亿种商用药物分子组成的 ZINC 化学化合物数据库进行训练。

流体模拟被用于设计高效的涡轮机和风机，甚至是现代数据中心。

几何感知、多物理场 CFD 模拟可能需要数天才能完成，这限制了可探索的设计规模。

NVIDIA 研究人员开发了 SimNet，一种基于物理信息的神经网络。

SimNet 是一种基于深度学习的多物理场 CFD 模拟框架 – 一种遵守物理定律的 AI 模型。

GPU 加速计算与深度学习的融合正在推动许多领域的超指数级增长。

超指数级规模将开启高性能计算的行业应用，同时行业高性能计算的各种用例又会推动架构的进步，不仅仅是规模增长。

行业高性能计算不会处于超级计算中心的限制之中。行业高性能计算将是分布式的，跨越多个站点，延伸至边缘，连接到远程传感器，有时还会运行批量模拟，以及越来越多的连续数字孪生模拟。行业高性能计算即是云原生和混合云计算。

中央超级计算机的性能将是难以置信的，它在第一性原理物理模拟方面表现卓著，大多数行业将使用数据分析、AI 模型训练和物理-AI 融合的模拟方法。

在交通运输行业，高性能计算将根据来自数百万辆汽车的传感器数据流构建并不断更新高清地图。

针对 AI 优化的高性能计算将用于开发自动驾驶 AI 模型，同时针对可视化优化的高性能计算将模拟行驶在虚拟城市中的整个汽车堆栈。

在制造行业，针对可视化优化的高性能计算将创建虚拟环境，让机器人使用深度强化学习来学习技能。

高性能计算将实现在视觉和物理方面均非常准确的数字孪生模拟。

一些超级计算机将完全专用于监控和处理来自全球数十亿个传感器的连续遥测数据流；包括环境、气象、大气、海洋、卫星成像以及人类和农业污染。

历史数据可通过多种模式进行可视化，这些数据将推动 AI 模型预测未来几个小时的天气或未来数年的气候变化。

DestinE 就是一台这样的计算机，它将成为地球的数字孪生体，加速计算和 AI 将贯穿其始终。

然而，应用的多样性和系统瓶颈将推动系统架构的多样性。这就是 Arm 的魅力所在。

Arm 的魅力在于其开放的许可模式，允许任何人创建专用芯片和系统。

Amazon Graviton 非常适用于超大规模。

Ampere Computing 为超大规模、云和高并发用户应用打造了出色的 CPU。

印度的 C-DAC 和韩国的 ETRI 也在构建超级计算 CPU。

富士通打造了一款具有强大向量处理能力和高内存带宽的超级计算 CPU。

Marvell 在存储服务器和 5G 基站方面表现优异。

在欧洲，SiPearl 正在为欧洲 E 级 (每秒百亿亿次) 超级计算构建 CPU。

NVIDIA 正在构建针对诸如 AI 等大型数据问题的 GPU 加速计算而优化的 CPU。

在为研究人员创建实用的计算平台的漫长旅程中，构建 CPU 是第一步。

构建一个实用的计算平台，支持不同科学领域和行业的各种应用、系统配置和用例，需要付出巨大的努力。

除了极少数例外，计算机并非独立或孤立的设备。

Arm 系统需要集成到当今的基础设施、软件堆栈和工作流程中。

Arm 需要第三方配套芯片、各种系统、特定领域的求解器和应用、中间件、存储和文件系统、网络、成熟的开发堆栈、支持热门编程模型和语言的 SDK 以及数据中心管理软件的支持。

Arm 目前仅占全球数据中心的 1%，因此激励生态系统全面支持 Arm 将是一个漫长的过程。

我们相信，Arm 模式在高性能计算领域的时代已经到来。

尽管长路漫漫，但 NVIDIA 非常熟悉这个过程。NVIDIA 可以快速启动 Arm 高性能计算生态系统。

在过去 20 年里，我们为 NVIDIA 加速计算创建了强大的生态系统。

我们的平台可加速所有关键高性能计算和 AI 生态系统。

我们为 250 万开发者提供了 150 个 SDK。

我们与世界各地的服务器制造商和云供应商合作，提供我们的平台给客户。

高性能计算社区希望实现多元化，并渴望 NVIDIA 为 x86 和 Arm 提供加速计算和 AI 计算。

考虑到社区的关注点，我们将为从云到超级计算中心到边缘的指令集架构提供支持。

还有一件事值得一提。

量子计算虽然仍处于早期研究阶段，但我们有望模拟这种类别的、随规模呈指数级增长的复杂问题，例如量子化学和密码学。

尽管距离广泛商用还有几十年的时间，但目前仍有重要的研究要做，NVIDIA 可以通过多种方式做出贡献：

模拟量子电路以验证研究量子计算机的结果，为优化量子算法的研究人员提供平台，构建混合量子-经典系统，以及加速已用于药物研发或材料科学的许多量子求解器。

NVIDIA cuQuantum 是一种张量处理 SDK，可极大加速量子电路模拟。

在法国和世界各地都有一个充满活力的大型社区。

我们的计算机科学家随时准备帮助你加速量子研究。

行业高性能计算的时代已经到来。

科学界利用高性能计算来测试新理论的极限。

各个行业需要高性能计算来测试新产品的极限。

到目前为止，基于物理和生物科学的产品会存在因问题过于庞大且复杂，以至于难以在模拟中正确求解。

GPU 加速和 AI 改变了这一点。

GPU 加速和 AI 在 15 年内将计算机模拟的规模提升了 1000 万倍，这是一种超指数级增长。

在行业领域，高性能计算不再是试图登月的长梯，它现在是一艘火箭。

对于行业来说，问题已经不再是计算机能做些什么。而是谁将率先使用计算机来为行业掀起革命性变革。

行业高性能计算的时代已经到来。

上一篇：面向 V2X 场景的......

下一篇：无

电话:0755-26981705、26981700 地址:深圳市南山区商业文化中心区海岸城海岸大厦西座8层808