AMD Lab Notes 推出 – 面向 HPC 和 ML 的全新编程教程

Originally posted: November 14, 2022

Last updated: May 7, 2023

Justin Chang

通讯作者

Thomas H. Gibson

作者

Nicholas Malaya

作者

Gina Sitaraman

作者

计算科学和数据科学已成为强大的科学探究和工程设计模式。它们通常被称为科学方法的“第三”和“第四”支柱，是跨学科领域，其中使用计算机模型和物理、生物或数据驱动过程的模拟来探究、预测和分析感兴趣的复杂系统。所有这些都迫切需要使用更多的计算能力和资源来跟上日益增长的科学和工业需求。为了充分利用为应对这些挑战而设计的最新硬件，开发强大的高性能计算（HPC）和机器学习（ML）应用程序的软件比以往任何时候都更加重要。随着硬件趋势通过 GPU 加速实现大规模并行化，这使得采用复杂的异构编程环境和经过精心调优的应用程序代码的挑战变得更加严峻。

在本期“AMD lab notes”博客系列中，我们将分享在针对 AMD GPU 调优各种科学应用程序、库和框架时获得的经验。我们通过这些实验室笔记的目标是为读者提供以下内容：

AMD GPU 实现的计算科学算法，例如 PDE 离散化、线性代数、求解器等
展示优化的 AMD GPU 编程教程
关于在 AMD GPU 上利用 ML 框架、数据科学工具、后处理和可视化说明
针对 AMD GPU 移植和优化 HPC 和 ML 应用程序的最佳实践
有关使用 ROCm™ 软件栈中的库和工具的指导

我们的大部分实验室笔记都包含配套的代码示例，鼓励读者进行实验。目的是提供面向领域专家和计算/数据科学家受众的内容。虽然我们的优化策略可能特定于某个应用程序，但我们相信这些内容可以作为宽松的指南和有效的起点，以便从 AMD 硬件中获得最佳体验。我们主要关注 AMD Instinct™ GPU，但我们也期望其他 AMD 显卡的用户能从这些笔记中概述的策略中受益。

包含所有实验室笔记和相关代码示例的存储库可以在 https://github.com/AMD/amd-lab-notes 找到。我们希望我们的教学示例能启发读者进一步加速他们的应用程序代码。

如果您有任何问题或评论，请在 GitHub 讨论区与我们联系

Justin Chang

通讯作者

Justin Chang 是 AMD 数据中心 GPU 软件解决方案部门的高级技术人员 (SMTS) 软件系统设计工程师，负责管理 AMD lab notes 博文系列。他获得了休斯顿大学土木工程博士学位，并发表了多篇关于多孔介质传输的结构保持高性能计算方法的期刊论文。作为博士后，他曾在莱斯大学和美国国家可再生能源实验室工作，以加速电动汽车所用双孔隙多孔介质和锂离子电池的地下流体模拟时间。他还曾在石油和天然气行业工作，专注于关键 FWI、RTM 和其他地震成像工作负载的 GPU 移植和优化。

Thomas H. Gibson

作者

Thomas Gibson 是 AMD 数据中心 GPU 软件解决方案部门的技术人员 (MTS) 软件系统设计工程师。他获得了伦敦帝国理工学院计算数学博士学位，专注于数值天气模拟代码的混合有限元离散化。博士毕业后，Thomas 继续从事关于天气应用的结构保持（“兼容”）有限元方法和多重网格预处理器的研究。此外，他还开始将研究重点转向使用 GPU 加速流体动力学代码，并开发了用于 GPU 上湍流/燃烧模型的高保真/低耗散不连续伽辽金方法。他目前的研究兴趣包括优化 C/C++/Fortran GPU 应用程序、迭代求解器和预处理、有限元离散化以及数值天气预报应用。

Nicholas Malaya

作者

Nicholas Malaya 是 AMD 的一位杰出研究员，专注于软件开发、算法和高性能计算。他是 AMD 在百亿亿次级应用程序性能方面技术负责人，致力于确保工作负载在世界上最大的超级计算机上高效运行。Nick 的研究兴趣包括 HPC、计算流体动力学、贝叶斯推理以及 ML/AI。他获得了德克萨斯大学的博士学位。在此之前，他在乔治城大学获得了物理和数学双学位，并获得了 Treado 奖。在他的大量业余时间里，他喜欢摩托车、长跑、葡萄酒，以及与妻子和孩子们共度时光。

Gina Sitaraman

作者

Gina Sitaraman 是数据中心 GPU 软件解决方案部门的技术总监（SMTS）软件系统设计工程师。她获得了达拉斯德克萨斯大学计算机科学博士学位。她在地震数据处理领域拥有十多年的经验，开发并优化了使用 CPU 集群上的混合 MPI + OpenMP 以及 GPU 上的 CUDA 或 OpenCL 的预处理、迁移和后处理应用程序。她在 AMD 的时间主要用于解决在大型 HPC 集群上运行的科学应用程序的优化挑战。