使用 HIP 和 OpenMP 卸载的 Jacobi 求解器

最初发布于：2023 年 9 月 25 日

最后更新于：2024 年 7 月 1 日

Asitav Mishra

通讯作者

Rajat Arora

作者

Justin Chang

作者

Brian Cornille

审稿人

Mahdieh Ghazimirsaeed

审稿人

Jacobi 方法是一种基本迭代线性求解器，用于求解偏微分方程（PDE），这些方程控制着高性能计算（HPC）应用中对多种物理现象感兴趣的方程。通过数值方法（例如有限差分、有限体积、有限元或其他方法）离散化 PDE，会得到一个大型稀疏方程组。像 Jacobi 这样的固定迭代方法可以利用现代异构分层系统（包括 CPU 和 GPU），因为它更易于并行化，并且与传统的直接方法相比，所需的内存更少。Jacobi 迭代涉及大量重复的矩阵-向量乘法运算，并且在很大程度上限制了每次迭代时所有组件之间的通信。这使得 Jacobi 方法更适合 GPU 卸载。

在这篇博文中，我们探讨了使用 HIP 和 OpenMP target 指令进行 GPU 卸载，并讨论了它们在实现工作量和性能方面的相对优势。

注意：虽然当今大多数 HPC 应用都使用消息传递接口（MPI）来实现分布式内存并行，但在本博文中，出于演示目的，我们仅考虑 Jacobi 方法的单进程实现。

Jacobi 迭代方法

为了讨论 Jacobi 迭代方法，我们考虑一个具有狄利克雷边界条件的二维区域上的 PDE，其空间坐标为 $x$ 和 $y$ ，以求解泊松方程： $-\nabla^2 u(x,y) = f$ 。其中， $u(x,y)$ 是区域内的光滑函数。方程使用有限差分方法[1] 在笛卡尔坐标系中用 5 点模板离散化

\frac{-u_{i-1,j } + 2u_{i,j} - u_{i+1,j }}{\Delta x^2} + \frac{-u_{i, j-1} + 2u_{i,j} - u_{i, j+1}}{\Delta y^2} = f_{i,j}

内核	平均时间（毫秒）	百分比
Update	0.51	60.9
Laplacian	0.22	25.7
Norm	0.10	12.3
BoundaryConditions	0.01	0.9

内核	平均时间（毫秒）	百分比
Update	0.51	57.9
Laplacian	0.25	27.6
Norm	0.11	12.2
BoundaryConditions	0.02	2.2

内核	HIP HBM BW (GB/s)	OpenMP 卸载 HBM BW (GB/s)
Update	1306	1297
Laplacian	1240	1091
Norm	1325	1239
BoundaryConditions	151	50

Asitav Mishra

通讯作者

Asitav Mishra 是 AMD 的高级技术员，专注于在现代 AMD GPU 上移植和优化科学应用程序，这些 GPU 驱动着世界上最大的超级计算机和埃克斯级超级计算机。他拥有马里兰大学航空航天工程博士学位。在加入 AMD 之前，他曾是美国国家航空航天局（National Institute of Aerospace）的高级研究工程师，支持 NASA 在计算空气动力学方面的项目。此外，他还在多所大学担任研究科学家和博士后职位，解决了复杂的跨学科航空航天问题。他的研究兴趣包括非稳态伴随方法、计算流体动力学（CFD）以及利用多种并行模型（包括 HIP/MPI/OpenMP/OpenACC）的高性能计算。

Rajat Arora

作者

Rajat Arora 是 AMD 数据中心 GPU 软件解决方案部门的高级技术人员 (SMTS) 软件系统设计工程师，他致力于为 AMD GPU 移植和优化高性能计算应用程序。他获得了卡内基梅隆大学计算力学博士学位。他的博士研究集中在高性能科学计算、数值分析和材料科学的交叉领域。最近，他的研究兴趣已扩展到包括物理信息机器学习模型的开发以及加速科学发现和工程设计的工具。

Justin Chang

作者

Justin Chang 是 AMD 数据中心 GPU 软件解决方案部门的高级技术人员 (SMTS) 软件系统设计工程师，负责管理 AMD lab notes 博文系列。他获得了休斯顿大学土木工程博士学位，并发表了多篇关于多孔介质传输的结构保持高性能计算方法的期刊论文。作为博士后，他曾在莱斯大学和美国国家可再生能源实验室工作，以加速电动汽车所用双孔隙多孔介质和锂离子电池的地下流体模拟时间。他还曾在石油和天然气行业工作，专注于关键 FWI、RTM 和其他地震成像工作负载的 GPU 移植和优化。

Brian Cornille

审稿人

Brian Cornille 是 AMD 数据中心 GPU 软件解决方案组的技术员。他专注于支持面向 AMD GPU 的 Fortran 和 OpenMP 应用程序。他是 DOE 计算科学研究生奖学金的毕业生，拥有威斯康星大学麦迪逊分校核工程与工程物理学博士学位。他的博士研究课题是用于聚变能源应用的等离子体物理学的计算方法和分析。

Mahdieh Ghazimirsaeed

审稿人

Mahdieh Ghazimirsaeed 是数据中心 GPU 软件解决方案部门的技术人员 (MTS) 软件系统设计工程师，负责优化 AMD 硬件的科学代码。她获得了加拿大皇后大学计算机工程博士学位，并发表了多篇关于通信库开发的论文。在加入 AMD 之前，她是俄亥俄州立大学的博士后研究员，从事 MVAPICH2 软件软件包的设计和开发。Mahdieh 的研究兴趣包括 HPC、异构和加速计算以及机器学习。