有限差分法 – 拉普拉斯算子第 3 部分

首次发布时间： 2023 年 5 月 11 日

最后更新时间： 2023 年 9 月 22 日

Justin Chang

通讯作者

Rajat Arora

作者

Thomas H. Gibson

作者

Sean Miller

作者

Ossian O'Reilly

作者

Mahdieh Ghazimirsaeed

审稿人

Maria Ruiz Varela

审稿人

在之前的两篇关于拉普拉斯算子的博文中，我们开发了基于拉普拉斯算子的有限差分代码的 HIP 实现，并应用了两种可能的代码优化来优化 L2 缓存和全局内存之间的内存移动。第三部分将介绍一些额外的优化和通用技巧，以微调内核的性能。快速回顾一下，回想一下拉普拉斯算子的形式是标量场 $u(x,y,z)$ 的梯度的散度

\nabla \cdot \nabla u = \nabla^2 u = \frac{\partial^2u}{\partial x^2} + \frac{\partial^2u}{\partial y^2} + \frac{\partial^2u}{\partial z^2},

	SGPR	VGPR	Scratch	Occupancy
内核 1 – 基线	18	24	0	8
内核 3 – 重新排序加载 m=1	24	18	0	8
内核 3 – 重新排序加载 m=2	26	28	0	8
内核 3 – 重新排序加载 m=4	34	54	0	8
内核 3 – 重新排序加载 m=8	52	90	0	5
内核 3 – 重新排序加载 m=16	90	128	180	4

	SGPR	VGPR	Scratch	Occupancy
内核 1 – 基线	18	24	0	8
内核 3/内核 4 – 重新排序加载 m=1	24/24	18/18	0/0	8/8
内核 3/内核 4 – 重新排序加载 m=2	26/26	28/28	0/0	8/8
内核 3/内核 4 – 重新排序加载 m=4	34/34	54/54	0/0	8/8
内核 3/内核 4 – 重新排序加载 m=8	52/52	90/94	0/0	5/5
内核 3/内核 4 – 重新排序加载 m=16	90/84	128/170	180/0	4/2

	加速比	目标百分比
内核 1 – 基线	1.00	69.4%
内核 3 – 重新排序加载 m=1	1.20	82.9%
内核 3 – 重新排序加载 m=2	1.28	88.9%
内核 3 – 重新排序加载 m=4	1.34	93.1%
内核 3 – 重新排序加载 m=8	1.37	94.8%
内核 3 – 重新排序加载 m=16	0.42	29.4%
内核 4 – 启动边界 m=1	1.20	82.9%
内核 4 – 启动边界 m=2	1.28	88.9%
内核 4 – 启动边界 m=4	1.34	93.1%
内核 4 – 启动边界 m=8	1.39	96.1%
内核 4 – 启动边界 m=16	1.34	93.2%

	FETCH_SIZE (GB)	获取效率 (%)	L2CacheHit (%)
理论值	1.074	–	–
内核 1 – 基线	2.014	53.3	65.0
内核 3 – 重新排序加载 m=1	1.347	79.7	72.0
内核 3 – 重新排序加载 m=2	1.166	92.1	70.6
内核 3 – 重新排序加载 m=4	1.107	97.0	68.8
内核 3 – 重新排序加载 m=8	1.080	99.4	67.7
内核 3 – 重新排序加载 m=16	3.915	27.4	44.5
内核 4 – 启动边界 m=1	1.346	79.8	72.0
内核 4 – 启动边界 m=2	1.167	92.1	70.6
内核 4 – 启动边界 m=4	1.107	97.0	68.8
内核 4 – 启动边界 m=8	1.080	99.4	67.3
内核 4 – 启动边界 m=16	1.094	98.2	66.1

内核 1（之前）	内核 1（之后）
`f[pos] = u[pos] * invhxyz2 + (u[pos - 1] + u[pos + 1]) * invhx2 + (u[pos - nx] + u[pos + nx]) * invhy2 + (u[pos - slice] + u[pos + slice]) * invhz2;`	`__builtin_nontemporal_store(u[pos] * invhxyz2 + (u[pos - 1] + u[pos + 1]) * invhx2 + (u[pos - nx] + u[pos + nx]) * invhy2 + (u[pos - slice] + u[pos + slice]) * invhz2, &f[pos]);`

	加速比	目标百分比
内核 1 – 基线	1.00	69.4%
内核 1 – 非时序存储	1.19	82.5%
内核 3 – 重新排序加载 m=1	1.20	82.9%

	FETCH_SIZE (GB)	获取效率 (%)	L2CacheHit (%)
理论值	1.074	–	–
内核 1 – 基线	2.014	53.3	65.0
内核 1 – 非时序存储	1.429	75.2	71.4
内核 3 – 重新排序加载 m=1	1.347	79.7	72.0

内核 4（之前）	内核 5（之后）
`f[pos + n*nx] = Lu[n];`	`__builtin_nontemporal_store(Lu[n],&f[pos + n*nx]);`

	加速比	目标百分比
内核 1 – 基线	1.00	69.4%
内核 3 – 重新排序加载 m=8	1.37	94.8%
内核 4 – 启动边界 m=8	1.39	96.1%
内核 5 – 非时序存储 m=8	1.44	100%

	FETCH_SIZE (GB)	获取效率 (%)	L2CacheHit (%)
理论值	1.074	–	–
内核 1 – 基线	2.014	53.3	65.0
内核 3 – 重新排序加载 m=8	1.080	99.4	67.7
内核 4 – 启动边界 m=8	1.080	99.4	67.3
内核 5 – 非时序存储 m=8	1.074	100	67.4

Justin Chang

通讯作者

Justin Chang 是 AMD 数据中心 GPU 软件解决方案部门的高级技术人员 (SMTS) 软件系统设计工程师，负责管理 AMD lab notes 博文系列。他获得了休斯顿大学土木工程博士学位，并发表了多篇关于多孔介质传输的结构保持高性能计算方法的期刊论文。作为博士后，他曾在莱斯大学和美国国家可再生能源实验室工作，以加速电动汽车所用双孔隙多孔介质和锂离子电池的地下流体模拟时间。他还曾在石油和天然气行业工作，专注于关键 FWI、RTM 和其他地震成像工作负载的 GPU 移植和优化。

Rajat Arora

作者

Rajat Arora 是 AMD 数据中心 GPU 软件解决方案部门的高级技术人员 (SMTS) 软件系统设计工程师，他致力于为 AMD GPU 移植和优化高性能计算应用程序。他获得了卡内基梅隆大学计算力学博士学位。他的博士研究集中在高性能科学计算、数值分析和材料科学的交叉领域。最近，他的研究兴趣已扩展到包括物理信息机器学习模型的开发以及加速科学发现和工程设计的工具。

Thomas H. Gibson

作者

Thomas Gibson 是 AMD 数据中心 GPU 软件解决方案部门的技术人员 (MTS) 软件系统设计工程师。他获得了伦敦帝国理工学院计算数学博士学位，专注于数值天气模拟代码的混合有限元离散化。博士毕业后，Thomas 继续从事关于天气应用的结构保持（“兼容”）有限元方法和多重网格预处理器的研究。此外，他还开始将研究重点转向使用 GPU 加速流体动力学代码，并开发了用于 GPU 上湍流/燃烧模型的高保真/低耗散不连续伽辽金方法。他目前的研究兴趣包括优化 C/C++/Fortran GPU 应用程序、迭代求解器和预处理、有限元离散化以及数值天气预报应用。

Sean Miller

作者

Sean Miller 是 AMD 数据中心 GPU 软件解决方案部门的高级技术人员 (SMTS) 软件系统设计工程师。他获得了华盛顿大学的博士学位，专注于聚变能源应用的计算等离子体物理学。Sean 在桑迪亚国家实验室继续他的研究，开发了高能密度物理建模工具，之后转到 AMD，在那里他支持科学软件在 GPU 加速 HPC 环境下的移植和优化。

Ossian O'Reilly

作者

Ossian O'Reilly 是 AMD 数据中心 GPU 软件解决方案部门的技术人员 (MTS) 软件系统设计工程师。他致力于为 AMD GPU 移植和优化科学计算和工程应用程序。他拥有斯坦福大学地球物理学博士学位和瑞典林雪平大学计算数学博士学位。他的博士研究专注于用于包含摩擦界面和充满流体的裂缝的地震波传播的高阶数值方法，这些方法可应用于地震和火山学以及石油和天然气行业。作为博士后，他从事用于地形地震波传播的数值方法开发和分析，并针对 OLCF Summit 超级计算机实现了 GPU 模板内核。Ossian 的一些技术兴趣包括用于偏微分方程的高阶数值方法、基于模板和无矩阵方法，以及 GPU 内核开发和优化。

Mahdieh Ghazimirsaeed

审稿人

Mahdieh Ghazimirsaeed 是数据中心 GPU 软件解决方案部门的技术人员 (MTS) 软件系统设计工程师，负责优化 AMD 硬件的科学代码。她获得了加拿大皇后大学计算机工程博士学位，并发表了多篇关于通信库开发的论文。在加入 AMD 之前，她是俄亥俄州立大学的博士后研究员，从事 MVAPICH2 软件软件包的设计和开发。Mahdieh 的研究兴趣包括 HPC、异构和加速计算以及机器学习。

Maria Ruiz Varela

审稿人

Maria Ruiz Varela 是 AMD 的高级技术人员，专注于在 AMD GPU 上运行的 HPC 应用程序的验证、调试和质量。在加入 AMD 之前，Maria 负责英特尔美国能源部 Aurora Exascale 超级计算机 (A21) 的 RAS 系统验证。她拥有 HPC 集群验证、集成和执行方面的经验，以及为美国和墨西哥的汽车行业支持任务和安全关键应用程序的广泛软件工程经验。她发表了关于大规模并行处理、大型系统和用于嵌入式系统的新型非易失性存储器的容错领域的研究。她是 SC21、SC22 和 SC23 包容性委员会的成员。Maria 拥有特拉华大学计算机科学硕士学位。