性能计数器
Copyright (c) 2018-2025 Advanced Micro Devices, Inc. 保留所有权利。GPU 性能计数器 GPU Performance API 公开的性能计数器按组进行组织,以帮助提供所有可用数据的清晰度和组织性。以下是来自所有支持的硬件代计数器的集合列表。某些计数器可能无法使用,具体取决于正在分析的硬件。要查看哪些 GPU 属于哪些硬件代,最佳参考是 GitHub 上的 device_info 仓库中的 gs_cardInfo 数组。您可以查看 GDT_HW_GENERATION 枚举 来了解各种卡如何映射到硬件代。
对于图形工作负载,建议您首先使用“Timing”组中的计数器进行分析,以确定分析的调用是否值得优化(基于 GPUTime 值),以及管线的哪些部分执行了最多的工作。请注意,由于 GPU 是高度并行的,管线的各个部分可以同时处于活动状态;因此,“Busy”计数器的总和可能会超过 100%。在确定一个或多个需要进一步研究的阶段后,启用相应的计数器组以获取有关该阶段的更多信息,并确定是否存在潜在的优化机会。
基于管线的计数器组
在 RDNA、RDNA2 和 RDNA3 硬件上,某些用例允许驱动程序通过组合两个着色器阶段来进行优化。例如,在 Vertex
- Geometry + Pixel Shader 管线 (VS-GS-PS) 中,Vertex 和 Geometry Shaders 会被组合起来,GPUPerfAPI 会在“VertexGeometry”组(带有“VsGs”前缀的计数器)中公开它们。在使用了镶嵌的管线中,Vertex 和 Hull Shaders 会被组合起来并作为“PreTessellation”组(带有“PreTess”前缀)公开;Domain 和 Geometry Shaders(如果使用了 GS)会被组合成“PostTessellation”组(带有“PostTess”前缀)。Pixel Shaders 和 Compute Shaders 始终作为各自的类型公开。下表有助于可视化 API 级着色器(顶部)与 GPUPerfAPI 计数器中要查找的前缀之间的映射。
| 管线 | Vertex | Hull | Domain | 几何体 | Pixel | Compute |
|---|---|---|---|---|---|---|
| VS-PS | VsGs | PS | ||||
| VS-GS-PS | VsGs | VsGs | PS | |||
| VS-HS-DS-PS | PreTess | PreTess | PostTess | PostTess | PS | |
| VS-HS-DS-GS-PS | PreTess | PreTess | PostTess | PostTess | PS | |
| CS | CS |
关于第三方应用程序的说明
几个第三方应用程序(如 RenderDoc 和 Microsoft PIX)将 GPUPerfAPI 集成到其性能分析功能集中。这些应用程序可能会选择仅公开 GPUPerfAPI 支持的计数器子集,尤其是在计数器不支持应用程序设计目标的情况下。具体来说,已知 RenderDoc 中不公开报告百分比的计数器。这是因为这些工具收集和报告一组绘图调用的聚合性能计数器值的方式。例如,如果一组绘图调用由用户标记组合在一起,则工具可能通过简单地将各个绘图调用的计数器值相加来报告用户标记的性能计数器值。虽然这对许多计数器来说可能是有效的,但对于基于百分比的计数器效果不佳。即使工具执行简单平均百分比值,也可能无法准确反映实际性能。对于大多数基于百分比的计数器,GPUPerfAPI 还公开了用于计算百分比的组件的计数器。缓存命中计数器就是一个例子——它们同时作为缓存命中百分比以及代表缓存请求数、命中数和未命中数的单独计数器公开。请参考下表中的“Usage”列,了解这些应用程序将不会公开哪些计数器。
用于图形性能分析的计数器
下表显示了用于分析 GPU 图形工作负载的计数器集,以及每个计数器可用的 GPU 和 APU 系列。
Copyright(c) 2018-2025 Advanced Micro Devices, Inc. 保留所有权利。RDNA4 的图形性能计数器*** 注意,这是一个自动生成的文件。请勿编辑。执行 PublicCounterCompiler 进行重建。
RDNA4 计数器
Timing 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| GPUTime | 离散 | 纳秒 | 此 API 命令在 GPU 上执行所花费的时间(以纳秒为单位),从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。 |
| ExecutionDuration | 离散 | 纳秒 | GPU 命令执行持续时间(以纳秒为单位),从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。 |
| ExecutionStart | 离散 | 纳秒 | GPU 命令执行开始时间(以纳秒为单位)。这是命令进入管线顶部 (TOP) 的时间。 |
| ExecutionEnd | 离散 | 纳秒 | GPU 命令执行结束时间(以纳秒为单位)。这是命令到达管线底部 (BOP) 的时间。 |
| GPUBusy | 离散, 流式 | 百分比 | GPU 命令处理器忙碌的时间百分比。 |
| GPUBusyCycles | 离散, 流式 | 周期 | GPU 命令处理器忙碌的 GPU 周期数。 |
| TessellatorBusy | 离散, 流式 | 百分比 | 镶嵌引擎忙碌的时间百分比。 |
| TessellatorBusyCycles | 离散, 流式 | 周期 | 镶嵌引擎忙碌的 GPU 周期数。 |
| VsGsBusy | 离散, 流式 | 百分比 | 在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间百分比。 |
| VsGsBusyCycles | 离散, 流式 | 周期 | 在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。 |
| VsGsTime | 离散 | 纳秒 | 在 VS-[GS-]PS 管线中,VS 或 GS 忙碌的时间(以纳秒为单位)。 |
| PreTessellationBusy | 离散, 流式 | 百分比 | 在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间百分比。 |
| PreTessellationBusyCycles | 离散, 流式 | 周期 | 在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。 |
| PreTessellationTime | 离散 | 纳秒 | 在使用镶嵌的管线中,VS 和 HS 忙碌的时间(以纳秒为单位)。 |
| PostTessellationBusy | 离散, 流式 | 百分比 | 在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间百分比。 |
| PostTessellationBusyCycles | 离散, 流式 | 周期 | 在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。 |
| PostTessellationTime | 离散 | 纳秒 | 在使用镶嵌的管线中,DS 或 GS 忙碌的时间(以纳秒为单位)。 |
| PSBusy | 离散, 流式 | 百分比 | ShaderUnit 拥有像素着色器工作的时间百分比。 |
| PSBusyCycles | 离散, 流式 | 周期 | ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。 |
| PSTime | 离散 | 纳秒 | 像素着色器忙碌的时间(以纳秒为单位)。 |
| CSBusy | 离散, 流式 | 百分比 | ShaderUnit 拥有计算着色器工作的时间百分比。 |
| CSBusyCycles | 离散, 流式 | 周期 | ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。 |
| CSTime | 离散 | 纳秒 | 计算着色器忙碌的时间(以纳秒为单位)。 |
| PrimitiveAssemblyBusy | 离散 | 百分比 | 原始图元装配(裁剪和剔除)忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。 |
| PrimitiveAssemblyBusyCycles | 离散 | 周期 | 原始图元装配(裁剪和剔除)忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。 |
| TexUnitBusy | 离散, 流式 | 百分比 | 纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| TexUnitBusyCycles | 离散, 流式 | 周期 | 纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| DepthStencilTestBusy | 离散, 流式 | 百分比 | GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。 |
| DepthStencilTestBusyCycles | 离散, 流式 | 周期 | 花费在深度和模板测试上的 GPU 周期数。 |
VertexGeometry 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| VsGsVerticesIn | 离散, 流式 | 项 | VS 和 GS 处理的唯一顶点数。 |
| VsGsPrimsIn | 离散, 流式 | 项 | 传入 GS 的原始图元数。 |
PreTessellation 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PreTessVerticesIn | 离散, 流式 | 项 | 在使用镶嵌时,VS 和 HS 处理的唯一顶点数。 |
PostTessellation 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PostTessPrimsOut | 离散, 流式 | 项 | 在使用镶嵌时,DS 和 GS 输出的原始图元数。 |
PrimitiveAssembly 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PrimitivesIn | 离散, 流式 | 项 | 硬件接收到的原始图元数。包括镶嵌生成的原始图元。 |
| CulledPrims | 离散 | 项 | 被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。 |
| ClippedPrims | 离散 | 项 | 由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。 |
| PAStalledOnRasterizer | 离散, 流式 | 百分比 | 原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。 |
| PAStalledOnRasterizerCycles | 离散, 流式 | 周期 | 原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。 |
PixelShader 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PSPixelsOut | 离散, 流式 | 项 | 从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素;如果有多个渲染目标,每个渲染目标会收到一次导出,因此写入两个 RT 的 1 个像素会是 2。 |
| PSExportStalls | 离散, 流式 | 百分比 | 像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。 |
| PSExportStallsCycles | 离散, 流式 | 周期 | 像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。 |
ComputeShader 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| CSThreadGroupsLaunched | 离散, 流式 | 项 | 启动的线程组总数。 |
| CSWavefrontsLaunched | 离散, 流式 | 项 | 为 CS 启动的波形前沿总数。 |
| CSThreadsLaunched | 离散, 流式 | 项 | 由硬件启动和处理的 CS 线程数。 |
| CSThreadGroupSize | 离散, 流式 | 项 | 每个线程组中的 CS 线程数。 |
| CSLDSBankConflict | 离散, 流式 | 百分比 | LDS 因银行冲突而停顿的 GPUTime 百分比。值范围:0%(最佳)到 100%(差)。 |
| CSLDSBankConflictCycles | 离散, 流式 | 周期 | LDS 因银行冲突而停顿的 GPU 周期数。值范围:0(最佳)到 GPUBusyCycles(差)。 |
TextureUnit 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| TexTriFilteringPct | 离散, 流式 | 百分比 | 应用了三线性过滤的像素百分比。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。 |
| TexTriFilteringCount | 离散, 流式 | 项 | 应用了三线性过滤的像素数。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。 |
| NoTexTriFilteringCount | 离散, 流式 | 项 | 未应用三线性过滤的像素数。 |
| TexVolFilteringPct | 离散, 流式 | 百分比 | 应用了体积过滤的像素百分比。 |
| TexVolFilteringCount | 离散, 流式 | 项 | 应用了体积过滤的像素数。 |
| NoTexVolFilteringCount | 离散, 流式 | 项 | 未应用体积过滤的像素数。 |
| TexAveAnisotropy | 离散 | 项 | 应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样(例如,如果视图向量垂直于表面,则不会有额外的各向异性采样),因此它可以远低于请求的各向异性。 |
DepthAndStencil 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| HiZQuadsCulled | 离散 | 百分比 | HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。 |
| HiZQuadsCulledCount | 离散 | 项 | HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。 |
| HiZQuadsAcceptedCount | 离散, 流式 | 项 | HiZ 之后继续在管线中处理的四边形数。 |
| PreZQuadsCulled | 离散 | 百分比 | 基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。 |
| PreZQuadsCulledCount | 离散 | 项 | 基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。 |
| PreZQuadsSurvivingCount | 离散, 流式 | 项 | 通过 detailZ 和 earlyZ 测试的四边形数。 |
| PostZQuads | 离散 | 百分比 | 像素着色器将运行并可能进行 postZ 测试的四边形百分比。 |
| PostZQuadCount | 离散, 流式 | 项 | 像素着色器将运行并可能进行 postZ 测试的四边形数。 |
| PreZSamplesPassing | 离散, 流式 | 项 | 在着色前进行 Z 测试并通过的采样数。 |
| PreZSamplesFailingS | 离散, 流式 | 项 | 在着色前进行 Z 测试但模板测试失败的采样数。 |
| PreZSamplesFailingZ | 离散, 流式 | 项 | 在着色前进行 Z 测试但 Z 测试失败的采样数。 |
| PostZSamplesPassing | 离散, 流式 | 项 | 在着色后进行 Z 测试并通过的采样数。 |
| PostZSamplesFailingS | 离散, 流式 | 项 | 在着色后进行 Z 测试但模板测试失败的采样数。 |
| PostZSamplesFailingZ | 离散, 流式 | 项 | 在着色后进行 Z 测试但 Z 测试失败的采样数。 |
| ZUnitStalled | 离散, 流式 | 百分比 | 深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。 |
| ZUnitStalledCycles | 离散, 流式 | 周期 | 深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。 |
ColorBuffer 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| CBMemRead | 离散, 流式 | 字节 | 从颜色缓冲区读取的字节数。 |
| CBMemWritten | 离散, 流式 | 字节 | 写入颜色缓冲区的字节数。 |
MemoryCache 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| L0CacheHit | 离散, 流式 | 百分比 | 数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L0CacheRequestCount | 离散, 流式 | 项 | 发往 L0 缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| L0CacheHitCount | 离散, 流式 | 项 | 从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| L0CacheMissCount | 离散, 流式 | 项 | 从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| ScalarCacheHit | 离散, 流式 | 百分比 | 执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。 |
| ScalarCacheRequestCount | 离散, 流式 | 项 | 执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| ScalarCacheHitCount | 离散, 流式 | 项 | 执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| ScalarCacheMissCount | 离散, 流式 | 项 | 执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| InstCacheHit | 离散, 流式 | 百分比 | 命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。 |
| InstCacheRequestCount | 离散, 流式 | 项 | 发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| InstCacheHitCount | 离散, 流式 | 项 | 命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| InstCacheMissCount | 离散, 流式 | 项 | 未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| L2CacheHit | 离散, 流式 | 百分比 | 数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L2CacheMiss | 离散, 流式 | 百分比 | 数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(最佳)到 100%(全部未命中)。 |
| L2CacheRequestCount | 离散, 流式 | 项 | 发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L2CacheHitCount | 离散, 流式 | 项 | 从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L2CacheMissCount | 离散, 流式 | 项 | 从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L0TagConflictReadStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存读取操作停顿的周期数。 |
| L0TagConflictWriteStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存写入操作停顿的周期数。 |
| L0TagConflictAtomicStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存原子操作停顿的周期数。 |
GlobalMemory 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| FetchSize | 离散, 流式 | 字节 | 从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| WriteSize | 离散, 流式 | 字节 | 写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| MemUnitBusy | 离散, 流式 | 百分比 | 内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围:0% 到 100%(提取受限)。 |
| MemUnitBusyCycles | 离散, 流式 | 周期 | 内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。 |
| MemUnitStalled | 离散, 流式 | 百分比 | 内存单元停顿的 GPUTime 百分比。如果可能,尝试减少提取和写入的数量或大小。值范围:0%(最佳)到 100%(差)。 |
| MemUnitStalledCycles | 离散, 流式 | 周期 | 内存单元停顿的 GPU 周期数。 |
| WriteUnitStalled | 离散, 流式 | 百分比 | 写入单元停顿的 GPUTime 百分比。值范围:0% 到 100%(差)。 |
| WriteUnitStalledCycles | 离散, 流式 | 周期 | 写入单元停顿的 GPU 周期数。 |
| LocalVidMemBytes | 离散 | 字节 | 从 Infinity Cache(如果可用)或本地显存读取或写入的字节数。 |
| PcieBytes | 离散, 流式 | 字节 | 通过 PCIe 总线发送和接收的字节数。 |
RayTracing 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| RayTriTests | 离散, 流式 | 项 | 射线三角形交叉测试次数。 |
| RayBoxTests | 离散, 流式 | 项 | 射线包围盒交叉测试次数。 |
| TotalRayTests | 离散, 流式 | 项 | 射线交叉测试总次数,包括包围盒和三角形交叉。 |
| RayTestsPerWave | 离散, 流式 | 项 | 每个波形前沿的射线交叉测试次数。 |
WaveDistribution 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| WaveOccupancyPct | 流式 | 百分比 | 当前使用的最大波形前沿占用率百分比。 |
WaveOccupancyLimiters 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| HSLimitedByVgpr | 流式 | 百分比 | 受 VGPR 可用性限制的 HS 波形调度请求百分比。 |
| HSLimitedByLds | 流式 | 百分比 | 受 LDS 可用性限制的 HS 波形调度请求百分比。 |
| HSLimitedByScratch | 流式 | 百分比 | 受 scratch 空间可用性限制的 HS 波形调度请求百分比。 |
| HSLimitedByBarriers | 流式 | 百分比 | 受屏障限制的 HS 波形调度请求百分比。 |
| GSLimitedByVgpr | 流式 | 百分比 | 受 VGPR 可用性限制的 GS 波形调度请求百分比。 |
| GSLimitedByLds | 流式 | 百分比 | 受 LDS 可用性限制的 GS 波形调度请求百分比。 |
| GSLimitedByScratch | 流式 | 百分比 | GS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| PSLimitedByLds | 流式 | 百分比 | PS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| PSLimitedByVgpr | 流式 | 百分比 | PS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| PSLimitedByScratch | 流式 | 百分比 | PS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| CSLimitedByLds | 流式 | 百分比 | CS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| CSLimitedByVgpr | 流式 | 百分比 | CS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| CSLimitedByScratch | 流式 | 百分比 | CS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| CSLimitedByBarriers | 流式 | 百分比 | CS 波调度请求因屏障而受限的百分比。 |
| CSLimitedByThreadGroupLimit | 流式 | 百分比 | CS 波调度请求因线程组限制而受限的百分比。 |
Copyright(c) 2018-2025 Advanced Micro Devices, Inc. All rights reserved.RDNA3 图形性能计数器*** 注意,这是一个自动生成的文件。请勿编辑。请执行 PublicCounterCompiler 进行重建。
RDNA3 计数器
Timing 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| GPUTime | 离散 | 纳秒 | 此 API 命令在 GPU 上执行所花费的时间(以纳秒为单位),从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。 |
| ExecutionDuration | 离散 | 纳秒 | GPU 命令执行持续时间(以纳秒为单位),从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。 |
| ExecutionStart | 离散 | 纳秒 | GPU 命令执行开始时间(以纳秒为单位)。这是命令进入管线顶部 (TOP) 的时间。 |
| ExecutionEnd | 离散 | 纳秒 | GPU 命令执行结束时间(以纳秒为单位)。这是命令到达管线底部 (BOP) 的时间。 |
| GPUBusy | 离散, 流式 | 百分比 | GPU 命令处理器忙碌的时间百分比。 |
| GPUBusyCycles | 离散, 流式 | 周期 | GPU 命令处理器忙碌的 GPU 周期数。 |
| TessellatorBusy | 离散, 流式 | 百分比 | 镶嵌引擎忙碌的时间百分比。 |
| TessellatorBusyCycles | 离散, 流式 | 周期 | 镶嵌引擎忙碌的 GPU 周期数。 |
| VsGsBusy | 离散, 流式 | 百分比 | 在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间百分比。 |
| VsGsBusyCycles | 离散, 流式 | 周期 | 在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。 |
| VsGsTime | 离散 | 纳秒 | 在 VS-[GS-]PS 管线中,VS 或 GS 忙碌的时间(以纳秒为单位)。 |
| PreTessellationBusy | 离散, 流式 | 百分比 | 在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间百分比。 |
| PreTessellationBusyCycles | 离散, 流式 | 周期 | 在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。 |
| PreTessellationTime | 离散 | 纳秒 | 在使用镶嵌的管线中,VS 和 HS 忙碌的时间(以纳秒为单位)。 |
| PostTessellationBusy | 离散, 流式 | 百分比 | 在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间百分比。 |
| PostTessellationBusyCycles | 离散, 流式 | 周期 | 在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。 |
| PostTessellationTime | 离散 | 纳秒 | 在使用镶嵌的管线中,DS 或 GS 忙碌的时间(以纳秒为单位)。 |
| PSBusy | 离散, 流式 | 百分比 | ShaderUnit 拥有像素着色器工作的时间百分比。 |
| PSBusyCycles | 离散, 流式 | 周期 | ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。 |
| PSTime | 离散 | 纳秒 | 像素着色器忙碌的时间(以纳秒为单位)。 |
| CSBusy | 离散, 流式 | 百分比 | ShaderUnit 拥有计算着色器工作的时间百分比。 |
| CSBusyCycles | 离散, 流式 | 周期 | ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。 |
| CSTime | 离散 | 纳秒 | 计算着色器忙碌的时间(以纳秒为单位)。 |
| PrimitiveAssemblyBusy | 离散 | 百分比 | 原始图元装配(裁剪和剔除)忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。 |
| PrimitiveAssemblyBusyCycles | 离散 | 周期 | 原始图元装配(裁剪和剔除)忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。 |
| TexUnitBusy | 离散, 流式 | 百分比 | 纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| TexUnitBusyCycles | 离散, 流式 | 周期 | 纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| DepthStencilTestBusy | 离散, 流式 | 百分比 | GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。 |
| DepthStencilTestBusyCycles | 离散, 流式 | 周期 | 花费在深度和模板测试上的 GPU 周期数。 |
VertexGeometry 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| VsGsVerticesIn | 离散, 流式 | 项 | VS 和 GS 处理的唯一顶点数。 |
| VsGsPrimsIn | 离散, 流式 | 项 | 传入 GS 的原始图元数。 |
PreTessellation 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PreTessVerticesIn | 离散, 流式 | 项 | 在使用镶嵌时,VS 和 HS 处理的唯一顶点数。 |
PostTessellation 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PostTessPrimsOut | 离散, 流式 | 项 | 在使用镶嵌时,DS 和 GS 输出的原始图元数。 |
PrimitiveAssembly 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PrimitivesIn | 离散, 流式 | 项 | 硬件接收到的原始图元数。包括镶嵌生成的原始图元。 |
| CulledPrims | 离散 | 项 | 被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。 |
| ClippedPrims | 离散 | 项 | 由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。 |
| PAStalledOnRasterizer | 离散, 流式 | 百分比 | 原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。 |
| PAStalledOnRasterizerCycles | 离散, 流式 | 周期 | 原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。 |
PixelShader 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PSPixelsOut | 离散, 流式 | 项 | 从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素;如果有多个渲染目标,每个渲染目标会收到一次导出,因此写入两个 RT 的 1 个像素会是 2。 |
| PSExportStalls | 离散, 流式 | 百分比 | 像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。 |
| PSExportStallsCycles | 离散, 流式 | 周期 | 像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。 |
ComputeShader 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| CSThreadGroupsLaunched | 离散, 流式 | 项 | 已启动的线程组总数。 |
| CSWavefrontsLaunched | 离散, 流式 | 项 | 为 CS 启动的波形前沿总数。 |
| CSThreadsLaunched | 离散, 流式 | 项 | 由硬件启动和处理的 CS 线程数。 |
| CSThreadGroupSize | 离散 | 项 | 每个线程组中的 CS 线程数。 |
| CSALUStalledByLDS | 离散 | 百分比 | 每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。 |
| CSALUStalledByLDSCycles | 离散 | 周期 | 每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期平均数。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。 |
| CSLDSBankConflict | 离散, 流式 | 百分比 | 因银行冲突导致 LDS 停止的 GPUTime 平均百分比。值范围:0%(最佳)到 100%(差)。 |
| CSLDSBankConflictCycles | 离散, 流式 | 周期 | 因银行冲突导致 LDS 停止的 GPU 时钟周期平均数。值范围:0(最佳)到 GPUBusyCycles(差)。 |
| CSALUStalledByLDSPerWave | 流式 | 百分比 | 每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。 |
TextureUnit 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| TexTriFilteringPct | 离散, 流式 | 百分比 | 应用了三线性过滤的像素百分比。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。 |
| TexTriFilteringCount | 离散, 流式 | 项 | 应用了三线性过滤的像素数。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。 |
| NoTexTriFilteringCount | 离散, 流式 | 项 | 未应用三线性过滤的像素数。 |
| TexVolFilteringPct | 离散, 流式 | 百分比 | 应用了体积过滤的像素百分比。 |
| TexVolFilteringCount | 离散, 流式 | 项 | 应用了体积过滤的像素数。 |
| NoTexVolFilteringCount | 离散, 流式 | 项 | 未应用体积过滤的像素数。 |
| TexAveAnisotropy | 离散 | 项 | 应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样(例如,如果视图向量垂直于表面,则不会有额外的各向异性采样),因此它可以远低于请求的各向异性。 |
DepthAndStencil 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| HiZTilesAccepted | 离散, 流式 | 百分比 | 被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。 |
| HiZTilesAcceptedCount | 离散, 流式 | 项 | 被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。 |
| HiZTilesRejectedCount | 离散, 流式 | 项 | 未被 HiZ 接受的图块计数。 |
| PreZTilesDetailCulled | 离散, 流式 | 百分比 | 因相关图元没有贡献面积而被拒绝的图块百分比。 |
| PreZTilesDetailCulledCount | 离散, 流式 | 项 | 因相关图元没有贡献面积而被拒绝的图块计数。 |
| PreZTilesDetailSurvivingCount | 离散, 流式 | 项 | 因相关图元有贡献面积而保留的图块计数。 |
| HiZQuadsCulled | 离散 | 百分比 | HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。 |
| HiZQuadsCulledCount | 离散 | 项 | HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。 |
| HiZQuadsAcceptedCount | 离散, 流式 | 项 | HiZ 之后继续在管线中处理的四边形数。 |
| PreZQuadsCulled | 离散 | 百分比 | 基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。 |
| PreZQuadsCulledCount | 离散 | 项 | 基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。 |
| PreZQuadsSurvivingCount | 离散, 流式 | 项 | 通过 detailZ 和 earlyZ 测试的四边形数。 |
| PostZQuads | 离散 | 百分比 | 像素着色器将运行并可能进行 postZ 测试的四边形百分比。 |
| PostZQuadCount | 离散, 流式 | 项 | 像素着色器将运行并可能进行 postZ 测试的四边形数。 |
| PreZSamplesPassing | 离散, 流式 | 项 | 在着色前进行 Z 测试并通过的采样数。 |
| PreZSamplesFailingS | 离散, 流式 | 项 | 在着色前进行 Z 测试但模板测试失败的采样数。 |
| PreZSamplesFailingZ | 离散, 流式 | 项 | 在着色前进行 Z 测试但 Z 测试失败的采样数。 |
| PostZSamplesPassing | 离散, 流式 | 项 | 在着色后进行 Z 测试并通过的采样数。 |
| PostZSamplesFailingS | 离散, 流式 | 项 | 在着色后进行 Z 测试但模板测试失败的采样数。 |
| PostZSamplesFailingZ | 离散, 流式 | 项 | 在着色后进行 Z 测试但 Z 测试失败的采样数。 |
| ZUnitStalled | 离散, 流式 | 百分比 | 深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。 |
| ZUnitStalledCycles | 离散, 流式 | 周期 | 深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。 |
| DBMemRead | 离散, 流式 | 字节 | 从深度缓冲区读取的字节数。 |
| DBMemWritten | 离散, 流式 | 字节 | 写入深度缓冲区的字节数。 |
MemoryCache 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| L0CacheHit | 离散, 流式 | 百分比 | 数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L0CacheRequestCount | 离散, 流式 | 项 | 发往 L0 缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| L0CacheHitCount | 离散, 流式 | 项 | 从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| L0CacheMissCount | 离散, 流式 | 项 | 从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| ScalarCacheHit | 离散, 流式 | 百分比 | 执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。 |
| ScalarCacheRequestCount | 离散, 流式 | 项 | 执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| ScalarCacheHitCount | 离散, 流式 | 项 | 执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| ScalarCacheMissCount | 离散, 流式 | 项 | 执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| InstCacheHit | 离散, 流式 | 百分比 | 命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。 |
| InstCacheRequestCount | 离散, 流式 | 项 | 发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| InstCacheHitCount | 离散, 流式 | 项 | 命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| InstCacheMissCount | 离散, 流式 | 项 | 未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| L1CacheHit | 离散, 流式 | 百分比 | 在 L1 缓存中命中数据(读取或写入)的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L1CacheRequestCount | 离散 | 项 | 向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L1CacheHitCount | 离散, 流式 | 项 | 从 L1 缓存命中(缓存命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L1CacheMissCount | 离散, 流式 | 项 | 从 L1 缓存未命中(缓存未命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L2CacheHit | 离散, 流式 | 百分比 | 数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L2CacheMiss | 离散, 流式 | 百分比 | 数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(最佳)到 100%(全部未命中)。 |
| L2CacheRequestCount | 离散, 流式 | 项 | 发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L2CacheHitCount | 离散, 流式 | 项 | 从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L2CacheMissCount | 离散, 流式 | 项 | 从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L0TagConflictReadStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存读取操作停顿的周期数。 |
| L0TagConflictWriteStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存写入操作停顿的周期数。 |
| L0TagConflictAtomicStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存原子操作停顿的周期数。 |
GlobalMemory 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| FetchSize | 离散, 流式 | 字节 | 从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| WriteSize | 离散, 流式 | 字节 | 写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| MemUnitBusy | 离散, 流式 | 百分比 | 内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围:0% 到 100%(提取受限)。 |
| MemUnitBusyCycles | 离散, 流式 | 周期 | 内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。 |
| MemUnitStalled | 离散, 流式 | 百分比 | 内存单元停顿的 GPUTime 百分比。如果可能,尝试减少提取和写入的数量或大小。值范围:0%(最佳)到 100%(差)。 |
| MemUnitStalledCycles | 离散, 流式 | 周期 | 内存单元停顿的 GPU 周期数。 |
| WriteUnitStalled | 离散, 流式 | 百分比 | 写入单元停顿的 GPUTime 百分比。值范围:0% 到 100%(差)。 |
| WriteUnitStalledCycles | 离散, 流式 | 周期 | 写入单元停顿的 GPU 周期数。 |
| LocalVidMemBytes | 离散 | 字节 | 从 Infinity Cache(如果可用)或本地显存读取或写入的字节数。 |
| PcieBytes | 离散, 流式 | 字节 | 通过 PCIe 总线发送和接收的字节数。 |
RayTracing 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| RayTriTests | 离散, 流式 | 项 | 射线三角形交叉测试次数。 |
| RayBoxTests | 离散, 流式 | 项 | 射线包围盒交叉测试次数。 |
| TotalRayTests | 离散, 流式 | 项 | 射线交叉测试总次数,包括包围盒和三角形交叉。 |
| RayTestsPerWave | 离散, 流式 | 项 | 每个波形前沿的射线交叉测试次数。 |
WaveDistribution 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| WaveOccupancyPct | 流式 | 百分比 | 当前使用的最大波形前沿占用率百分比。 |
WaveOccupancyLimiters 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| HSLimitedByVgpr | 流式 | 百分比 | 受 VGPR 可用性限制的 HS 波形调度请求百分比。 |
| HSLimitedByLds | 流式 | 百分比 | 受 LDS 可用性限制的 HS 波形调度请求百分比。 |
| HSLimitedByScratch | 流式 | 百分比 | 受 scratch 空间可用性限制的 HS 波形调度请求百分比。 |
| HSLimitedByBarriers | 流式 | 百分比 | 受屏障限制的 HS 波形调度请求百分比。 |
| GSLimitedByVgpr | 流式 | 百分比 | 受 VGPR 可用性限制的 GS 波形调度请求百分比。 |
| GSLimitedByLds | 流式 | 百分比 | 受 LDS 可用性限制的 GS 波形调度请求百分比。 |
| GSLimitedByScratch | 流式 | 百分比 | GS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| PSLimitedByLds | 流式 | 百分比 | PS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| PSLimitedByVgpr | 流式 | 百分比 | PS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| PSLimitedByScratch | 流式 | 百分比 | PS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| CSLimitedByLds | 流式 | 百分比 | CS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| CSLimitedByVgpr | 流式 | 百分比 | CS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| CSLimitedByScratch | 流式 | 百分比 | CS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| CSLimitedByBarriers | 流式 | 百分比 | CS 波调度请求因屏障而受限的百分比。 |
| CSLimitedByThreadGroupLimit | 流式 | 百分比 | CS 波调度请求因线程组限制而受限的百分比。 |
Copyright(c) 2018-2025 Advanced Micro Devices, Inc. All rights reserved.RDNA2 图形性能计数器*** 注意,这是一个自动生成的文件。请勿编辑。请执行 PublicCounterCompiler 进行重建。
RDNA2 计数器
Timing 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| GPUTime | 离散 | 纳秒 | 此 API 命令在 GPU 上执行所花费的时间(以纳秒为单位),从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。 |
| ExecutionDuration | 离散 | 纳秒 | GPU 命令执行持续时间(以纳秒为单位),从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。 |
| ExecutionStart | 离散 | 纳秒 | GPU 命令执行开始时间(以纳秒为单位)。这是命令进入管线顶部 (TOP) 的时间。 |
| ExecutionEnd | 离散 | 纳秒 | GPU 命令执行结束时间(以纳秒为单位)。这是命令到达管线底部 (BOP) 的时间。 |
| GPUBusy | 离散, 流式 | 百分比 | GPU 命令处理器忙碌的时间百分比。 |
| GPUBusyCycles | 离散, 流式 | 周期 | GPU 命令处理器忙碌的 GPU 周期数。 |
| TessellatorBusy | 离散, 流式 | 百分比 | 镶嵌引擎忙碌的时间百分比。 |
| TessellatorBusyCycles | 离散, 流式 | 周期 | 镶嵌引擎忙碌的 GPU 周期数。 |
| VsGsBusy | 离散, 流式 | 百分比 | 在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间百分比。 |
| VsGsBusyCycles | 离散, 流式 | 周期 | 在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。 |
| VsGsTime | 离散 | 纳秒 | 在 VS-[GS-]PS 管线中,VS 或 GS 忙碌的时间(以纳秒为单位)。 |
| PreTessellationBusy | 离散, 流式 | 百分比 | 在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间百分比。 |
| PreTessellationBusyCycles | 离散, 流式 | 周期 | 在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。 |
| PreTessellationTime | 离散 | 纳秒 | 在使用镶嵌的管线中,VS 和 HS 忙碌的时间(以纳秒为单位)。 |
| PostTessellationBusy | 离散, 流式 | 百分比 | 在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间百分比。 |
| PostTessellationBusyCycles | 离散, 流式 | 周期 | 在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。 |
| PostTessellationTime | 离散 | 纳秒 | 在使用镶嵌的管线中,DS 或 GS 忙碌的时间(以纳秒为单位)。 |
| PSBusy | 离散, 流式 | 百分比 | ShaderUnit 拥有像素着色器工作的时间百分比。 |
| PSBusyCycles | 离散, 流式 | 周期 | ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。 |
| PSTime | 离散 | 纳秒 | 像素着色器忙碌的时间(以纳秒为单位)。 |
| CSBusy | 离散, 流式 | 百分比 | ShaderUnit 拥有计算着色器工作的时间百分比。 |
| CSBusyCycles | 离散, 流式 | 周期 | ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。 |
| CSTime | 离散 | 纳秒 | 计算着色器忙碌的时间(以纳秒为单位)。 |
| PrimitiveAssemblyBusy | 离散 | 百分比 | 原始图元装配(裁剪和剔除)忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。 |
| PrimitiveAssemblyBusyCycles | 离散 | 周期 | 原始图元装配(裁剪和剔除)忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。 |
| TexUnitBusy | 离散, 流式 | 百分比 | 纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| TexUnitBusyCycles | 离散, 流式 | 周期 | 纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| DepthStencilTestBusy | 离散, 流式 | 百分比 | GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。 |
| DepthStencilTestBusyCycles | 离散, 流式 | 周期 | 花费在深度和模板测试上的 GPU 周期数。 |
VertexGeometry 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| GSVerticesOut | 离散, 流式 | 项 | GS 输出的顶点数。 |
| VsGsVALUInstCount | 离散 | 项 | 在 VS-[GS-]PS 管道中,VS 和 GS 执行的向量 ALU 指令的平均数(受控制流影响)。 |
| VsGsSALUInstCount | 离散 | 项 | VS 和 GS 执行的标量 ALU 指令的平均数(受控制流影响)。 |
| VsGsVALUBusy | 离散 | 百分比 | VS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。 |
| VsGsVALUBusyCycles | 离散 | 周期 | VS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。 |
| VsGsSALUBusy | 离散 | 百分比 | VS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。 |
| VsGsSALUBusyCycles | 离散 | 周期 | VS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。 |
PreTessellation 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PreTessVALUInstCount | 离散, 流式 | 项 | 在使用了镶嵌的管道中,VS 和 HS 执行的向量 ALU 指令的平均数(受控制流影响)。 |
| PreTessSALUInstCount | 离散, 流式 | 项 | 在使用了镶嵌的管道中,VS 和 HS 执行的标量 ALU 指令的平均数(受控制流影响)。 |
| PreTessVALUBusy | 离散, 流式 | 百分比 | 在使用了镶嵌的管道中,VS 和 HS 处理向量 ALU 指令的 GPUTime 百分比。 |
| PreTessVALUBusyCycles | 离散, 流式 | 周期 | 在使用了镶嵌的管道中,VS 和 HS 处理向量 ALU 指令的 GPU 时钟周期数。 |
| PreTessSALUBusy | 离散, 流式 | 百分比 | 在使用了镶嵌的管道中,VS 和 HS 处理标量 ALU 指令的 GPUTime 百分比。 |
| PreTessSALUBusyCycles | 离散, 流式 | 周期 | 在使用了镶嵌的管道中,VS 和 HS 处理标量 ALU 指令的 GPU 时钟周期数。 |
| PreTessVerticesIn | 离散, 流式 | 项 | 在使用镶嵌时,由 VS 和 HS 处理的顶点数。 |
PostTessellation 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PostTessPrimsOut | 离散, 流式 | 项 | 在使用镶嵌时,DS 和 GS 输出的原始图元数。 |
| PostTessVALUInstCount | 离散, 流式 | 项 | 在使用了镶嵌的管道中,DS 和 GS 执行的向量 ALU 指令的平均数(受控制流影响)。 |
| PostTessSALUInstCount | 离散 | 项 | 在使用了镶嵌的管道中,DS 和 GS 执行的标量 ALU 指令的平均数(受控制流影响)。 |
| PostTessVALUBusy | 离散, 流式 | 百分比 | 在使用了镶嵌的管道中,DS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。 |
| PostTessVALUBusyCycles | 离散, 流式 | 周期 | 在使用了镶嵌的管道中,DS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。 |
| PostTessSALUBusy | 离散, 流式 | 百分比 | 在使用了镶嵌的管道中,DS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。 |
| PostTessSALUBusyCycles | 离散, 流式 | 周期 | 在使用了镶嵌的管道中,DS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。 |
PrimitiveAssembly 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PrimitivesIn | 离散, 流式 | 项 | 硬件接收到的原始图元数。包括镶嵌生成的原始图元。 |
| CulledPrims | 离散 | 项 | 被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。 |
| ClippedPrims | 离散, 流式 | 项 | 由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。 |
| PAStalledOnRasterizer | 离散, 流式 | 百分比 | 原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。 |
| PAStalledOnRasterizerCycles | 离散, 流式 | 周期 | 原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。 |
PixelShader 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PSPixelsOut | 离散, 流式 | 项 | 从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素;如果有多个渲染目标,每个渲染目标会收到一次导出,因此写入两个 RT 的 1 个像素会是 2。 |
| PSExportStalls | 离散, 流式 | 百分比 | 像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。 |
| PSExportStallsCycles | 离散, 流式 | 周期 | 像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。 |
ComputeShader 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| CSThreadGroupsLaunched | 离散, 流式 | 项 | 启动的线程组总数。 |
| CSWavefrontsLaunched | 离散, 流式 | 项 | 为 CS 启动的波形前沿总数。 |
| CSThreadsLaunched | 离散, 流式 | 项 | 由硬件启动和处理的 CS 线程数。 |
| CSThreadGroupSize | 离散 | 项 | 每个线程组中的 CS 线程数。 |
| CSVALUInsts | 离散 | 项 | 每个工作项执行的向量 ALU 指令的平均数(受控制流影响)。 |
| CSVALUUtilization | 离散 | 百分比 | 波阵列中活动的向量 ALU 线程的百分比。较低的数字可能表示波阵列中的线程发散增加,或者工作组大小不是波阵列大小的倍数。值范围:0%(差)到 100%(理想 - 无线程发散)。 |
| CSSALUInsts | 离散 | 项 | 每个工作项执行的标量 ALU 指令的平均数(受控制流影响)。 |
| CSVFetchInsts | 离散 | 项 | 每个工作项执行的从视频内存读取的向量读取指令的平均数(受控制流影响)。 |
| CSSFetchInsts | 离散 | 项 | 每个工作项执行的从视频内存读取的标量读取指令的平均数(受控制流影响)。 |
| CSVWriteInsts | 离散 | 项 | 每个工作项执行的写入视频内存的向量写入指令的平均数(受控制流影响)。 |
| CSGDSInsts | 离散 | 项 | 每个工作项执行的 GDS 读取或 GDS 写入指令的平均数(受控制流影响)。 |
| CSLDSInsts | 离散 | 项 | 每个工作项执行的 LDS 读取/写入指令的平均数(受控制流影响)。 |
| CSALUStalledByLDS | 离散 | 百分比 | ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。 |
| CSALUStalledByLDSCycles | 离散 | 周期 | 每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期平均数。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。 |
| CSLDSBankConflict | 离散, 流式 | 百分比 | LDS 因银行冲突而停顿的 GPUTime 百分比。值范围:0%(最佳)到 100%(差)。 |
| CSLDSBankConflictCycles | 离散, 流式 | 周期 | LDS 因银行冲突而停顿的 GPU 周期数。值范围:0(最佳)到 GPUBusyCycles(差)。 |
| CSALUStalledByLDSPerWave | 流式 | 百分比 | 每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。 |
TextureUnit 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| TexTriFilteringPct | 离散, 流式 | 百分比 | 应用了三线性过滤的像素百分比。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。 |
| TexTriFilteringCount | 离散, 流式 | 项 | 应用了三线性过滤的像素数。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。 |
| NoTexTriFilteringCount | 离散, 流式 | 项 | 未应用三线性过滤的像素数。 |
| TexVolFilteringPct | 离散, 流式 | 百分比 | 应用了体积过滤的像素百分比。 |
| TexVolFilteringCount | 离散, 流式 | 项 | 应用了体积过滤的像素数。 |
| NoTexVolFilteringCount | 离散, 流式 | 项 | 未应用体积过滤的像素数。 |
| TexAveAnisotropy | 离散 | 项 | 应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样(例如,如果视图向量垂直于表面,则不会有额外的各向异性采样),因此它可以远低于请求的各向异性。 |
DepthAndStencil 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| HiZTilesAccepted | 离散, 流式 | 百分比 | 被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。 |
| HiZTilesAcceptedCount | 离散, 流式 | 项 | 被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。 |
| HiZTilesRejectedCount | 离散, 流式 | 项 | 未被 HiZ 接受的图块计数。 |
| PreZTilesDetailCulled | 离散, 流式 | 百分比 | 因相关图元没有贡献面积而被拒绝的图块百分比。 |
| PreZTilesDetailCulledCount | 离散, 流式 | 项 | 因相关图元没有贡献面积而被拒绝的图块计数。 |
| PreZTilesDetailSurvivingCount | 离散, 流式 | 项 | 因相关图元有贡献面积而保留的图块计数。 |
| HiZQuadsCulled | 离散 | 百分比 | HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。 |
| HiZQuadsCulledCount | 离散 | 项 | HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。 |
| HiZQuadsAcceptedCount | 离散, 流式 | 项 | HiZ 之后继续在管线中处理的四边形数。 |
| PreZQuadsCulled | 离散 | 百分比 | 基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。 |
| PreZQuadsCulledCount | 离散 | 项 | 基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。 |
| PreZQuadsSurvivingCount | 离散 | 项 | 通过 detailZ 和 earlyZ 测试的四边形数。 |
| PostZQuads | 离散 | 百分比 | 像素着色器将运行并可能进行 postZ 测试的四边形百分比。 |
| PostZQuadCount | 离散, 流式 | 项 | 像素着色器将运行并可能进行 postZ 测试的四边形数。 |
| PreZSamplesPassing | 离散, 流式 | 项 | 在着色前进行 Z 测试并通过的采样数。 |
| PreZSamplesFailingS | 离散, 流式 | 项 | 在着色前进行 Z 测试但模板测试失败的采样数。 |
| PreZSamplesFailingZ | 离散, 流式 | 项 | 在着色前进行 Z 测试但 Z 测试失败的采样数。 |
| PostZSamplesPassing | 离散, 流式 | 项 | 在着色后进行 Z 测试并通过的采样数。 |
| PostZSamplesFailingS | 离散, 流式 | 项 | 在着色后进行 Z 测试但模板测试失败的采样数。 |
| PostZSamplesFailingZ | 离散, 流式 | 项 | 在着色后进行 Z 测试但 Z 测试失败的采样数。 |
| ZUnitStalled | 离散, 流式 | 百分比 | 深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。 |
| ZUnitStalledCycles | 离散, 流式 | 周期 | 深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。 |
| DBMemRead | 离散, 流式 | 字节 | 从深度缓冲区读取的字节数。 |
| DBMemWritten | 离散, 流式 | 字节 | 写入深度缓冲区的字节数。 |
ColorBuffer 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| CBMemRead | 离散, 流式 | 字节 | 从颜色缓冲区读取的字节数。 |
| CBColorAndMaskRead | 离散, 流式 | 字节 | 从颜色和蒙版缓冲区读取的总字节数。 |
| CBMemWritten | 离散, 流式 | 字节 | 写入颜色缓冲区的字节数。 |
| CBColorAndMaskWritten | 离散, 流式 | 字节 | 写入颜色和蒙版缓冲区的总字节数。 |
| CBSlowPixelPct | 离散, 流式 | 百分比 | 使用半速率或四分之一速率格式写入颜色缓冲区的像素百分比。 |
| CBSlowPixelCount | 离散, 流式 | 项 | 使用半速率或四分之一速率格式写入颜色缓冲区的像素数。 |
MemoryCache 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| L0CacheHit | 离散, 流式 | 百分比 | 数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L0CacheRequestCount | 离散, 流式 | 项 | 发往 L0 缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| L0CacheHitCount | 离散, 流式 | 项 | 从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| L0CacheMissCount | 离散, 流式 | 项 | 从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| ScalarCacheHit | 离散, 流式 | 百分比 | 执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。 |
| ScalarCacheRequestCount | 离散, 流式 | 项 | 执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| ScalarCacheHitCount | 离散, 流式 | 项 | 执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| ScalarCacheMissCount | 离散, 流式 | 项 | 执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| InstCacheHit | 离散, 流式 | 百分比 | 命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。 |
| InstCacheRequestCount | 离散, 流式 | 项 | 发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| InstCacheHitCount | 离散, 流式 | 项 | 命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| InstCacheMissCount | 离散, 流式 | 项 | 未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| L1CacheHit | 离散, 流式 | 百分比 | 在 L1 缓存中命中数据(读取或写入)的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L1CacheRequestCount | 离散 | 项 | 向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L1CacheHitCount | 离散, 流式 | 项 | 从 L1 缓存命中(缓存命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L1CacheMissCount | 离散, 流式 | 项 | 从 L1 缓存未命中(缓存未命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L2CacheHit | 离散, 流式 | 百分比 | 数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L2CacheMiss | 离散, 流式 | 百分比 | 数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(最佳)到 100%(全部未命中)。 |
| L2CacheRequestCount | 离散, 流式 | 项 | 发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L2CacheHitCount | 离散, 流式 | 项 | 从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L2CacheMissCount | 离散, 流式 | 项 | 从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L0TagConflictReadStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存读取操作停顿的周期数。 |
| L0TagConflictWriteStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存写入操作停顿的周期数。 |
| L0TagConflictAtomicStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存原子操作停顿的周期数。 |
GlobalMemory 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| FetchSize | 离散, 流式 | 字节 | 从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| WriteSize | 离散, 流式 | 字节 | 写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| MemUnitBusy | 离散, 流式 | 百分比 | 内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围:0% 到 100%(提取受限)。 |
| MemUnitBusyCycles | 离散, 流式 | 周期 | 内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。 |
| MemUnitStalled | 离散, 流式 | 百分比 | 内存单元停顿的 GPUTime 百分比。如果可能,尝试减少提取和写入的数量或大小。值范围:0%(最佳)到 100%(差)。 |
| MemUnitStalledCycles | 离散, 流式 | 周期 | 内存单元停顿的 GPU 周期数。 |
| WriteUnitStalled | 离散, 流式 | 百分比 | 写入单元停顿的 GPUTime 百分比。值范围:0% 到 100%(差)。 |
| WriteUnitStalledCycles | 离散, 流式 | 周期 | 写入单元停顿的 GPU 周期数。 |
| LocalVidMemBytes | 离散 | 字节 | 从 Infinity Cache(如果可用)或本地显存读取或写入的字节数。 |
| PcieBytes | 离散 | 字节 | 通过 PCIe 总线发送和接收的字节数。 |
RayTracing 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| RayTriTests | 离散, 流式 | 项 | 射线三角形交叉测试次数。 |
| RayBoxTests | 离散, 流式 | 项 | 射线包围盒交叉测试次数。 |
| TotalRayTests | 离散, 流式 | 项 | 射线交叉测试总次数,包括包围盒和三角形交叉。 |
| RayTestsPerWave | 离散, 流式 | 项 | 每个波形前沿的射线交叉测试次数。 |
WaveDistribution 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| WaveOccupancyPct | 流式 | 百分比 | 当前使用的最大波形前沿占用率百分比。 |
WaveOccupancyLimiters 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| LSHSLimitedByVgpr | 流式 | 百分比 | LS 和 HS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| LSHSLimitedByLds | 流式 | 百分比 | LS 和 HS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| LSHSLimitedByScratch | 流式 | 百分比 | LS 和 HS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| HSLimitedByBarriers | 流式 | 百分比 | 受屏障限制的 HS 波形调度请求百分比。 |
| ESGSLimitedByVgpr | 流式 | 百分比 | ES 和 GS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| ESGSLimitedByLds | 流式 | 百分比 | ES 和 GS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| ESGSLimitedByScratch | 流式 | 百分比 | ES 和 GS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| VSLimitedByVgpr | 流式 | 百分比 | VS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| VSLimitedByScratch | 流式 | 百分比 | VS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| VSLimitedByExport | 流式 | 百分比 | VS 波因导出空间可用性不足而停止的周期百分比。 |
| PSLimitedByLds | 流式 | 百分比 | PS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| PSLimitedByVgpr | 流式 | 百分比 | PS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| PSLimitedByScratch | 流式 | 百分比 | PS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| CSLimitedByLds | 流式 | 百分比 | CS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| CSLimitedByVgpr | 流式 | 百分比 | CS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| CSLimitedByScratch | 流式 | 百分比 | CS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| CSLimitedByBarriers | 流式 | 百分比 | CS 波调度请求因屏障而受限的百分比。 |
| CSLimitedByThreadGroupLimit | 流式 | 百分比 | CS 波调度请求因线程组限制而受限的百分比。 |
Copyright(c) 2018-2025 Advanced Micro Devices, Inc. All rights reserved.RDNA 图形性能计数器*** 注意,这是一个自动生成的文件。请勿编辑。请执行 PublicCounterCompiler 进行重建。
RDNA 计数器
Timing 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| GPUTime | 离散 | 纳秒 | 此 API 命令在 GPU 上执行所花费的时间(以纳秒为单位),从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。 |
| ExecutionDuration | 离散 | 纳秒 | GPU 命令执行持续时间(以纳秒为单位),从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。 |
| ExecutionStart | 离散 | 纳秒 | GPU 命令执行开始时间(以纳秒为单位)。这是命令进入管线顶部 (TOP) 的时间。 |
| ExecutionEnd | 离散 | 纳秒 | GPU 命令执行结束时间(以纳秒为单位)。这是命令到达管线底部 (BOP) 的时间。 |
| GPUBusy | 离散, 流式 | 百分比 | GPU 命令处理器忙碌的时间百分比。 |
| GPUBusyCycles | 离散, 流式 | 周期 | GPU 命令处理器忙碌的 GPU 周期数。 |
| TessellatorBusy | 离散, 流式 | 百分比 | 镶嵌引擎忙碌的时间百分比。 |
| TessellatorBusyCycles | 离散, 流式 | 周期 | 镶嵌引擎忙碌的 GPU 周期数。 |
| VsGsBusy | 离散, 流式 | 百分比 | 在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间百分比。 |
| VsGsBusyCycles | 离散, 流式 | 周期 | 在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。 |
| VsGsTime | 离散 | 纳秒 | 在 VS-[GS-]PS 管线中,VS 或 GS 忙碌的时间(以纳秒为单位)。 |
| PreTessellationBusy | 离散, 流式 | 百分比 | 在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间百分比。 |
| PreTessellationBusyCycles | 离散, 流式 | 周期 | 在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。 |
| PreTessellationTime | 离散 | 纳秒 | 在使用镶嵌的管线中,VS 和 HS 忙碌的时间(以纳秒为单位)。 |
| PostTessellationBusy | 离散, 流式 | 百分比 | 在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间百分比。 |
| PostTessellationBusyCycles | 离散, 流式 | 周期 | 在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。 |
| PostTessellationTime | 离散 | 纳秒 | 在使用镶嵌的管线中,DS 或 GS 忙碌的时间(以纳秒为单位)。 |
| PSBusy | 离散, 流式 | 百分比 | ShaderUnit 拥有像素着色器工作的时间百分比。 |
| PSBusyCycles | 离散, 流式 | 周期 | ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。 |
| PSTime | 离散 | 纳秒 | 像素着色器忙碌的时间(以纳秒为单位)。 |
| CSBusy | 离散, 流式 | 百分比 | ShaderUnit 拥有计算着色器工作的时间百分比。 |
| CSBusyCycles | 离散, 流式 | 周期 | ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。 |
| CSTime | 离散 | 纳秒 | 计算着色器忙碌的时间(以纳秒为单位)。 |
| PrimitiveAssemblyBusy | 离散 | 百分比 | 原始图元装配(裁剪和剔除)忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。 |
| PrimitiveAssemblyBusyCycles | 离散 | 周期 | 原始图元装配(裁剪和剔除)忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。 |
| TexUnitBusy | 离散, 流式 | 百分比 | 纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| TexUnitBusyCycles | 离散, 流式 | 周期 | 纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| DepthStencilTestBusy | 离散, 流式 | 百分比 | GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。 |
| DepthStencilTestBusyCycles | 离散, 流式 | 周期 | 花费在深度和模板测试上的 GPU 周期数。 |
VertexGeometry 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| GSVerticesOut | 离散, 流式 | 项 | GS 输出的顶点数。 |
PreTessellation 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PreTessVerticesIn | 离散, 流式 | 项 | 在使用镶嵌时,由 VS 和 HS 处理的顶点数。 |
| PreTessVALUInstCount | 离散, 流式 | 项 | 在使用了镶嵌的管道中,VS 和 HS 执行的向量 ALU 指令的平均数(受控制流影响)。 |
| PreTessSALUInstCount | 离散, 流式 | 项 | 在使用了镶嵌的管道中,VS 和 HS 执行的标量 ALU 指令的平均数(受控制流影响)。 |
| PreTessVALUBusy | 离散, 流式 | 百分比 | 在使用了镶嵌的管道中,VS 和 HS 处理向量 ALU 指令的 GPUTime 百分比。 |
| PreTessVALUBusyCycles | 离散, 流式 | 周期 | 在使用了镶嵌的管道中,VS 和 HS 处理向量 ALU 指令的 GPU 时钟周期数。 |
| PreTessSALUBusy | 离散, 流式 | 百分比 | 在使用了镶嵌的管道中,VS 和 HS 处理标量 ALU 指令的 GPUTime 百分比。 |
| PreTessSALUBusyCycles | 离散, 流式 | 周期 | 在使用了镶嵌的管道中,VS 和 HS 处理标量 ALU 指令的 GPU 时钟周期数。 |
PostTessellation 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PostTessPrimsOut | 离散, 流式 | 项 | 在使用镶嵌时,DS 和 GS 输出的原始图元数。 |
| PostTessVALUInstCount | 离散, 流式 | 项 | 在使用了镶嵌的管道中,DS 和 GS 执行的向量 ALU 指令的平均数(受控制流影响)。 |
| PostTessSALUInstCount | 离散 | 项 | 在使用了镶嵌的管道中,DS 和 GS 执行的标量 ALU 指令的平均数(受控制流影响)。 |
| PostTessVALUBusy | 离散, 流式 | 百分比 | 在使用了镶嵌的管道中,DS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。 |
| PostTessVALUBusyCycles | 离散, 流式 | 周期 | 在使用了镶嵌的管道中,DS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。 |
| PostTessSALUBusy | 离散, 流式 | 百分比 | 在使用了镶嵌的管道中,DS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。 |
| PostTessSALUBusyCycles | 离散, 流式 | 周期 | 在使用了镶嵌的管道中,DS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。 |
PrimitiveAssembly 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PrimitivesIn | 离散, 流式 | 项 | 硬件接收到的原始图元数。包括镶嵌生成的原始图元。 |
| CulledPrims | 离散 | 项 | 被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。 |
| ClippedPrims | 离散, 流式 | 项 | 由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。 |
| PAStalledOnRasterizer | 离散, 流式 | 百分比 | 原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。 |
| PAStalledOnRasterizerCycles | 离散, 流式 | 周期 | 原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。 |
PixelShader 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| PSPixelsOut | 离散, 流式 | 项 | 从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素;如果有多个渲染目标,每个渲染目标会收到一次导出,因此写入两个 RT 的 1 个像素会是 2。 |
| PSExportStalls | 离散, 流式 | 百分比 | 像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。 |
| PSExportStallsCycles | 离散, 流式 | 周期 | 像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。 |
ComputeShader 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| CSThreadGroupsLaunched | 离散, 流式 | 项 | 启动的线程组总数。 |
| CSWavefrontsLaunched | 离散, 流式 | 项 | 为 CS 启动的波形前沿总数。 |
| CSThreadsLaunched | 离散, 流式 | 项 | 由硬件启动和处理的 CS 线程数。 |
| CSThreadGroupSize | 离散 | 项 | 每个线程组中的 CS 线程数。 |
| CSVALUInsts | 离散 | 项 | 每个工作项执行的向量 ALU 指令的平均数(受控制流影响)。 |
| CSVALUUtilization | 离散 | 百分比 | 波阵列中活动的向量 ALU 线程的百分比。较低的数字可能表示波阵列中的线程发散增加,或者工作组大小不是波阵列大小的倍数。值范围:0%(差)到 100%(理想 - 无线程发散)。 |
| CSSALUInsts | 离散 | 项 | 每个工作项执行的标量 ALU 指令的平均数(受控制流影响)。 |
| CSVFetchInsts | 离散 | 项 | 每个工作项执行的从视频内存读取的向量读取指令的平均数(受控制流影响)。 |
| CSSFetchInsts | 离散 | 项 | 每个工作项执行的从视频内存读取的标量读取指令的平均数(受控制流影响)。 |
| CSVWriteInsts | 离散 | 项 | 每个工作项执行的写入视频内存的向量写入指令的平均数(受控制流影响)。 |
| CSVALUBusy | 离散, 流式 | 百分比 | 处理向量 ALU 指令的 GPUTime 百分比。值范围:0%(差)到 100%(最佳)。 |
| CSVALUBusyCycles | 离散, 流式 | 周期 | 处理向量 ALU 指令的 GPU 时钟周期数。 |
| CSSALUBusy | 离散, 流式 | 百分比 | 处理标量 ALU 指令的 GPUTime 百分比。值范围:0%(差)到 100%(最佳)。 |
| CSSALUBusyCycles | 离散, 流式 | 周期 | 处理标量 ALU 指令的 GPU 时钟周期数。 |
| CSGDSInsts | 离散 | 项 | 每个工作项执行的 GDS 读取或 GDS 写入指令的平均数(受控制流影响)。 |
| CSLDSInsts | 离散 | 项 | 每个工作项执行的 LDS 读取/写入指令的平均数(受控制流影响)。 |
| CSALUStalledByLDS | 离散 | 百分比 | ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。 |
| CSALUStalledByLDSCycles | 离散 | 周期 | 每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期数。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。 |
| CSLDSBankConflict | 离散, 流式 | 百分比 | LDS 因银行冲突而停顿的 GPUTime 百分比。值范围:0%(最佳)到 100%(差)。 |
| CSLDSBankConflictCycles | 离散, 流式 | 周期 | LDS 因银行冲突而停顿的 GPU 周期数。值范围:0(最佳)到 GPUBusyCycles(差)。 |
| CSALUStalledByLDSPerWave | 流式 | 百分比 | 每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。 |
TextureUnit 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| TexTriFilteringPct | 离散, 流式 | 百分比 | 应用了三线性过滤的像素百分比。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。 |
| TexTriFilteringCount | 离散, 流式 | 项 | 应用了三线性过滤的像素数。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。 |
| NoTexTriFilteringCount | 离散, 流式 | 项 | 未应用三线性过滤的像素数。 |
| TexVolFilteringPct | 离散, 流式 | 百分比 | 应用了体积过滤的像素百分比。 |
| TexVolFilteringCount | 离散, 流式 | 项 | 应用了体积过滤的像素数。 |
| NoTexVolFilteringCount | 离散, 流式 | 项 | 未应用体积过滤的像素数。 |
| TexAveAnisotropy | 离散 | 项 | 应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样(例如,如果视图向量垂直于表面,则不会有额外的各向异性采样),因此它可以远低于请求的各向异性。 |
DepthAndStencil 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| HiZTilesAccepted | 离散, 流式 | 百分比 | 被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。 |
| HiZTilesAcceptedCount | 离散, 流式 | 项 | 被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。 |
| HiZTilesRejectedCount | 离散, 流式 | 项 | 未被 HiZ 接受的图块计数。 |
| PreZTilesDetailCulled | 离散, 流式 | 百分比 | 因相关图元没有贡献面积而被拒绝的图块百分比。 |
| PreZTilesDetailCulledCount | 离散, 流式 | 项 | 因相关图元没有贡献面积而被拒绝的图块计数。 |
| PreZTilesDetailSurvivingCount | 离散, 流式 | 项 | 因相关图元有贡献面积而保留的图块计数。 |
| HiZQuadsCulled | 离散 | 百分比 | HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。 |
| HiZQuadsCulledCount | 离散 | 项 | HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。 |
| HiZQuadsAcceptedCount | 离散, 流式 | 项 | HiZ 之后继续在管线中处理的四边形数。 |
| PreZQuadsCulled | 离散 | 百分比 | 基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。 |
| PreZQuadsCulledCount | 离散 | 项 | 基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。 |
| PreZQuadsSurvivingCount | 离散 | 项 | 通过 detailZ 和 earlyZ 测试的四边形数。 |
| PostZQuads | 离散 | 百分比 | 像素着色器将运行并可能进行 postZ 测试的四边形百分比。 |
| PostZQuadCount | 离散, 流式 | 项 | 像素着色器将运行并可能进行 postZ 测试的四边形数。 |
| PreZSamplesPassing | 离散, 流式 | 项 | 在着色前进行 Z 测试并通过的采样数。 |
| PreZSamplesFailingS | 离散, 流式 | 项 | 在着色前进行 Z 测试但模板测试失败的采样数。 |
| PreZSamplesFailingZ | 离散, 流式 | 项 | 在着色前进行 Z 测试但 Z 测试失败的采样数。 |
| PostZSamplesPassing | 离散, 流式 | 项 | 在着色后进行 Z 测试并通过的采样数。 |
| PostZSamplesFailingS | 离散, 流式 | 项 | 在着色后进行 Z 测试但模板测试失败的采样数。 |
| PostZSamplesFailingZ | 离散, 流式 | 项 | 在着色后进行 Z 测试但 Z 测试失败的采样数。 |
| ZUnitStalled | 离散, 流式 | 百分比 | 深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。 |
| ZUnitStalledCycles | 离散, 流式 | 周期 | 深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。 |
| DBMemRead | 离散, 流式 | 字节 | 从深度缓冲区读取的字节数。 |
| DBMemWritten | 离散, 流式 | 字节 | 写入深度缓冲区的字节数。 |
ColorBuffer 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| CBMemRead | 离散, 流式 | 字节 | 从颜色缓冲区读取的字节数。 |
| CBColorAndMaskRead | 离散, 流式 | 字节 | 从颜色和蒙版缓冲区读取的总字节数。 |
| CBMemWritten | 离散, 流式 | 字节 | 写入颜色缓冲区的字节数。 |
| CBColorAndMaskWritten | 离散, 流式 | 字节 | 写入颜色和蒙版缓冲区的总字节数。 |
| CBSlowPixelPct | 离散, 流式 | 百分比 | 使用半速率或四分之一速率格式写入颜色缓冲区的像素百分比。 |
| CBSlowPixelCount | 离散, 流式 | 项 | 使用半速率或四分之一速率格式写入颜色缓冲区的像素数。 |
MemoryCache 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| L0CacheHit | 离散, 流式 | 百分比 | 数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L0CacheRequestCount | 离散, 流式 | 项 | 发往 L0 缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| L0CacheHitCount | 离散, 流式 | 项 | 从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| L0CacheMissCount | 离散, 流式 | 项 | 从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。 |
| ScalarCacheHit | 离散, 流式 | 百分比 | 执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。 |
| ScalarCacheRequestCount | 离散, 流式 | 项 | 执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| ScalarCacheHitCount | 离散, 流式 | 项 | 执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| ScalarCacheMissCount | 离散, 流式 | 项 | 执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。 |
| InstCacheHit | 离散, 流式 | 百分比 | 命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。 |
| InstCacheRequestCount | 离散, 流式 | 项 | 发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| InstCacheHitCount | 离散, 流式 | 项 | 命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| InstCacheMissCount | 离散, 流式 | 项 | 未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。 |
| L1CacheHit | 离散, 流式 | 百分比 | 在 L1 缓存中命中数据(读取或写入)的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L1CacheRequestCount | 离散, 流式 | 项 | 向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L1CacheHitCount | 离散, 流式 | 项 | 从 L1 缓存命中(缓存命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L1CacheMissCount | 离散, 流式 | 项 | 从 L1 缓存未命中(缓存未命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。 |
| L2CacheHit | 离散, 流式 | 百分比 | 数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。 |
| L2CacheMiss | 离散, 流式 | 百分比 | 数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(最佳)到 100%(全部未命中)。 |
| L2CacheRequestCount | 离散, 流式 | 项 | 发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L2CacheHitCount | 离散, 流式 | 项 | 从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L2CacheMissCount | 离散, 流式 | 项 | 从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。 |
| L0TagConflictReadStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存读取操作停顿的周期数。 |
| L0TagConflictWriteStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存写入操作停顿的周期数。 |
| L0TagConflictAtomicStalledCycles | 离散, 流式 | 项 | 由于标记冲突而导致 L0 缓存原子操作停顿的周期数。 |
GlobalMemory 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| FetchSize | 离散, 流式 | 字节 | 从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| WriteSize | 离散, 流式 | 字节 | 写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。 |
| MemUnitBusy | 离散, 流式 | 百分比 | 内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围:0% 到 100%(提取受限)。 |
| MemUnitBusyCycles | 离散, 流式 | 周期 | 内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。 |
| MemUnitStalled | 离散, 流式 | 百分比 | 内存单元停顿的 GPUTime 百分比。如果可能,尝试减少提取和写入的数量或大小。值范围:0%(最佳)到 100%(差)。 |
| MemUnitStalledCycles | 离散, 流式 | 周期 | 内存单元停顿的 GPU 周期数。 |
| WriteUnitStalled | 离散, 流式 | 百分比 | 写入单元停顿的 GPUTime 百分比。值范围:0% 到 100%(差)。 |
| WriteUnitStalledCycles | 离散, 流式 | 周期 | 写入单元停顿的 GPU 周期数。 |
| LocalVidMemBytes | 离散 | 字节 | 从本地视频内存读取或写入的字节数 |
| PcieBytes | 离散 | 字节 | 通过 PCIe 总线发送和接收的字节数。 |
WaveDistribution 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| WaveOccupancyPct | 流式 | 百分比 | 当前使用的最大波形前沿占用率百分比。 |
WaveOccupancyLimiters 组
| 计数器名称 | 采样类型 | 用法 | 简要说明 |
|---|---|---|---|
| LSHSLimitedByVgpr | 流式 | 百分比 | LS 和 HS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| LSHSLimitedByLds | 流式 | 百分比 | LS 和 HS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| LSHSLimitedByScratch | 流式 | 百分比 | LS 和 HS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| HSLimitedByBarriers | 流式 | 百分比 | 受屏障限制的 HS 波形调度请求百分比。 |
| ESGSLimitedByVgpr | 离散, 流式 | 百分比 | ES 和 GS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| ESGSLimitedByLds | 流式 | 百分比 | ES 和 GS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| ESGSLimitedByScratch | 流式 | 百分比 | ES 和 GS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| VSLimitedByVgpr | 流式 | 百分比 | VS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| VSLimitedByScratch | 流式 | 百分比 | VS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| VSLimitedByExport | 流式 | 百分比 | VS 波因导出空间可用性不足而停止的周期百分比。 |
| PSLimitedByLds | 流式 | 百分比 | PS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| PSLimitedByVgpr | 流式 | 百分比 | PS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| PSLimitedByScratch | 流式 | 百分比 | PS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| CSLimitedByLds | 流式 | 百分比 | CS 波调度请求因 LDS 可用性不足而受限的百分比。 |
| CSLimitedByVgpr | 流式 | 百分比 | CS 波调度请求因 VGPR 可用性不足而受限的百分比。 |
| CSLimitedByScratch | 流式 | 百分比 | CS 波调度请求因暂存空间可用性不足而受限的百分比。 |
| CSLimitedByBarriers | 流式 | 百分比 | CS 波调度请求因屏障而受限的百分比。 |
| CSLimitedByThreadGroupLimit | 流式 | 百分比 | CS 波调度请求因线程组限制而受限的百分比。 |