跳至内容

性能计数器

Copyright (c) 2018-2025 Advanced Micro Devices, Inc. 保留所有权利。GPU 性能计数器 GPU Performance API 公开的性能计数器按组进行组织,以帮助提供所有可用数据的清晰度和组织性。以下是来自所有支持的硬件代计数器的集合列表。某些计数器可能无法使用,具体取决于正在分析的硬件。要查看哪些 GPU 属于哪些硬件代,最佳参考是 GitHub 上的 device_info 仓库中的 gs_cardInfo 数组。您可以查看 GDT_HW_GENERATION 枚举 来了解各种卡如何映射到硬件代。

对于图形工作负载,建议您首先使用“Timing”组中的计数器进行分析,以确定分析的调用是否值得优化(基于 GPUTime 值),以及管线的哪些部分执行了最多的工作。请注意,由于 GPU 是高度并行的,管线的各个部分可以同时处于活动状态;因此,“Busy”计数器的总和可能会超过 100%。在确定一个或多个需要进一步研究的阶段后,启用相应的计数器组以获取有关该阶段的更多信息,并确定是否存在潜在的优化机会。

基于管线的计数器组

在 RDNA、RDNA2 和 RDNA3 硬件上,某些用例允许驱动程序通过组合两个着色器阶段来进行优化。例如,在 Vertex

  • Geometry + Pixel Shader 管线 (VS-GS-PS) 中,Vertex 和 Geometry Shaders 会被组合起来,GPUPerfAPI 会在“VertexGeometry”组(带有“VsGs”前缀的计数器)中公开它们。在使用了镶嵌的管线中,Vertex 和 Hull Shaders 会被组合起来并作为“PreTessellation”组(带有“PreTess”前缀)公开;Domain 和 Geometry Shaders(如果使用了 GS)会被组合成“PostTessellation”组(带有“PostTess”前缀)。Pixel Shaders 和 Compute Shaders 始终作为各自的类型公开。下表有助于可视化 API 级着色器(顶部)与 GPUPerfAPI 计数器中要查找的前缀之间的映射。
管线VertexHullDomain几何体PixelCompute
VS-PSVsGsPS
VS-GS-PSVsGsVsGsPS
VS-HS-DS-PSPreTessPreTessPostTessPostTessPS
VS-HS-DS-GS-PSPreTessPreTessPostTessPostTessPS
CSCS

关于第三方应用程序的说明

几个第三方应用程序(如 RenderDoc 和 Microsoft PIX)将 GPUPerfAPI 集成到其性能分析功能集中。这些应用程序可能会选择仅公开 GPUPerfAPI 支持的计数器子集,尤其是在计数器不支持应用程序设计目标的情况下。具体来说,已知 RenderDoc 中不公开报告百分比的计数器。这是因为这些工具收集和报告一组绘图调用的聚合性能计数器值的方式。例如,如果一组绘图调用由用户标记组合在一起,则工具可能通过简单地将各个绘图调用的计数器值相加来报告用户标记的性能计数器值。虽然这对许多计数器来说可能是有效的,但对于基于百分比的计数器效果不佳。即使工具执行简单平均百分比值,也可能无法准确反映实际性能。对于大多数基于百分比的计数器,GPUPerfAPI 还公开了用于计算百分比的组件的计数器。缓存命中计数器就是一个例子——它们同时作为缓存命中百分比以及代表缓存请求数、命中数和未命中数的单独计数器公开。请参考下表中的“Usage”列,了解这些应用程序将不会公开哪些计数器。

用于图形性能分析的计数器

下表显示了用于分析 GPU 图形工作负载的计数器集,以及每个计数器可用的 GPU 和 APU 系列。

Copyright(c) 2018-2025 Advanced Micro Devices, Inc. 保留所有权利。RDNA4 的图形性能计数器*** 注意,这是一个自动生成的文件。请勿编辑。执行 PublicCounterCompiler 进行重建。

RDNA4 计数器

Timing 组

计数器名称采样类型用法简要说明
GPUTime离散纳秒此 API 命令在 GPU 上执行所花费的时间(以纳秒为单位),从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionDuration离散纳秒GPU 命令执行持续时间(以纳秒为单位),从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionStart离散纳秒GPU 命令执行开始时间(以纳秒为单位)。这是命令进入管线顶部 (TOP) 的时间。
ExecutionEnd离散纳秒GPU 命令执行结束时间(以纳秒为单位)。这是命令到达管线底部 (BOP) 的时间。
GPUBusy离散, 流式百分比GPU 命令处理器忙碌的时间百分比。
GPUBusyCycles离散, 流式周期GPU 命令处理器忙碌的 GPU 周期数。
TessellatorBusy离散, 流式百分比镶嵌引擎忙碌的时间百分比。
TessellatorBusyCycles离散, 流式周期镶嵌引擎忙碌的 GPU 周期数。
VsGsBusy离散, 流式百分比在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间百分比。
VsGsBusyCycles离散, 流式周期在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。
VsGsTime离散纳秒在 VS-[GS-]PS 管线中,VS 或 GS 忙碌的时间(以纳秒为单位)。
PreTessellationBusy离散, 流式百分比在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间百分比。
PreTessellationBusyCycles离散, 流式周期在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。
PreTessellationTime离散纳秒在使用镶嵌的管线中,VS 和 HS 忙碌的时间(以纳秒为单位)。
PostTessellationBusy离散, 流式百分比在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间百分比。
PostTessellationBusyCycles离散, 流式周期在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。
PostTessellationTime离散纳秒在使用镶嵌的管线中,DS 或 GS 忙碌的时间(以纳秒为单位)。
PSBusy离散, 流式百分比ShaderUnit 拥有像素着色器工作的时间百分比。
PSBusyCycles离散, 流式周期ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。
PSTime离散纳秒像素着色器忙碌的时间(以纳秒为单位)。
CSBusy离散, 流式百分比ShaderUnit 拥有计算着色器工作的时间百分比。
CSBusyCycles离散, 流式周期ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。
CSTime离散纳秒计算着色器忙碌的时间(以纳秒为单位)。
PrimitiveAssemblyBusy离散百分比原始图元装配(裁剪和剔除)忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。
PrimitiveAssemblyBusyCycles离散周期原始图元装配(裁剪和剔除)忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。
TexUnitBusy离散, 流式百分比纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。
TexUnitBusyCycles离散, 流式周期纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。
DepthStencilTestBusy离散, 流式百分比GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。
DepthStencilTestBusyCycles离散, 流式周期花费在深度和模板测试上的 GPU 周期数。

VertexGeometry 组

计数器名称采样类型用法简要说明
VsGsVerticesIn离散, 流式VS 和 GS 处理的唯一顶点数。
VsGsPrimsIn离散, 流式传入 GS 的原始图元数。

PreTessellation 组

计数器名称采样类型用法简要说明
PreTessVerticesIn离散, 流式在使用镶嵌时,VS 和 HS 处理的唯一顶点数。

PostTessellation 组

计数器名称采样类型用法简要说明
PostTessPrimsOut离散, 流式在使用镶嵌时,DS 和 GS 输出的原始图元数。

PrimitiveAssembly 组

计数器名称采样类型用法简要说明
PrimitivesIn离散, 流式硬件接收到的原始图元数。包括镶嵌生成的原始图元。
CulledPrims离散被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。
ClippedPrims离散由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。
PAStalledOnRasterizer离散, 流式百分比原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。
PAStalledOnRasterizerCycles离散, 流式周期原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。

PixelShader 组

计数器名称采样类型用法简要说明
PSPixelsOut离散, 流式从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素;如果有多个渲染目标,每个渲染目标会收到一次导出,因此写入两个 RT 的 1 个像素会是 2。
PSExportStalls离散, 流式百分比像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。
PSExportStallsCycles离散, 流式周期像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。

ComputeShader 组

计数器名称采样类型用法简要说明
CSThreadGroupsLaunched离散, 流式启动的线程组总数。
CSWavefrontsLaunched离散, 流式为 CS 启动的波形前沿总数。
CSThreadsLaunched离散, 流式由硬件启动和处理的 CS 线程数。
CSThreadGroupSize离散, 流式每个线程组中的 CS 线程数。
CSLDSBankConflict离散, 流式百分比LDS 因银行冲突而停顿的 GPUTime 百分比。值范围:0%(最佳)到 100%(差)。
CSLDSBankConflictCycles离散, 流式周期LDS 因银行冲突而停顿的 GPU 周期数。值范围:0(最佳)到 GPUBusyCycles(差)。

TextureUnit 组

计数器名称采样类型用法简要说明
TexTriFilteringPct离散, 流式百分比应用了三线性过滤的像素百分比。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。
TexTriFilteringCount离散, 流式应用了三线性过滤的像素数。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。
NoTexTriFilteringCount离散, 流式未应用三线性过滤的像素数。
TexVolFilteringPct离散, 流式百分比应用了体积过滤的像素百分比。
TexVolFilteringCount离散, 流式应用了体积过滤的像素数。
NoTexVolFilteringCount离散, 流式未应用体积过滤的像素数。
TexAveAnisotropy离散应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样(例如,如果视图向量垂直于表面,则不会有额外的各向异性采样),因此它可以远低于请求的各向异性。

DepthAndStencil 组

计数器名称采样类型用法简要说明
HiZQuadsCulled离散百分比HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsCulledCount离散HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsAcceptedCount离散, 流式HiZ 之后继续在管线中处理的四边形数。
PreZQuadsCulled离散百分比基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。
PreZQuadsCulledCount离散基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。
PreZQuadsSurvivingCount离散, 流式通过 detailZ 和 earlyZ 测试的四边形数。
PostZQuads离散百分比像素着色器将运行并可能进行 postZ 测试的四边形百分比。
PostZQuadCount离散, 流式像素着色器将运行并可能进行 postZ 测试的四边形数。
PreZSamplesPassing离散, 流式在着色前进行 Z 测试并通过的采样数。
PreZSamplesFailingS离散, 流式在着色前进行 Z 测试但模板测试失败的采样数。
PreZSamplesFailingZ离散, 流式在着色前进行 Z 测试但 Z 测试失败的采样数。
PostZSamplesPassing离散, 流式在着色后进行 Z 测试并通过的采样数。
PostZSamplesFailingS离散, 流式在着色后进行 Z 测试但模板测试失败的采样数。
PostZSamplesFailingZ离散, 流式在着色后进行 Z 测试但 Z 测试失败的采样数。
ZUnitStalled离散, 流式百分比深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。
ZUnitStalledCycles离散, 流式周期深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。

ColorBuffer 组

计数器名称采样类型用法简要说明
CBMemRead离散, 流式字节从颜色缓冲区读取的字节数。
CBMemWritten离散, 流式字节写入颜色缓冲区的字节数。

MemoryCache 组

计数器名称采样类型用法简要说明
L0CacheHit离散, 流式百分比数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L0CacheRequestCount离散, 流式发往 L0 缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheHitCount离散, 流式从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheMissCount离散, 流式从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
ScalarCacheHit离散, 流式百分比执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。
ScalarCacheRequestCount离散, 流式执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheHitCount离散, 流式执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheMissCount离散, 流式执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
InstCacheHit离散, 流式百分比命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。
InstCacheRequestCount离散, 流式发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheHitCount离散, 流式命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheMissCount离散, 流式未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
L2CacheHit离散, 流式百分比数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L2CacheMiss离散, 流式百分比数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(最佳)到 100%(全部未命中)。
L2CacheRequestCount离散, 流式发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheHitCount离散, 流式从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheMissCount离散, 流式从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L0TagConflictReadStalledCycles离散, 流式由于标记冲突而导致 L0 缓存读取操作停顿的周期数。
L0TagConflictWriteStalledCycles离散, 流式由于标记冲突而导致 L0 缓存写入操作停顿的周期数。
L0TagConflictAtomicStalledCycles离散, 流式由于标记冲突而导致 L0 缓存原子操作停顿的周期数。

GlobalMemory 组

计数器名称采样类型用法简要说明
FetchSize离散, 流式字节从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
WriteSize离散, 流式字节写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
MemUnitBusy离散, 流式百分比内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围:0% 到 100%(提取受限)。
MemUnitBusyCycles离散, 流式周期内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。
MemUnitStalled离散, 流式百分比内存单元停顿的 GPUTime 百分比。如果可能,尝试减少提取和写入的数量或大小。值范围:0%(最佳)到 100%(差)。
MemUnitStalledCycles离散, 流式周期内存单元停顿的 GPU 周期数。
WriteUnitStalled离散, 流式百分比写入单元停顿的 GPUTime 百分比。值范围:0% 到 100%(差)。
WriteUnitStalledCycles离散, 流式周期写入单元停顿的 GPU 周期数。
LocalVidMemBytes离散字节从 Infinity Cache(如果可用)或本地显存读取或写入的字节数。
PcieBytes离散, 流式字节通过 PCIe 总线发送和接收的字节数。

RayTracing 组

计数器名称采样类型用法简要说明
RayTriTests离散, 流式射线三角形交叉测试次数。
RayBoxTests离散, 流式射线包围盒交叉测试次数。
TotalRayTests离散, 流式射线交叉测试总次数,包括包围盒和三角形交叉。
RayTestsPerWave离散, 流式每个波形前沿的射线交叉测试次数。

WaveDistribution 组

计数器名称采样类型用法简要说明
WaveOccupancyPct流式百分比当前使用的最大波形前沿占用率百分比。

WaveOccupancyLimiters 组

计数器名称采样类型用法简要说明
HSLimitedByVgpr流式百分比受 VGPR 可用性限制的 HS 波形调度请求百分比。
HSLimitedByLds流式百分比受 LDS 可用性限制的 HS 波形调度请求百分比。
HSLimitedByScratch流式百分比受 scratch 空间可用性限制的 HS 波形调度请求百分比。
HSLimitedByBarriers流式百分比受屏障限制的 HS 波形调度请求百分比。
GSLimitedByVgpr流式百分比受 VGPR 可用性限制的 GS 波形调度请求百分比。
GSLimitedByLds流式百分比受 LDS 可用性限制的 GS 波形调度请求百分比。
GSLimitedByScratch流式百分比GS 波调度请求因暂存空间可用性不足而受限的百分比。
PSLimitedByLds流式百分比PS 波调度请求因 LDS 可用性不足而受限的百分比。
PSLimitedByVgpr流式百分比PS 波调度请求因 VGPR 可用性不足而受限的百分比。
PSLimitedByScratch流式百分比PS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByLds流式百分比CS 波调度请求因 LDS 可用性不足而受限的百分比。
CSLimitedByVgpr流式百分比CS 波调度请求因 VGPR 可用性不足而受限的百分比。
CSLimitedByScratch流式百分比CS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByBarriers流式百分比CS 波调度请求因屏障而受限的百分比。
CSLimitedByThreadGroupLimit流式百分比CS 波调度请求因线程组限制而受限的百分比。

Copyright(c) 2018-2025 Advanced Micro Devices, Inc. All rights reserved.RDNA3 图形性能计数器*** 注意,这是一个自动生成的文件。请勿编辑。请执行 PublicCounterCompiler 进行重建。

RDNA3 计数器

Timing 组

计数器名称采样类型用法简要说明
GPUTime离散纳秒此 API 命令在 GPU 上执行所花费的时间(以纳秒为单位),从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionDuration离散纳秒GPU 命令执行持续时间(以纳秒为单位),从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionStart离散纳秒GPU 命令执行开始时间(以纳秒为单位)。这是命令进入管线顶部 (TOP) 的时间。
ExecutionEnd离散纳秒GPU 命令执行结束时间(以纳秒为单位)。这是命令到达管线底部 (BOP) 的时间。
GPUBusy离散, 流式百分比GPU 命令处理器忙碌的时间百分比。
GPUBusyCycles离散, 流式周期GPU 命令处理器忙碌的 GPU 周期数。
TessellatorBusy离散, 流式百分比镶嵌引擎忙碌的时间百分比。
TessellatorBusyCycles离散, 流式周期镶嵌引擎忙碌的 GPU 周期数。
VsGsBusy离散, 流式百分比在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间百分比。
VsGsBusyCycles离散, 流式周期在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。
VsGsTime离散纳秒在 VS-[GS-]PS 管线中,VS 或 GS 忙碌的时间(以纳秒为单位)。
PreTessellationBusy离散, 流式百分比在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间百分比。
PreTessellationBusyCycles离散, 流式周期在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。
PreTessellationTime离散纳秒在使用镶嵌的管线中,VS 和 HS 忙碌的时间(以纳秒为单位)。
PostTessellationBusy离散, 流式百分比在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间百分比。
PostTessellationBusyCycles离散, 流式周期在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。
PostTessellationTime离散纳秒在使用镶嵌的管线中,DS 或 GS 忙碌的时间(以纳秒为单位)。
PSBusy离散, 流式百分比ShaderUnit 拥有像素着色器工作的时间百分比。
PSBusyCycles离散, 流式周期ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。
PSTime离散纳秒像素着色器忙碌的时间(以纳秒为单位)。
CSBusy离散, 流式百分比ShaderUnit 拥有计算着色器工作的时间百分比。
CSBusyCycles离散, 流式周期ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。
CSTime离散纳秒计算着色器忙碌的时间(以纳秒为单位)。
PrimitiveAssemblyBusy离散百分比原始图元装配(裁剪和剔除)忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。
PrimitiveAssemblyBusyCycles离散周期原始图元装配(裁剪和剔除)忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。
TexUnitBusy离散, 流式百分比纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。
TexUnitBusyCycles离散, 流式周期纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。
DepthStencilTestBusy离散, 流式百分比GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。
DepthStencilTestBusyCycles离散, 流式周期花费在深度和模板测试上的 GPU 周期数。

VertexGeometry 组

计数器名称采样类型用法简要说明
VsGsVerticesIn离散, 流式VS 和 GS 处理的唯一顶点数。
VsGsPrimsIn离散, 流式传入 GS 的原始图元数。

PreTessellation 组

计数器名称采样类型用法简要说明
PreTessVerticesIn离散, 流式在使用镶嵌时,VS 和 HS 处理的唯一顶点数。

PostTessellation 组

计数器名称采样类型用法简要说明
PostTessPrimsOut离散, 流式在使用镶嵌时,DS 和 GS 输出的原始图元数。

PrimitiveAssembly 组

计数器名称采样类型用法简要说明
PrimitivesIn离散, 流式硬件接收到的原始图元数。包括镶嵌生成的原始图元。
CulledPrims离散被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。
ClippedPrims离散由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。
PAStalledOnRasterizer离散, 流式百分比原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。
PAStalledOnRasterizerCycles离散, 流式周期原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。

PixelShader 组

计数器名称采样类型用法简要说明
PSPixelsOut离散, 流式从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素;如果有多个渲染目标,每个渲染目标会收到一次导出,因此写入两个 RT 的 1 个像素会是 2。
PSExportStalls离散, 流式百分比像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。
PSExportStallsCycles离散, 流式周期像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。

ComputeShader 组

计数器名称采样类型用法简要说明
CSThreadGroupsLaunched离散, 流式已启动的线程组总数。
CSWavefrontsLaunched离散, 流式为 CS 启动的波形前沿总数。
CSThreadsLaunched离散, 流式由硬件启动和处理的 CS 线程数。
CSThreadGroupSize离散每个线程组中的 CS 线程数。
CSALUStalledByLDS离散百分比每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。
CSALUStalledByLDSCycles离散周期每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期平均数。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。
CSLDSBankConflict离散, 流式百分比因银行冲突导致 LDS 停止的 GPUTime 平均百分比。值范围:0%(最佳)到 100%(差)。
CSLDSBankConflictCycles离散, 流式周期因银行冲突导致 LDS 停止的 GPU 时钟周期平均数。值范围:0(最佳)到 GPUBusyCycles(差)。
CSALUStalledByLDSPerWave流式百分比每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。

TextureUnit 组

计数器名称采样类型用法简要说明
TexTriFilteringPct离散, 流式百分比应用了三线性过滤的像素百分比。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。
TexTriFilteringCount离散, 流式应用了三线性过滤的像素数。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。
NoTexTriFilteringCount离散, 流式未应用三线性过滤的像素数。
TexVolFilteringPct离散, 流式百分比应用了体积过滤的像素百分比。
TexVolFilteringCount离散, 流式应用了体积过滤的像素数。
NoTexVolFilteringCount离散, 流式未应用体积过滤的像素数。
TexAveAnisotropy离散应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样(例如,如果视图向量垂直于表面,则不会有额外的各向异性采样),因此它可以远低于请求的各向异性。

DepthAndStencil 组

计数器名称采样类型用法简要说明
HiZTilesAccepted离散, 流式百分比被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。
HiZTilesAcceptedCount离散, 流式被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。
HiZTilesRejectedCount离散, 流式未被 HiZ 接受的图块计数。
PreZTilesDetailCulled离散, 流式百分比因相关图元没有贡献面积而被拒绝的图块百分比。
PreZTilesDetailCulledCount离散, 流式因相关图元没有贡献面积而被拒绝的图块计数。
PreZTilesDetailSurvivingCount离散, 流式因相关图元有贡献面积而保留的图块计数。
HiZQuadsCulled离散百分比HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsCulledCount离散HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsAcceptedCount离散, 流式HiZ 之后继续在管线中处理的四边形数。
PreZQuadsCulled离散百分比基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。
PreZQuadsCulledCount离散基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。
PreZQuadsSurvivingCount离散, 流式通过 detailZ 和 earlyZ 测试的四边形数。
PostZQuads离散百分比像素着色器将运行并可能进行 postZ 测试的四边形百分比。
PostZQuadCount离散, 流式像素着色器将运行并可能进行 postZ 测试的四边形数。
PreZSamplesPassing离散, 流式在着色前进行 Z 测试并通过的采样数。
PreZSamplesFailingS离散, 流式在着色前进行 Z 测试但模板测试失败的采样数。
PreZSamplesFailingZ离散, 流式在着色前进行 Z 测试但 Z 测试失败的采样数。
PostZSamplesPassing离散, 流式在着色后进行 Z 测试并通过的采样数。
PostZSamplesFailingS离散, 流式在着色后进行 Z 测试但模板测试失败的采样数。
PostZSamplesFailingZ离散, 流式在着色后进行 Z 测试但 Z 测试失败的采样数。
ZUnitStalled离散, 流式百分比深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。
ZUnitStalledCycles离散, 流式周期深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。
DBMemRead离散, 流式字节从深度缓冲区读取的字节数。
DBMemWritten离散, 流式字节写入深度缓冲区的字节数。

MemoryCache 组

计数器名称采样类型用法简要说明
L0CacheHit离散, 流式百分比数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L0CacheRequestCount离散, 流式发往 L0 缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheHitCount离散, 流式从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheMissCount离散, 流式从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
ScalarCacheHit离散, 流式百分比执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。
ScalarCacheRequestCount离散, 流式执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheHitCount离散, 流式执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheMissCount离散, 流式执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
InstCacheHit离散, 流式百分比命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。
InstCacheRequestCount离散, 流式发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheHitCount离散, 流式命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheMissCount离散, 流式未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
L1CacheHit离散, 流式百分比在 L1 缓存中命中数据(读取或写入)的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L1CacheRequestCount离散向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheHitCount离散, 流式从 L1 缓存命中(缓存命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheMissCount离散, 流式从 L1 缓存未命中(缓存未命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L2CacheHit离散, 流式百分比数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L2CacheMiss离散, 流式百分比数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(最佳)到 100%(全部未命中)。
L2CacheRequestCount离散, 流式发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheHitCount离散, 流式从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheMissCount离散, 流式从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L0TagConflictReadStalledCycles离散, 流式由于标记冲突而导致 L0 缓存读取操作停顿的周期数。
L0TagConflictWriteStalledCycles离散, 流式由于标记冲突而导致 L0 缓存写入操作停顿的周期数。
L0TagConflictAtomicStalledCycles离散, 流式由于标记冲突而导致 L0 缓存原子操作停顿的周期数。

GlobalMemory 组

计数器名称采样类型用法简要说明
FetchSize离散, 流式字节从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
WriteSize离散, 流式字节写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
MemUnitBusy离散, 流式百分比内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围:0% 到 100%(提取受限)。
MemUnitBusyCycles离散, 流式周期内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。
MemUnitStalled离散, 流式百分比内存单元停顿的 GPUTime 百分比。如果可能,尝试减少提取和写入的数量或大小。值范围:0%(最佳)到 100%(差)。
MemUnitStalledCycles离散, 流式周期内存单元停顿的 GPU 周期数。
WriteUnitStalled离散, 流式百分比写入单元停顿的 GPUTime 百分比。值范围:0% 到 100%(差)。
WriteUnitStalledCycles离散, 流式周期写入单元停顿的 GPU 周期数。
LocalVidMemBytes离散字节从 Infinity Cache(如果可用)或本地显存读取或写入的字节数。
PcieBytes离散, 流式字节通过 PCIe 总线发送和接收的字节数。

RayTracing 组

计数器名称采样类型用法简要说明
RayTriTests离散, 流式射线三角形交叉测试次数。
RayBoxTests离散, 流式射线包围盒交叉测试次数。
TotalRayTests离散, 流式射线交叉测试总次数,包括包围盒和三角形交叉。
RayTestsPerWave离散, 流式每个波形前沿的射线交叉测试次数。

WaveDistribution 组

计数器名称采样类型用法简要说明
WaveOccupancyPct流式百分比当前使用的最大波形前沿占用率百分比。

WaveOccupancyLimiters 组

计数器名称采样类型用法简要说明
HSLimitedByVgpr流式百分比受 VGPR 可用性限制的 HS 波形调度请求百分比。
HSLimitedByLds流式百分比受 LDS 可用性限制的 HS 波形调度请求百分比。
HSLimitedByScratch流式百分比受 scratch 空间可用性限制的 HS 波形调度请求百分比。
HSLimitedByBarriers流式百分比受屏障限制的 HS 波形调度请求百分比。
GSLimitedByVgpr流式百分比受 VGPR 可用性限制的 GS 波形调度请求百分比。
GSLimitedByLds流式百分比受 LDS 可用性限制的 GS 波形调度请求百分比。
GSLimitedByScratch流式百分比GS 波调度请求因暂存空间可用性不足而受限的百分比。
PSLimitedByLds流式百分比PS 波调度请求因 LDS 可用性不足而受限的百分比。
PSLimitedByVgpr流式百分比PS 波调度请求因 VGPR 可用性不足而受限的百分比。
PSLimitedByScratch流式百分比PS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByLds流式百分比CS 波调度请求因 LDS 可用性不足而受限的百分比。
CSLimitedByVgpr流式百分比CS 波调度请求因 VGPR 可用性不足而受限的百分比。
CSLimitedByScratch流式百分比CS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByBarriers流式百分比CS 波调度请求因屏障而受限的百分比。
CSLimitedByThreadGroupLimit流式百分比CS 波调度请求因线程组限制而受限的百分比。

Copyright(c) 2018-2025 Advanced Micro Devices, Inc. All rights reserved.RDNA2 图形性能计数器*** 注意,这是一个自动生成的文件。请勿编辑。请执行 PublicCounterCompiler 进行重建。

RDNA2 计数器

Timing 组

计数器名称采样类型用法简要说明
GPUTime离散纳秒此 API 命令在 GPU 上执行所花费的时间(以纳秒为单位),从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionDuration离散纳秒GPU 命令执行持续时间(以纳秒为单位),从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionStart离散纳秒GPU 命令执行开始时间(以纳秒为单位)。这是命令进入管线顶部 (TOP) 的时间。
ExecutionEnd离散纳秒GPU 命令执行结束时间(以纳秒为单位)。这是命令到达管线底部 (BOP) 的时间。
GPUBusy离散, 流式百分比GPU 命令处理器忙碌的时间百分比。
GPUBusyCycles离散, 流式周期GPU 命令处理器忙碌的 GPU 周期数。
TessellatorBusy离散, 流式百分比镶嵌引擎忙碌的时间百分比。
TessellatorBusyCycles离散, 流式周期镶嵌引擎忙碌的 GPU 周期数。
VsGsBusy离散, 流式百分比在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间百分比。
VsGsBusyCycles离散, 流式周期在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。
VsGsTime离散纳秒在 VS-[GS-]PS 管线中,VS 或 GS 忙碌的时间(以纳秒为单位)。
PreTessellationBusy离散, 流式百分比在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间百分比。
PreTessellationBusyCycles离散, 流式周期在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。
PreTessellationTime离散纳秒在使用镶嵌的管线中,VS 和 HS 忙碌的时间(以纳秒为单位)。
PostTessellationBusy离散, 流式百分比在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间百分比。
PostTessellationBusyCycles离散, 流式周期在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。
PostTessellationTime离散纳秒在使用镶嵌的管线中,DS 或 GS 忙碌的时间(以纳秒为单位)。
PSBusy离散, 流式百分比ShaderUnit 拥有像素着色器工作的时间百分比。
PSBusyCycles离散, 流式周期ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。
PSTime离散纳秒像素着色器忙碌的时间(以纳秒为单位)。
CSBusy离散, 流式百分比ShaderUnit 拥有计算着色器工作的时间百分比。
CSBusyCycles离散, 流式周期ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。
CSTime离散纳秒计算着色器忙碌的时间(以纳秒为单位)。
PrimitiveAssemblyBusy离散百分比原始图元装配(裁剪和剔除)忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。
PrimitiveAssemblyBusyCycles离散周期原始图元装配(裁剪和剔除)忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。
TexUnitBusy离散, 流式百分比纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。
TexUnitBusyCycles离散, 流式周期纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。
DepthStencilTestBusy离散, 流式百分比GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。
DepthStencilTestBusyCycles离散, 流式周期花费在深度和模板测试上的 GPU 周期数。

VertexGeometry 组

计数器名称采样类型用法简要说明
GSVerticesOut离散, 流式GS 输出的顶点数。
VsGsVALUInstCount离散在 VS-[GS-]PS 管道中,VS 和 GS 执行的向量 ALU 指令的平均数(受控制流影响)。
VsGsSALUInstCount离散VS 和 GS 执行的标量 ALU 指令的平均数(受控制流影响)。
VsGsVALUBusy离散百分比VS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。
VsGsVALUBusyCycles离散周期VS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。
VsGsSALUBusy离散百分比VS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。
VsGsSALUBusyCycles离散周期VS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。

PreTessellation 组

计数器名称采样类型用法简要说明
PreTessVALUInstCount离散, 流式在使用了镶嵌的管道中,VS 和 HS 执行的向量 ALU 指令的平均数(受控制流影响)。
PreTessSALUInstCount离散, 流式在使用了镶嵌的管道中,VS 和 HS 执行的标量 ALU 指令的平均数(受控制流影响)。
PreTessVALUBusy离散, 流式百分比在使用了镶嵌的管道中,VS 和 HS 处理向量 ALU 指令的 GPUTime 百分比。
PreTessVALUBusyCycles离散, 流式周期在使用了镶嵌的管道中,VS 和 HS 处理向量 ALU 指令的 GPU 时钟周期数。
PreTessSALUBusy离散, 流式百分比在使用了镶嵌的管道中,VS 和 HS 处理标量 ALU 指令的 GPUTime 百分比。
PreTessSALUBusyCycles离散, 流式周期在使用了镶嵌的管道中,VS 和 HS 处理标量 ALU 指令的 GPU 时钟周期数。
PreTessVerticesIn离散, 流式在使用镶嵌时,由 VS 和 HS 处理的顶点数。

PostTessellation 组

计数器名称采样类型用法简要说明
PostTessPrimsOut离散, 流式在使用镶嵌时,DS 和 GS 输出的原始图元数。
PostTessVALUInstCount离散, 流式在使用了镶嵌的管道中,DS 和 GS 执行的向量 ALU 指令的平均数(受控制流影响)。
PostTessSALUInstCount离散在使用了镶嵌的管道中,DS 和 GS 执行的标量 ALU 指令的平均数(受控制流影响)。
PostTessVALUBusy离散, 流式百分比在使用了镶嵌的管道中,DS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。
PostTessVALUBusyCycles离散, 流式周期在使用了镶嵌的管道中,DS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。
PostTessSALUBusy离散, 流式百分比在使用了镶嵌的管道中,DS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。
PostTessSALUBusyCycles离散, 流式周期在使用了镶嵌的管道中,DS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。

PrimitiveAssembly 组

计数器名称采样类型用法简要说明
PrimitivesIn离散, 流式硬件接收到的原始图元数。包括镶嵌生成的原始图元。
CulledPrims离散被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。
ClippedPrims离散, 流式由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。
PAStalledOnRasterizer离散, 流式百分比原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。
PAStalledOnRasterizerCycles离散, 流式周期原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。

PixelShader 组

计数器名称采样类型用法简要说明
PSPixelsOut离散, 流式从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素;如果有多个渲染目标,每个渲染目标会收到一次导出,因此写入两个 RT 的 1 个像素会是 2。
PSExportStalls离散, 流式百分比像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。
PSExportStallsCycles离散, 流式周期像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。

ComputeShader 组

计数器名称采样类型用法简要说明
CSThreadGroupsLaunched离散, 流式启动的线程组总数。
CSWavefrontsLaunched离散, 流式为 CS 启动的波形前沿总数。
CSThreadsLaunched离散, 流式由硬件启动和处理的 CS 线程数。
CSThreadGroupSize离散每个线程组中的 CS 线程数。
CSVALUInsts离散每个工作项执行的向量 ALU 指令的平均数(受控制流影响)。
CSVALUUtilization离散百分比波阵列中活动的向量 ALU 线程的百分比。较低的数字可能表示波阵列中的线程发散增加,或者工作组大小不是波阵列大小的倍数。值范围:0%(差)到 100%(理想 - 无线程发散)。
CSSALUInsts离散每个工作项执行的标量 ALU 指令的平均数(受控制流影响)。
CSVFetchInsts离散每个工作项执行的从视频内存读取的向量读取指令的平均数(受控制流影响)。
CSSFetchInsts离散每个工作项执行的从视频内存读取的标量读取指令的平均数(受控制流影响)。
CSVWriteInsts离散每个工作项执行的写入视频内存的向量写入指令的平均数(受控制流影响)。
CSGDSInsts离散每个工作项执行的 GDS 读取或 GDS 写入指令的平均数(受控制流影响)。
CSLDSInsts离散每个工作项执行的 LDS 读取/写入指令的平均数(受控制流影响)。
CSALUStalledByLDS离散百分比ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。
CSALUStalledByLDSCycles离散周期每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期平均数。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。
CSLDSBankConflict离散, 流式百分比LDS 因银行冲突而停顿的 GPUTime 百分比。值范围:0%(最佳)到 100%(差)。
CSLDSBankConflictCycles离散, 流式周期LDS 因银行冲突而停顿的 GPU 周期数。值范围:0(最佳)到 GPUBusyCycles(差)。
CSALUStalledByLDSPerWave流式百分比每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。

TextureUnit 组

计数器名称采样类型用法简要说明
TexTriFilteringPct离散, 流式百分比应用了三线性过滤的像素百分比。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。
TexTriFilteringCount离散, 流式应用了三线性过滤的像素数。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。
NoTexTriFilteringCount离散, 流式未应用三线性过滤的像素数。
TexVolFilteringPct离散, 流式百分比应用了体积过滤的像素百分比。
TexVolFilteringCount离散, 流式应用了体积过滤的像素数。
NoTexVolFilteringCount离散, 流式未应用体积过滤的像素数。
TexAveAnisotropy离散应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样(例如,如果视图向量垂直于表面,则不会有额外的各向异性采样),因此它可以远低于请求的各向异性。

DepthAndStencil 组

计数器名称采样类型用法简要说明
HiZTilesAccepted离散, 流式百分比被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。
HiZTilesAcceptedCount离散, 流式被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。
HiZTilesRejectedCount离散, 流式未被 HiZ 接受的图块计数。
PreZTilesDetailCulled离散, 流式百分比因相关图元没有贡献面积而被拒绝的图块百分比。
PreZTilesDetailCulledCount离散, 流式因相关图元没有贡献面积而被拒绝的图块计数。
PreZTilesDetailSurvivingCount离散, 流式因相关图元有贡献面积而保留的图块计数。
HiZQuadsCulled离散百分比HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsCulledCount离散HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsAcceptedCount离散, 流式HiZ 之后继续在管线中处理的四边形数。
PreZQuadsCulled离散百分比基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。
PreZQuadsCulledCount离散基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。
PreZQuadsSurvivingCount离散通过 detailZ 和 earlyZ 测试的四边形数。
PostZQuads离散百分比像素着色器将运行并可能进行 postZ 测试的四边形百分比。
PostZQuadCount离散, 流式像素着色器将运行并可能进行 postZ 测试的四边形数。
PreZSamplesPassing离散, 流式在着色前进行 Z 测试并通过的采样数。
PreZSamplesFailingS离散, 流式在着色前进行 Z 测试但模板测试失败的采样数。
PreZSamplesFailingZ离散, 流式在着色前进行 Z 测试但 Z 测试失败的采样数。
PostZSamplesPassing离散, 流式在着色后进行 Z 测试并通过的采样数。
PostZSamplesFailingS离散, 流式在着色后进行 Z 测试但模板测试失败的采样数。
PostZSamplesFailingZ离散, 流式在着色后进行 Z 测试但 Z 测试失败的采样数。
ZUnitStalled离散, 流式百分比深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。
ZUnitStalledCycles离散, 流式周期深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。
DBMemRead离散, 流式字节从深度缓冲区读取的字节数。
DBMemWritten离散, 流式字节写入深度缓冲区的字节数。

ColorBuffer 组

计数器名称采样类型用法简要说明
CBMemRead离散, 流式字节从颜色缓冲区读取的字节数。
CBColorAndMaskRead离散, 流式字节从颜色和蒙版缓冲区读取的总字节数。
CBMemWritten离散, 流式字节写入颜色缓冲区的字节数。
CBColorAndMaskWritten离散, 流式字节写入颜色和蒙版缓冲区的总字节数。
CBSlowPixelPct离散, 流式百分比使用半速率或四分之一速率格式写入颜色缓冲区的像素百分比。
CBSlowPixelCount离散, 流式使用半速率或四分之一速率格式写入颜色缓冲区的像素数。

MemoryCache 组

计数器名称采样类型用法简要说明
L0CacheHit离散, 流式百分比数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L0CacheRequestCount离散, 流式发往 L0 缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheHitCount离散, 流式从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheMissCount离散, 流式从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
ScalarCacheHit离散, 流式百分比执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。
ScalarCacheRequestCount离散, 流式执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheHitCount离散, 流式执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheMissCount离散, 流式执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
InstCacheHit离散, 流式百分比命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。
InstCacheRequestCount离散, 流式发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheHitCount离散, 流式命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheMissCount离散, 流式未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
L1CacheHit离散, 流式百分比在 L1 缓存中命中数据(读取或写入)的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L1CacheRequestCount离散向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheHitCount离散, 流式从 L1 缓存命中(缓存命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheMissCount离散, 流式从 L1 缓存未命中(缓存未命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L2CacheHit离散, 流式百分比数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L2CacheMiss离散, 流式百分比数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(最佳)到 100%(全部未命中)。
L2CacheRequestCount离散, 流式发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheHitCount离散, 流式从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheMissCount离散, 流式从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L0TagConflictReadStalledCycles离散, 流式由于标记冲突而导致 L0 缓存读取操作停顿的周期数。
L0TagConflictWriteStalledCycles离散, 流式由于标记冲突而导致 L0 缓存写入操作停顿的周期数。
L0TagConflictAtomicStalledCycles离散, 流式由于标记冲突而导致 L0 缓存原子操作停顿的周期数。

GlobalMemory 组

计数器名称采样类型用法简要说明
FetchSize离散, 流式字节从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
WriteSize离散, 流式字节写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
MemUnitBusy离散, 流式百分比内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围:0% 到 100%(提取受限)。
MemUnitBusyCycles离散, 流式周期内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。
MemUnitStalled离散, 流式百分比内存单元停顿的 GPUTime 百分比。如果可能,尝试减少提取和写入的数量或大小。值范围:0%(最佳)到 100%(差)。
MemUnitStalledCycles离散, 流式周期内存单元停顿的 GPU 周期数。
WriteUnitStalled离散, 流式百分比写入单元停顿的 GPUTime 百分比。值范围:0% 到 100%(差)。
WriteUnitStalledCycles离散, 流式周期写入单元停顿的 GPU 周期数。
LocalVidMemBytes离散字节从 Infinity Cache(如果可用)或本地显存读取或写入的字节数。
PcieBytes离散字节通过 PCIe 总线发送和接收的字节数。

RayTracing 组

计数器名称采样类型用法简要说明
RayTriTests离散, 流式射线三角形交叉测试次数。
RayBoxTests离散, 流式射线包围盒交叉测试次数。
TotalRayTests离散, 流式射线交叉测试总次数,包括包围盒和三角形交叉。
RayTestsPerWave离散, 流式每个波形前沿的射线交叉测试次数。

WaveDistribution 组

计数器名称采样类型用法简要说明
WaveOccupancyPct流式百分比当前使用的最大波形前沿占用率百分比。

WaveOccupancyLimiters 组

计数器名称采样类型用法简要说明
LSHSLimitedByVgpr流式百分比LS 和 HS 波调度请求因 VGPR 可用性不足而受限的百分比。
LSHSLimitedByLds流式百分比LS 和 HS 波调度请求因 LDS 可用性不足而受限的百分比。
LSHSLimitedByScratch流式百分比LS 和 HS 波调度请求因暂存空间可用性不足而受限的百分比。
HSLimitedByBarriers流式百分比受屏障限制的 HS 波形调度请求百分比。
ESGSLimitedByVgpr流式百分比ES 和 GS 波调度请求因 VGPR 可用性不足而受限的百分比。
ESGSLimitedByLds流式百分比ES 和 GS 波调度请求因 LDS 可用性不足而受限的百分比。
ESGSLimitedByScratch流式百分比ES 和 GS 波调度请求因暂存空间可用性不足而受限的百分比。
VSLimitedByVgpr流式百分比VS 波调度请求因 VGPR 可用性不足而受限的百分比。
VSLimitedByScratch流式百分比VS 波调度请求因暂存空间可用性不足而受限的百分比。
VSLimitedByExport流式百分比VS 波因导出空间可用性不足而停止的周期百分比。
PSLimitedByLds流式百分比PS 波调度请求因 LDS 可用性不足而受限的百分比。
PSLimitedByVgpr流式百分比PS 波调度请求因 VGPR 可用性不足而受限的百分比。
PSLimitedByScratch流式百分比PS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByLds流式百分比CS 波调度请求因 LDS 可用性不足而受限的百分比。
CSLimitedByVgpr流式百分比CS 波调度请求因 VGPR 可用性不足而受限的百分比。
CSLimitedByScratch流式百分比CS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByBarriers流式百分比CS 波调度请求因屏障而受限的百分比。
CSLimitedByThreadGroupLimit流式百分比CS 波调度请求因线程组限制而受限的百分比。

Copyright(c) 2018-2025 Advanced Micro Devices, Inc. All rights reserved.RDNA 图形性能计数器*** 注意,这是一个自动生成的文件。请勿编辑。请执行 PublicCounterCompiler 进行重建。

RDNA 计数器

Timing 组

计数器名称采样类型用法简要说明
GPUTime离散纳秒此 API 命令在 GPU 上执行所花费的时间(以纳秒为单位),从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionDuration离散纳秒GPU 命令执行持续时间(以纳秒为单位),从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionStart离散纳秒GPU 命令执行开始时间(以纳秒为单位)。这是命令进入管线顶部 (TOP) 的时间。
ExecutionEnd离散纳秒GPU 命令执行结束时间(以纳秒为单位)。这是命令到达管线底部 (BOP) 的时间。
GPUBusy离散, 流式百分比GPU 命令处理器忙碌的时间百分比。
GPUBusyCycles离散, 流式周期GPU 命令处理器忙碌的 GPU 周期数。
TessellatorBusy离散, 流式百分比镶嵌引擎忙碌的时间百分比。
TessellatorBusyCycles离散, 流式周期镶嵌引擎忙碌的 GPU 周期数。
VsGsBusy离散, 流式百分比在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间百分比。
VsGsBusyCycles离散, 流式周期在 VS-[GS-]PS 管线中,ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。
VsGsTime离散纳秒在 VS-[GS-]PS 管线中,VS 或 GS 忙碌的时间(以纳秒为单位)。
PreTessellationBusy离散, 流式百分比在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间百分比。
PreTessellationBusyCycles离散, 流式周期在使用镶嵌的管线中,ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。
PreTessellationTime离散纳秒在使用镶嵌的管线中,VS 和 HS 忙碌的时间(以纳秒为单位)。
PostTessellationBusy离散, 流式百分比在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间百分比。
PostTessellationBusyCycles离散, 流式周期在使用镶嵌的管线中,ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。
PostTessellationTime离散纳秒在使用镶嵌的管线中,DS 或 GS 忙碌的时间(以纳秒为单位)。
PSBusy离散, 流式百分比ShaderUnit 拥有像素着色器工作的时间百分比。
PSBusyCycles离散, 流式周期ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。
PSTime离散纳秒像素着色器忙碌的时间(以纳秒为单位)。
CSBusy离散, 流式百分比ShaderUnit 拥有计算着色器工作的时间百分比。
CSBusyCycles离散, 流式周期ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。
CSTime离散纳秒计算着色器忙碌的时间(以纳秒为单位)。
PrimitiveAssemblyBusy离散百分比原始图元装配(裁剪和剔除)忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。
PrimitiveAssemblyBusyCycles离散周期原始图元装配(裁剪和剔除)忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起;中到低值可能表明像素着色器或输出缓冲区瓶颈。
TexUnitBusy离散, 流式百分比纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。
TexUnitBusyCycles离散, 流式周期纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。
DepthStencilTestBusy离散, 流式百分比GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。
DepthStencilTestBusyCycles离散, 流式周期花费在深度和模板测试上的 GPU 周期数。

VertexGeometry 组

计数器名称采样类型用法简要说明
GSVerticesOut离散, 流式GS 输出的顶点数。

PreTessellation 组

计数器名称采样类型用法简要说明
PreTessVerticesIn离散, 流式在使用镶嵌时,由 VS 和 HS 处理的顶点数。
PreTessVALUInstCount离散, 流式在使用了镶嵌的管道中,VS 和 HS 执行的向量 ALU 指令的平均数(受控制流影响)。
PreTessSALUInstCount离散, 流式在使用了镶嵌的管道中,VS 和 HS 执行的标量 ALU 指令的平均数(受控制流影响)。
PreTessVALUBusy离散, 流式百分比在使用了镶嵌的管道中,VS 和 HS 处理向量 ALU 指令的 GPUTime 百分比。
PreTessVALUBusyCycles离散, 流式周期在使用了镶嵌的管道中,VS 和 HS 处理向量 ALU 指令的 GPU 时钟周期数。
PreTessSALUBusy离散, 流式百分比在使用了镶嵌的管道中,VS 和 HS 处理标量 ALU 指令的 GPUTime 百分比。
PreTessSALUBusyCycles离散, 流式周期在使用了镶嵌的管道中,VS 和 HS 处理标量 ALU 指令的 GPU 时钟周期数。

PostTessellation 组

计数器名称采样类型用法简要说明
PostTessPrimsOut离散, 流式在使用镶嵌时,DS 和 GS 输出的原始图元数。
PostTessVALUInstCount离散, 流式在使用了镶嵌的管道中,DS 和 GS 执行的向量 ALU 指令的平均数(受控制流影响)。
PostTessSALUInstCount离散在使用了镶嵌的管道中,DS 和 GS 执行的标量 ALU 指令的平均数(受控制流影响)。
PostTessVALUBusy离散, 流式百分比在使用了镶嵌的管道中,DS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。
PostTessVALUBusyCycles离散, 流式周期在使用了镶嵌的管道中,DS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。
PostTessSALUBusy离散, 流式百分比在使用了镶嵌的管道中,DS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。
PostTessSALUBusyCycles离散, 流式周期在使用了镶嵌的管道中,DS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。

PrimitiveAssembly 组

计数器名称采样类型用法简要说明
PrimitivesIn离散, 流式硬件接收到的原始图元数。包括镶嵌生成的原始图元。
CulledPrims离散被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。
ClippedPrims离散, 流式由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。
PAStalledOnRasterizer离散, 流式百分比原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。
PAStalledOnRasterizerCycles离散, 流式周期原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。

PixelShader 组

计数器名称采样类型用法简要说明
PSPixelsOut离散, 流式从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素;如果有多个渲染目标,每个渲染目标会收到一次导出,因此写入两个 RT 的 1 个像素会是 2。
PSExportStalls离散, 流式百分比像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。
PSExportStallsCycles离散, 流式周期像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零;如果不为零,则表示后期 Z 测试或颜色缓冲区的瓶颈。

ComputeShader 组

计数器名称采样类型用法简要说明
CSThreadGroupsLaunched离散, 流式启动的线程组总数。
CSWavefrontsLaunched离散, 流式为 CS 启动的波形前沿总数。
CSThreadsLaunched离散, 流式由硬件启动和处理的 CS 线程数。
CSThreadGroupSize离散每个线程组中的 CS 线程数。
CSVALUInsts离散每个工作项执行的向量 ALU 指令的平均数(受控制流影响)。
CSVALUUtilization离散百分比波阵列中活动的向量 ALU 线程的百分比。较低的数字可能表示波阵列中的线程发散增加,或者工作组大小不是波阵列大小的倍数。值范围:0%(差)到 100%(理想 - 无线程发散)。
CSSALUInsts离散每个工作项执行的标量 ALU 指令的平均数(受控制流影响)。
CSVFetchInsts离散每个工作项执行的从视频内存读取的向量读取指令的平均数(受控制流影响)。
CSSFetchInsts离散每个工作项执行的从视频内存读取的标量读取指令的平均数(受控制流影响)。
CSVWriteInsts离散每个工作项执行的写入视频内存的向量写入指令的平均数(受控制流影响)。
CSVALUBusy离散, 流式百分比处理向量 ALU 指令的 GPUTime 百分比。值范围:0%(差)到 100%(最佳)。
CSVALUBusyCycles离散, 流式周期处理向量 ALU 指令的 GPU 时钟周期数。
CSSALUBusy离散, 流式百分比处理标量 ALU 指令的 GPUTime 百分比。值范围:0%(差)到 100%(最佳)。
CSSALUBusyCycles离散, 流式周期处理标量 ALU 指令的 GPU 时钟周期数。
CSGDSInsts离散每个工作项执行的 GDS 读取或 GDS 写入指令的平均数(受控制流影响)。
CSLDSInsts离散每个工作项执行的 LDS 读取/写入指令的平均数(受控制流影响)。
CSALUStalledByLDS离散百分比ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。
CSALUStalledByLDSCycles离散周期每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期数。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。
CSLDSBankConflict离散, 流式百分比LDS 因银行冲突而停顿的 GPUTime 百分比。值范围:0%(最佳)到 100%(差)。
CSLDSBankConflictCycles离散, 流式周期LDS 因银行冲突而停顿的 GPU 周期数。值范围:0(最佳)到 GPUBusyCycles(差)。
CSALUStalledByLDSPerWave流式百分比每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突,请减少它们。否则,请尝试在可能的情况下减少 LDS 访问次数。值范围:0%(最佳)到 100%(差)。

TextureUnit 组

计数器名称采样类型用法简要说明
TexTriFilteringPct离散, 流式百分比应用了三线性过滤的像素百分比。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。
TexTriFilteringCount离散, 流式应用了三线性过滤的像素数。注意,并非所有启用三线性过滤的像素都会应用它(例如,如果纹理被放大)。
NoTexTriFilteringCount离散, 流式未应用三线性过滤的像素数。
TexVolFilteringPct离散, 流式百分比应用了体积过滤的像素百分比。
TexVolFilteringCount离散, 流式应用了体积过滤的像素数。
NoTexVolFilteringCount离散, 流式未应用体积过滤的像素数。
TexAveAnisotropy离散应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样(例如,如果视图向量垂直于表面,则不会有额外的各向异性采样),因此它可以远低于请求的各向异性。

DepthAndStencil 组

计数器名称采样类型用法简要说明
HiZTilesAccepted离散, 流式百分比被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。
HiZTilesAcceptedCount离散, 流式被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。
HiZTilesRejectedCount离散, 流式未被 HiZ 接受的图块计数。
PreZTilesDetailCulled离散, 流式百分比因相关图元没有贡献面积而被拒绝的图块百分比。
PreZTilesDetailCulledCount离散, 流式因相关图元没有贡献面积而被拒绝的图块计数。
PreZTilesDetailSurvivingCount离散, 流式因相关图元有贡献面积而保留的图块计数。
HiZQuadsCulled离散百分比HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsCulledCount离散HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区,或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsAcceptedCount离散, 流式HiZ 之后继续在管线中处理的四边形数。
PreZQuadsCulled离散百分比基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。
PreZQuadsCulledCount离散基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。
PreZQuadsSurvivingCount离散通过 detailZ 和 earlyZ 测试的四边形数。
PostZQuads离散百分比像素着色器将运行并可能进行 postZ 测试的四边形百分比。
PostZQuadCount离散, 流式像素着色器将运行并可能进行 postZ 测试的四边形数。
PreZSamplesPassing离散, 流式在着色前进行 Z 测试并通过的采样数。
PreZSamplesFailingS离散, 流式在着色前进行 Z 测试但模板测试失败的采样数。
PreZSamplesFailingZ离散, 流式在着色前进行 Z 测试但 Z 测试失败的采样数。
PostZSamplesPassing离散, 流式在着色后进行 Z 测试并通过的采样数。
PostZSamplesFailingS离散, 流式在着色后进行 Z 测试但模板测试失败的采样数。
PostZSamplesFailingZ离散, 流式在着色后进行 Z 测试但 Z 测试失败的采样数。
ZUnitStalled离散, 流式百分比深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。
ZUnitStalledCycles离散, 流式周期深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。
DBMemRead离散, 流式字节从深度缓冲区读取的字节数。
DBMemWritten离散, 流式字节写入深度缓冲区的字节数。

ColorBuffer 组

计数器名称采样类型用法简要说明
CBMemRead离散, 流式字节从颜色缓冲区读取的字节数。
CBColorAndMaskRead离散, 流式字节从颜色和蒙版缓冲区读取的总字节数。
CBMemWritten离散, 流式字节写入颜色缓冲区的字节数。
CBColorAndMaskWritten离散, 流式字节写入颜色和蒙版缓冲区的总字节数。
CBSlowPixelPct离散, 流式百分比使用半速率或四分之一速率格式写入颜色缓冲区的像素百分比。
CBSlowPixelCount离散, 流式使用半速率或四分之一速率格式写入颜色缓冲区的像素数。

MemoryCache 组

计数器名称采样类型用法简要说明
L0CacheHit离散, 流式百分比数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L0CacheRequestCount离散, 流式发往 L0 缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheHitCount离散, 流式从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheMissCount离散, 流式从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据,这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
ScalarCacheHit离散, 流式百分比执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。
ScalarCacheRequestCount离散, 流式执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheHitCount离散, 流式执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheMissCount离散, 流式执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
InstCacheHit离散, 流式百分比命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围:0%(未命中)到 100%(最佳)。
InstCacheRequestCount离散, 流式发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheHitCount离散, 流式命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheMissCount离散, 流式未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
L1CacheHit离散, 流式百分比在 L1 缓存中命中数据(读取或写入)的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L1CacheRequestCount离散, 流式向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheHitCount离散, 流式从 L1 缓存命中(缓存命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheMissCount离散, 流式从 L1 缓存未命中(缓存未命中)的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L2CacheHit离散, 流式百分比数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(未命中)到 100%(最佳)。
L2CacheMiss离散, 流式百分比数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围:0%(最佳)到 100%(全部未命中)。
L2CacheRequestCount离散, 流式发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheHitCount离散, 流式从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheMissCount离散, 流式从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享,包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L0TagConflictReadStalledCycles离散, 流式由于标记冲突而导致 L0 缓存读取操作停顿的周期数。
L0TagConflictWriteStalledCycles离散, 流式由于标记冲突而导致 L0 缓存写入操作停顿的周期数。
L0TagConflictAtomicStalledCycles离散, 流式由于标记冲突而导致 L0 缓存原子操作停顿的周期数。

GlobalMemory 组

计数器名称采样类型用法简要说明
FetchSize离散, 流式字节从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
WriteSize离散, 流式字节写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
MemUnitBusy离散, 流式百分比内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围:0% 到 100%(提取受限)。
MemUnitBusyCycles离散, 流式周期内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。
MemUnitStalled离散, 流式百分比内存单元停顿的 GPUTime 百分比。如果可能,尝试减少提取和写入的数量或大小。值范围:0%(最佳)到 100%(差)。
MemUnitStalledCycles离散, 流式周期内存单元停顿的 GPU 周期数。
WriteUnitStalled离散, 流式百分比写入单元停顿的 GPUTime 百分比。值范围:0% 到 100%(差)。
WriteUnitStalledCycles离散, 流式周期写入单元停顿的 GPU 周期数。
LocalVidMemBytes离散字节从本地视频内存读取或写入的字节数
PcieBytes离散字节通过 PCIe 总线发送和接收的字节数。

WaveDistribution 组

计数器名称采样类型用法简要说明
WaveOccupancyPct流式百分比当前使用的最大波形前沿占用率百分比。

WaveOccupancyLimiters 组

计数器名称采样类型用法简要说明
LSHSLimitedByVgpr流式百分比LS 和 HS 波调度请求因 VGPR 可用性不足而受限的百分比。
LSHSLimitedByLds流式百分比LS 和 HS 波调度请求因 LDS 可用性不足而受限的百分比。
LSHSLimitedByScratch流式百分比LS 和 HS 波调度请求因暂存空间可用性不足而受限的百分比。
HSLimitedByBarriers流式百分比受屏障限制的 HS 波形调度请求百分比。
ESGSLimitedByVgpr离散, 流式百分比ES 和 GS 波调度请求因 VGPR 可用性不足而受限的百分比。
ESGSLimitedByLds流式百分比ES 和 GS 波调度请求因 LDS 可用性不足而受限的百分比。
ESGSLimitedByScratch流式百分比ES 和 GS 波调度请求因暂存空间可用性不足而受限的百分比。
VSLimitedByVgpr流式百分比VS 波调度请求因 VGPR 可用性不足而受限的百分比。
VSLimitedByScratch流式百分比VS 波调度请求因暂存空间可用性不足而受限的百分比。
VSLimitedByExport流式百分比VS 波因导出空间可用性不足而停止的周期百分比。
PSLimitedByLds流式百分比PS 波调度请求因 LDS 可用性不足而受限的百分比。
PSLimitedByVgpr流式百分比PS 波调度请求因 VGPR 可用性不足而受限的百分比。
PSLimitedByScratch流式百分比PS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByLds流式百分比CS 波调度请求因 LDS 可用性不足而受限的百分比。
CSLimitedByVgpr流式百分比CS 波调度请求因 VGPR 可用性不足而受限的百分比。
CSLimitedByScratch流式百分比CS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByBarriers流式百分比CS 波调度请求因屏障而受限的百分比。
CSLimitedByThreadGroupLimit流式百分比CS 波调度请求因线程组限制而受限的百分比。
© . This site is unofficial and not affiliated with AMD.