性能计数器

Copyright (c) 2018-2025 Advanced Micro Devices, Inc. 保留所有权利。GPU 性能计数器 GPU Performance API 公开的性能计数器按组进行组织，以帮助提供所有可用数据的清晰度和组织性。以下是来自所有支持的硬件代计数器的集合列表。某些计数器可能无法使用，具体取决于正在分析的硬件。要查看哪些 GPU 属于哪些硬件代，最佳参考是 GitHub 上的 device_info 仓库中的 gs_cardInfo 数组。您可以查看 GDT_HW_GENERATION 枚举来了解各种卡如何映射到硬件代。

对于图形工作负载，建议您首先使用“Timing”组中的计数器进行分析，以确定分析的调用是否值得优化（基于 GPUTime 值），以及管线的哪些部分执行了最多的工作。请注意，由于 GPU 是高度并行的，管线的各个部分可以同时处于活动状态；因此，“Busy”计数器的总和可能会超过 100%。在确定一个或多个需要进一步研究的阶段后，启用相应的计数器组以获取有关该阶段的更多信息，并确定是否存在潜在的优化机会。

基于管线的计数器组

在 RDNA、RDNA2 和 RDNA3 硬件上，某些用例允许驱动程序通过组合两个着色器阶段来进行优化。例如，在 Vertex

Geometry + Pixel Shader 管线 (VS-GS-PS) 中，Vertex 和 Geometry Shaders 会被组合起来，GPUPerfAPI 会在“VertexGeometry”组（带有“VsGs”前缀的计数器）中公开它们。在使用了镶嵌的管线中，Vertex 和 Hull Shaders 会被组合起来并作为“PreTessellation”组（带有“PreTess”前缀）公开；Domain 和 Geometry Shaders（如果使用了 GS）会被组合成“PostTessellation”组（带有“PostTess”前缀）。Pixel Shaders 和 Compute Shaders 始终作为各自的类型公开。下表有助于可视化 API 级着色器（顶部）与 GPUPerfAPI 计数器中要查找的前缀之间的映射。

管线	Vertex	Hull	Domain	几何体	Pixel	Compute
VS-PS	VsGs				PS
VS-GS-PS	VsGs			VsGs	PS
VS-HS-DS-PS	PreTess	PreTess	PostTess	PostTess	PS
VS-HS-DS-GS-PS	PreTess	PreTess	PostTess	PostTess	PS
CS						CS

关于第三方应用程序的说明

几个第三方应用程序（如 RenderDoc 和 Microsoft PIX）将 GPUPerfAPI 集成到其性能分析功能集中。这些应用程序可能会选择仅公开 GPUPerfAPI 支持的计数器子集，尤其是在计数器不支持应用程序设计目标的情况下。具体来说，已知 RenderDoc 中不公开报告百分比的计数器。这是因为这些工具收集和报告一组绘图调用的聚合性能计数器值的方式。例如，如果一组绘图调用由用户标记组合在一起，则工具可能通过简单地将各个绘图调用的计数器值相加来报告用户标记的性能计数器值。虽然这对许多计数器来说可能是有效的，但对于基于百分比的计数器效果不佳。即使工具执行简单平均百分比值，也可能无法准确反映实际性能。对于大多数基于百分比的计数器，GPUPerfAPI 还公开了用于计算百分比的组件的计数器。缓存命中计数器就是一个例子——它们同时作为缓存命中百分比以及代表缓存请求数、命中数和未命中数的单独计数器公开。请参考下表中的“Usage”列，了解这些应用程序将不会公开哪些计数器。

用于图形性能分析的计数器

下表显示了用于分析 GPU 图形工作负载的计数器集，以及每个计数器可用的 GPU 和 APU 系列。

RDNA4 计数器

Timing 组

计数器名称	采样类型	用法	简要说明
GPUTime	离散	纳秒	此 API 命令在 GPU 上执行所花费的时间（以纳秒为单位），从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionDuration	离散	纳秒	GPU 命令执行持续时间（以纳秒为单位），从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionStart	离散	纳秒	GPU 命令执行开始时间（以纳秒为单位）。这是命令进入管线顶部 (TOP) 的时间。
ExecutionEnd	离散	纳秒	GPU 命令执行结束时间（以纳秒为单位）。这是命令到达管线底部 (BOP) 的时间。
GPUBusy	离散, 流式	百分比	GPU 命令处理器忙碌的时间百分比。
GPUBusyCycles	离散, 流式	周期	GPU 命令处理器忙碌的 GPU 周期数。
TessellatorBusy	离散, 流式	百分比	镶嵌引擎忙碌的时间百分比。
TessellatorBusyCycles	离散, 流式	周期	镶嵌引擎忙碌的 GPU 周期数。
VsGsBusy	离散, 流式	百分比	在 VS-[GS-]PS 管线中，ShaderUnit 拥有 VS 或 GS 工作的时间百分比。
VsGsBusyCycles	离散, 流式	周期	在 VS-[GS-]PS 管线中，ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。
VsGsTime	离散	纳秒	在 VS-[GS-]PS 管线中，VS 或 GS 忙碌的时间（以纳秒为单位）。
PreTessellationBusy	离散, 流式	百分比	在使用镶嵌的管线中，ShaderUnit 拥有 VS 和 HS 工作的时间百分比。
PreTessellationBusyCycles	离散, 流式	周期	在使用镶嵌的管线中，ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。
PreTessellationTime	离散	纳秒	在使用镶嵌的管线中，VS 和 HS 忙碌的时间（以纳秒为单位）。
PostTessellationBusy	离散, 流式	百分比	在使用镶嵌的管线中，ShaderUnit 拥有 DS 或 GS 工作的时间百分比。
PostTessellationBusyCycles	离散, 流式	周期	在使用镶嵌的管线中，ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。
PostTessellationTime	离散	纳秒	在使用镶嵌的管线中，DS 或 GS 忙碌的时间（以纳秒为单位）。
PSBusy	离散, 流式	百分比	ShaderUnit 拥有像素着色器工作的时间百分比。
PSBusyCycles	离散, 流式	周期	ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。
PSTime	离散	纳秒	像素着色器忙碌的时间（以纳秒为单位）。
CSBusy	离散, 流式	百分比	ShaderUnit 拥有计算着色器工作的时间百分比。
CSBusyCycles	离散, 流式	周期	ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。
CSTime	离散	纳秒	计算着色器忙碌的时间（以纳秒为单位）。
PrimitiveAssemblyBusy	离散	百分比	原始图元装配（裁剪和剔除）忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起；中到低值可能表明像素着色器或输出缓冲区瓶颈。
PrimitiveAssemblyBusyCycles	离散	周期	原始图元装配（裁剪和剔除）忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起；中到低值可能表明像素着色器或输出缓冲区瓶颈。
TexUnitBusy	离散, 流式	百分比	纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。
TexUnitBusyCycles	离散, 流式	周期	纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。
DepthStencilTestBusy	离散, 流式	百分比	GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。
DepthStencilTestBusyCycles	离散, 流式	周期	花费在深度和模板测试上的 GPU 周期数。

VertexGeometry 组

计数器名称	采样类型	用法	简要说明
VsGsVerticesIn	离散, 流式	项	VS 和 GS 处理的唯一顶点数。
VsGsPrimsIn	离散, 流式	项	传入 GS 的原始图元数。

PreTessellation 组

计数器名称	采样类型	用法	简要说明
PreTessVerticesIn	离散, 流式	项	在使用镶嵌时，VS 和 HS 处理的唯一顶点数。

PostTessellation 组

计数器名称	采样类型	用法	简要说明
PostTessPrimsOut	离散, 流式	项	在使用镶嵌时，DS 和 GS 输出的原始图元数。

PrimitiveAssembly 组

计数器名称	采样类型	用法	简要说明
PrimitivesIn	离散, 流式	项	硬件接收到的原始图元数。包括镶嵌生成的原始图元。
CulledPrims	离散	项	被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。
ClippedPrims	离散	项	由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。
PAStalledOnRasterizer	离散, 流式	百分比	原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。
PAStalledOnRasterizerCycles	离散, 流式	周期	原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。

PixelShader 组

计数器名称	采样类型	用法	简要说明
PSPixelsOut	离散, 流式	项	从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素；如果有多个渲染目标，每个渲染目标会收到一次导出，因此写入两个 RT 的 1 个像素会是 2。
PSExportStalls	离散, 流式	百分比	像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零；如果不为零，则表示后期 Z 测试或颜色缓冲区的瓶颈。
PSExportStallsCycles	离散, 流式	周期	像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零；如果不为零，则表示后期 Z 测试或颜色缓冲区的瓶颈。

ComputeShader 组

计数器名称	采样类型	用法	简要说明
CSThreadGroupsLaunched	离散, 流式	项	启动的线程组总数。
CSWavefrontsLaunched	离散, 流式	项	为 CS 启动的波形前沿总数。
CSThreadsLaunched	离散, 流式	项	由硬件启动和处理的 CS 线程数。
CSThreadGroupSize	离散, 流式	项	每个线程组中的 CS 线程数。
CSLDSBankConflict	离散, 流式	百分比	LDS 因银行冲突而停顿的 GPUTime 百分比。值范围：0%（最佳）到 100%（差）。
CSLDSBankConflictCycles	离散, 流式	周期	LDS 因银行冲突而停顿的 GPU 周期数。值范围：0（最佳）到 GPUBusyCycles（差）。

TextureUnit 组

计数器名称	采样类型	用法	简要说明
TexTriFilteringPct	离散, 流式	百分比	应用了三线性过滤的像素百分比。注意，并非所有启用三线性过滤的像素都会应用它（例如，如果纹理被放大）。
TexTriFilteringCount	离散, 流式	项	应用了三线性过滤的像素数。注意，并非所有启用三线性过滤的像素都会应用它（例如，如果纹理被放大）。
NoTexTriFilteringCount	离散, 流式	项	未应用三线性过滤的像素数。
TexVolFilteringPct	离散, 流式	百分比	应用了体积过滤的像素百分比。
TexVolFilteringCount	离散, 流式	项	应用了体积过滤的像素数。
NoTexVolFilteringCount	离散, 流式	项	未应用体积过滤的像素数。
TexAveAnisotropy	离散	项	应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样（例如，如果视图向量垂直于表面，则不会有额外的各向异性采样），因此它可以远低于请求的各向异性。

DepthAndStencil 组

计数器名称	采样类型	用法	简要说明
HiZQuadsCulled	离散	百分比	HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区，或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsCulledCount	离散	项	HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区，或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsAcceptedCount	离散, 流式	项	HiZ 之后继续在管线中处理的四边形数。
PreZQuadsCulled	离散	百分比	基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。
PreZQuadsCulledCount	离散	项	基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。
PreZQuadsSurvivingCount	离散, 流式	项	通过 detailZ 和 earlyZ 测试的四边形数。
PostZQuads	离散	百分比	像素着色器将运行并可能进行 postZ 测试的四边形百分比。
PostZQuadCount	离散, 流式	项	像素着色器将运行并可能进行 postZ 测试的四边形数。
PreZSamplesPassing	离散, 流式	项	在着色前进行 Z 测试并通过的采样数。
PreZSamplesFailingS	离散, 流式	项	在着色前进行 Z 测试但模板测试失败的采样数。
PreZSamplesFailingZ	离散, 流式	项	在着色前进行 Z 测试但 Z 测试失败的采样数。
PostZSamplesPassing	离散, 流式	项	在着色后进行 Z 测试并通过的采样数。
PostZSamplesFailingS	离散, 流式	项	在着色后进行 Z 测试但模板测试失败的采样数。
PostZSamplesFailingZ	离散, 流式	项	在着色后进行 Z 测试但 Z 测试失败的采样数。
ZUnitStalled	离散, 流式	百分比	深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。
ZUnitStalledCycles	离散, 流式	周期	深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。

ColorBuffer 组

计数器名称	采样类型	用法	简要说明
CBMemRead	离散, 流式	字节	从颜色缓冲区读取的字节数。
CBMemWritten	离散, 流式	字节	写入颜色缓冲区的字节数。

MemoryCache 组

计数器名称	采样类型	用法	简要说明
L0CacheHit	离散, 流式	百分比	数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L0CacheRequestCount	离散, 流式	项	发往 L0 缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheHitCount	离散, 流式	项	从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheMissCount	离散, 流式	项	从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
ScalarCacheHit	离散, 流式	百分比	执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围：0%（未命中）到 100%（最佳）。
ScalarCacheRequestCount	离散, 流式	项	执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheHitCount	离散, 流式	项	执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheMissCount	离散, 流式	项	执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
InstCacheHit	离散, 流式	百分比	命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围：0%（未命中）到 100%（最佳）。
InstCacheRequestCount	离散, 流式	项	发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheHitCount	离散, 流式	项	命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheMissCount	离散, 流式	项	未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
L2CacheHit	离散, 流式	百分比	数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L2CacheMiss	离散, 流式	百分比	数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围：0%（最佳）到 100%（全部未命中）。
L2CacheRequestCount	离散, 流式	项	发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheHitCount	离散, 流式	项	从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheMissCount	离散, 流式	项	从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L0TagConflictReadStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存读取操作停顿的周期数。
L0TagConflictWriteStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存写入操作停顿的周期数。
L0TagConflictAtomicStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存原子操作停顿的周期数。

GlobalMemory 组

计数器名称	采样类型	用法	简要说明
FetchSize	离散, 流式	字节	从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
WriteSize	离散, 流式	字节	写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
MemUnitBusy	离散, 流式	百分比	内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围：0% 到 100%（提取受限）。
MemUnitBusyCycles	离散, 流式	周期	内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。
MemUnitStalled	离散, 流式	百分比	内存单元停顿的 GPUTime 百分比。如果可能，尝试减少提取和写入的数量或大小。值范围：0%（最佳）到 100%（差）。
MemUnitStalledCycles	离散, 流式	周期	内存单元停顿的 GPU 周期数。
WriteUnitStalled	离散, 流式	百分比	写入单元停顿的 GPUTime 百分比。值范围：0% 到 100%（差）。
WriteUnitStalledCycles	离散, 流式	周期	写入单元停顿的 GPU 周期数。
LocalVidMemBytes	离散	字节	从 Infinity Cache（如果可用）或本地显存读取或写入的字节数。
PcieBytes	离散, 流式	字节	通过 PCIe 总线发送和接收的字节数。

RayTracing 组

计数器名称	采样类型	用法	简要说明
RayTriTests	离散, 流式	项	射线三角形交叉测试次数。
RayBoxTests	离散, 流式	项	射线包围盒交叉测试次数。
TotalRayTests	离散, 流式	项	射线交叉测试总次数，包括包围盒和三角形交叉。
RayTestsPerWave	离散, 流式	项	每个波形前沿的射线交叉测试次数。

WaveDistribution 组

计数器名称	采样类型	用法	简要说明
WaveOccupancyPct	流式	百分比	当前使用的最大波形前沿占用率百分比。

WaveOccupancyLimiters 组

计数器名称	采样类型	用法	简要说明
HSLimitedByVgpr	流式	百分比	受 VGPR 可用性限制的 HS 波形调度请求百分比。
HSLimitedByLds	流式	百分比	受 LDS 可用性限制的 HS 波形调度请求百分比。
HSLimitedByScratch	流式	百分比	受 scratch 空间可用性限制的 HS 波形调度请求百分比。
HSLimitedByBarriers	流式	百分比	受屏障限制的 HS 波形调度请求百分比。
GSLimitedByVgpr	流式	百分比	受 VGPR 可用性限制的 GS 波形调度请求百分比。
GSLimitedByLds	流式	百分比	受 LDS 可用性限制的 GS 波形调度请求百分比。
GSLimitedByScratch	流式	百分比	GS 波调度请求因暂存空间可用性不足而受限的百分比。
PSLimitedByLds	流式	百分比	PS 波调度请求因 LDS 可用性不足而受限的百分比。
PSLimitedByVgpr	流式	百分比	PS 波调度请求因 VGPR 可用性不足而受限的百分比。
PSLimitedByScratch	流式	百分比	PS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByLds	流式	百分比	CS 波调度请求因 LDS 可用性不足而受限的百分比。
CSLimitedByVgpr	流式	百分比	CS 波调度请求因 VGPR 可用性不足而受限的百分比。
CSLimitedByScratch	流式	百分比	CS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByBarriers	流式	百分比	CS 波调度请求因屏障而受限的百分比。
CSLimitedByThreadGroupLimit	流式	百分比	CS 波调度请求因线程组限制而受限的百分比。

RDNA3 计数器

Timing 组

计数器名称	采样类型	用法	简要说明
GPUTime	离散	纳秒	此 API 命令在 GPU 上执行所花费的时间（以纳秒为单位），从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionDuration	离散	纳秒	GPU 命令执行持续时间（以纳秒为单位），从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionStart	离散	纳秒	GPU 命令执行开始时间（以纳秒为单位）。这是命令进入管线顶部 (TOP) 的时间。
ExecutionEnd	离散	纳秒	GPU 命令执行结束时间（以纳秒为单位）。这是命令到达管线底部 (BOP) 的时间。
GPUBusy	离散, 流式	百分比	GPU 命令处理器忙碌的时间百分比。
GPUBusyCycles	离散, 流式	周期	GPU 命令处理器忙碌的 GPU 周期数。
TessellatorBusy	离散, 流式	百分比	镶嵌引擎忙碌的时间百分比。
TessellatorBusyCycles	离散, 流式	周期	镶嵌引擎忙碌的 GPU 周期数。
VsGsBusy	离散, 流式	百分比	在 VS-[GS-]PS 管线中，ShaderUnit 拥有 VS 或 GS 工作的时间百分比。
VsGsBusyCycles	离散, 流式	周期	在 VS-[GS-]PS 管线中，ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。
VsGsTime	离散	纳秒	在 VS-[GS-]PS 管线中，VS 或 GS 忙碌的时间（以纳秒为单位）。
PreTessellationBusy	离散, 流式	百分比	在使用镶嵌的管线中，ShaderUnit 拥有 VS 和 HS 工作的时间百分比。
PreTessellationBusyCycles	离散, 流式	周期	在使用镶嵌的管线中，ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。
PreTessellationTime	离散	纳秒	在使用镶嵌的管线中，VS 和 HS 忙碌的时间（以纳秒为单位）。
PostTessellationBusy	离散, 流式	百分比	在使用镶嵌的管线中，ShaderUnit 拥有 DS 或 GS 工作的时间百分比。
PostTessellationBusyCycles	离散, 流式	周期	在使用镶嵌的管线中，ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。
PostTessellationTime	离散	纳秒	在使用镶嵌的管线中，DS 或 GS 忙碌的时间（以纳秒为单位）。
PSBusy	离散, 流式	百分比	ShaderUnit 拥有像素着色器工作的时间百分比。
PSBusyCycles	离散, 流式	周期	ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。
PSTime	离散	纳秒	像素着色器忙碌的时间（以纳秒为单位）。
CSBusy	离散, 流式	百分比	ShaderUnit 拥有计算着色器工作的时间百分比。
CSBusyCycles	离散, 流式	周期	ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。
CSTime	离散	纳秒	计算着色器忙碌的时间（以纳秒为单位）。
PrimitiveAssemblyBusy	离散	百分比	原始图元装配（裁剪和剔除）忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起；中到低值可能表明像素着色器或输出缓冲区瓶颈。
PrimitiveAssemblyBusyCycles	离散	周期	原始图元装配（裁剪和剔除）忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起；中到低值可能表明像素着色器或输出缓冲区瓶颈。
TexUnitBusy	离散, 流式	百分比	纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。
TexUnitBusyCycles	离散, 流式	周期	纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。
DepthStencilTestBusy	离散, 流式	百分比	GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。
DepthStencilTestBusyCycles	离散, 流式	周期	花费在深度和模板测试上的 GPU 周期数。

VertexGeometry 组

计数器名称	采样类型	用法	简要说明
VsGsVerticesIn	离散, 流式	项	VS 和 GS 处理的唯一顶点数。
VsGsPrimsIn	离散, 流式	项	传入 GS 的原始图元数。

PreTessellation 组

计数器名称	采样类型	用法	简要说明
PreTessVerticesIn	离散, 流式	项	在使用镶嵌时，VS 和 HS 处理的唯一顶点数。

PostTessellation 组

计数器名称	采样类型	用法	简要说明
PostTessPrimsOut	离散, 流式	项	在使用镶嵌时，DS 和 GS 输出的原始图元数。

PrimitiveAssembly 组

计数器名称	采样类型	用法	简要说明
PrimitivesIn	离散, 流式	项	硬件接收到的原始图元数。包括镶嵌生成的原始图元。
CulledPrims	离散	项	被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。
ClippedPrims	离散	项	由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。
PAStalledOnRasterizer	离散, 流式	百分比	原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。
PAStalledOnRasterizerCycles	离散, 流式	周期	原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。

PixelShader 组

计数器名称	采样类型	用法	简要说明
PSPixelsOut	离散, 流式	项	从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素；如果有多个渲染目标，每个渲染目标会收到一次导出，因此写入两个 RT 的 1 个像素会是 2。
PSExportStalls	离散, 流式	百分比	像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零；如果不为零，则表示后期 Z 测试或颜色缓冲区的瓶颈。
PSExportStallsCycles	离散, 流式	周期	像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零；如果不为零，则表示后期 Z 测试或颜色缓冲区的瓶颈。

ComputeShader 组

计数器名称	采样类型	用法	简要说明
CSThreadGroupsLaunched	离散, 流式	项	已启动的线程组总数。
CSWavefrontsLaunched	离散, 流式	项	为 CS 启动的波形前沿总数。
CSThreadsLaunched	离散, 流式	项	由硬件启动和处理的 CS 线程数。
CSThreadGroupSize	离散	项	每个线程组中的 CS 线程数。
CSALUStalledByLDS	离散	百分比	每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。值范围：0%（最佳）到 100%（差）。
CSALUStalledByLDSCycles	离散	周期	每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期平均数。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。值范围：0%（最佳）到 100%（差）。
CSLDSBankConflict	离散, 流式	百分比	因银行冲突导致 LDS 停止的 GPUTime 平均百分比。值范围：0%（最佳）到 100%（差）。
CSLDSBankConflictCycles	离散, 流式	周期	因银行冲突导致 LDS 停止的 GPU 时钟周期平均数。值范围：0（最佳）到 GPUBusyCycles（差）。
CSALUStalledByLDSPerWave	流式	百分比	每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。值范围：0%（最佳）到 100%（差）。

TextureUnit 组

计数器名称	采样类型	用法	简要说明
TexTriFilteringPct	离散, 流式	百分比	应用了三线性过滤的像素百分比。注意，并非所有启用三线性过滤的像素都会应用它（例如，如果纹理被放大）。
TexTriFilteringCount	离散, 流式	项	应用了三线性过滤的像素数。注意，并非所有启用三线性过滤的像素都会应用它（例如，如果纹理被放大）。
NoTexTriFilteringCount	离散, 流式	项	未应用三线性过滤的像素数。
TexVolFilteringPct	离散, 流式	百分比	应用了体积过滤的像素百分比。
TexVolFilteringCount	离散, 流式	项	应用了体积过滤的像素数。
NoTexVolFilteringCount	离散, 流式	项	未应用体积过滤的像素数。
TexAveAnisotropy	离散	项	应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样（例如，如果视图向量垂直于表面，则不会有额外的各向异性采样），因此它可以远低于请求的各向异性。

DepthAndStencil 组

计数器名称	采样类型	用法	简要说明
HiZTilesAccepted	离散, 流式	百分比	被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。
HiZTilesAcceptedCount	离散, 流式	项	被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。
HiZTilesRejectedCount	离散, 流式	项	未被 HiZ 接受的图块计数。
PreZTilesDetailCulled	离散, 流式	百分比	因相关图元没有贡献面积而被拒绝的图块百分比。
PreZTilesDetailCulledCount	离散, 流式	项	因相关图元没有贡献面积而被拒绝的图块计数。
PreZTilesDetailSurvivingCount	离散, 流式	项	因相关图元有贡献面积而保留的图块计数。
HiZQuadsCulled	离散	百分比	HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区，或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsCulledCount	离散	项	HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区，或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsAcceptedCount	离散, 流式	项	HiZ 之后继续在管线中处理的四边形数。
PreZQuadsCulled	离散	百分比	基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。
PreZQuadsCulledCount	离散	项	基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。
PreZQuadsSurvivingCount	离散, 流式	项	通过 detailZ 和 earlyZ 测试的四边形数。
PostZQuads	离散	百分比	像素着色器将运行并可能进行 postZ 测试的四边形百分比。
PostZQuadCount	离散, 流式	项	像素着色器将运行并可能进行 postZ 测试的四边形数。
PreZSamplesPassing	离散, 流式	项	在着色前进行 Z 测试并通过的采样数。
PreZSamplesFailingS	离散, 流式	项	在着色前进行 Z 测试但模板测试失败的采样数。
PreZSamplesFailingZ	离散, 流式	项	在着色前进行 Z 测试但 Z 测试失败的采样数。
PostZSamplesPassing	离散, 流式	项	在着色后进行 Z 测试并通过的采样数。
PostZSamplesFailingS	离散, 流式	项	在着色后进行 Z 测试但模板测试失败的采样数。
PostZSamplesFailingZ	离散, 流式	项	在着色后进行 Z 测试但 Z 测试失败的采样数。
ZUnitStalled	离散, 流式	百分比	深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。
ZUnitStalledCycles	离散, 流式	周期	深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。
DBMemRead	离散, 流式	字节	从深度缓冲区读取的字节数。
DBMemWritten	离散, 流式	字节	写入深度缓冲区的字节数。

MemoryCache 组

计数器名称	采样类型	用法	简要说明
L0CacheHit	离散, 流式	百分比	数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L0CacheRequestCount	离散, 流式	项	发往 L0 缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheHitCount	离散, 流式	项	从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheMissCount	离散, 流式	项	从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
ScalarCacheHit	离散, 流式	百分比	执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围：0%（未命中）到 100%（最佳）。
ScalarCacheRequestCount	离散, 流式	项	执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheHitCount	离散, 流式	项	执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheMissCount	离散, 流式	项	执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
InstCacheHit	离散, 流式	百分比	命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围：0%（未命中）到 100%（最佳）。
InstCacheRequestCount	离散, 流式	项	发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheHitCount	离散, 流式	项	命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheMissCount	离散, 流式	项	未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
L1CacheHit	离散, 流式	百分比	在 L1 缓存中命中数据（读取或写入）的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L1CacheRequestCount	离散	项	向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheHitCount	离散, 流式	项	从 L1 缓存命中（缓存命中）的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheMissCount	离散, 流式	项	从 L1 缓存未命中（缓存未命中）的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L2CacheHit	离散, 流式	百分比	数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L2CacheMiss	离散, 流式	百分比	数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围：0%（最佳）到 100%（全部未命中）。
L2CacheRequestCount	离散, 流式	项	发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheHitCount	离散, 流式	项	从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheMissCount	离散, 流式	项	从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L0TagConflictReadStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存读取操作停顿的周期数。
L0TagConflictWriteStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存写入操作停顿的周期数。
L0TagConflictAtomicStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存原子操作停顿的周期数。

GlobalMemory 组

计数器名称	采样类型	用法	简要说明
FetchSize	离散, 流式	字节	从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
WriteSize	离散, 流式	字节	写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
MemUnitBusy	离散, 流式	百分比	内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围：0% 到 100%（提取受限）。
MemUnitBusyCycles	离散, 流式	周期	内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。
MemUnitStalled	离散, 流式	百分比	内存单元停顿的 GPUTime 百分比。如果可能，尝试减少提取和写入的数量或大小。值范围：0%（最佳）到 100%（差）。
MemUnitStalledCycles	离散, 流式	周期	内存单元停顿的 GPU 周期数。
WriteUnitStalled	离散, 流式	百分比	写入单元停顿的 GPUTime 百分比。值范围：0% 到 100%（差）。
WriteUnitStalledCycles	离散, 流式	周期	写入单元停顿的 GPU 周期数。
LocalVidMemBytes	离散	字节	从 Infinity Cache（如果可用）或本地显存读取或写入的字节数。
PcieBytes	离散, 流式	字节	通过 PCIe 总线发送和接收的字节数。

RayTracing 组

计数器名称	采样类型	用法	简要说明
RayTriTests	离散, 流式	项	射线三角形交叉测试次数。
RayBoxTests	离散, 流式	项	射线包围盒交叉测试次数。
TotalRayTests	离散, 流式	项	射线交叉测试总次数，包括包围盒和三角形交叉。
RayTestsPerWave	离散, 流式	项	每个波形前沿的射线交叉测试次数。

WaveDistribution 组

计数器名称	采样类型	用法	简要说明
WaveOccupancyPct	流式	百分比	当前使用的最大波形前沿占用率百分比。

WaveOccupancyLimiters 组

计数器名称	采样类型	用法	简要说明
HSLimitedByVgpr	流式	百分比	受 VGPR 可用性限制的 HS 波形调度请求百分比。
HSLimitedByLds	流式	百分比	受 LDS 可用性限制的 HS 波形调度请求百分比。
HSLimitedByScratch	流式	百分比	受 scratch 空间可用性限制的 HS 波形调度请求百分比。
HSLimitedByBarriers	流式	百分比	受屏障限制的 HS 波形调度请求百分比。
GSLimitedByVgpr	流式	百分比	受 VGPR 可用性限制的 GS 波形调度请求百分比。
GSLimitedByLds	流式	百分比	受 LDS 可用性限制的 GS 波形调度请求百分比。
GSLimitedByScratch	流式	百分比	GS 波调度请求因暂存空间可用性不足而受限的百分比。
PSLimitedByLds	流式	百分比	PS 波调度请求因 LDS 可用性不足而受限的百分比。
PSLimitedByVgpr	流式	百分比	PS 波调度请求因 VGPR 可用性不足而受限的百分比。
PSLimitedByScratch	流式	百分比	PS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByLds	流式	百分比	CS 波调度请求因 LDS 可用性不足而受限的百分比。
CSLimitedByVgpr	流式	百分比	CS 波调度请求因 VGPR 可用性不足而受限的百分比。
CSLimitedByScratch	流式	百分比	CS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByBarriers	流式	百分比	CS 波调度请求因屏障而受限的百分比。
CSLimitedByThreadGroupLimit	流式	百分比	CS 波调度请求因线程组限制而受限的百分比。

RDNA2 计数器

Timing 组

计数器名称	采样类型	用法	简要说明
GPUTime	离散	纳秒	此 API 命令在 GPU 上执行所花费的时间（以纳秒为单位），从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionDuration	离散	纳秒	GPU 命令执行持续时间（以纳秒为单位），从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionStart	离散	纳秒	GPU 命令执行开始时间（以纳秒为单位）。这是命令进入管线顶部 (TOP) 的时间。
ExecutionEnd	离散	纳秒	GPU 命令执行结束时间（以纳秒为单位）。这是命令到达管线底部 (BOP) 的时间。
GPUBusy	离散, 流式	百分比	GPU 命令处理器忙碌的时间百分比。
GPUBusyCycles	离散, 流式	周期	GPU 命令处理器忙碌的 GPU 周期数。
TessellatorBusy	离散, 流式	百分比	镶嵌引擎忙碌的时间百分比。
TessellatorBusyCycles	离散, 流式	周期	镶嵌引擎忙碌的 GPU 周期数。
VsGsBusy	离散, 流式	百分比	在 VS-[GS-]PS 管线中，ShaderUnit 拥有 VS 或 GS 工作的时间百分比。
VsGsBusyCycles	离散, 流式	周期	在 VS-[GS-]PS 管线中，ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。
VsGsTime	离散	纳秒	在 VS-[GS-]PS 管线中，VS 或 GS 忙碌的时间（以纳秒为单位）。
PreTessellationBusy	离散, 流式	百分比	在使用镶嵌的管线中，ShaderUnit 拥有 VS 和 HS 工作的时间百分比。
PreTessellationBusyCycles	离散, 流式	周期	在使用镶嵌的管线中，ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。
PreTessellationTime	离散	纳秒	在使用镶嵌的管线中，VS 和 HS 忙碌的时间（以纳秒为单位）。
PostTessellationBusy	离散, 流式	百分比	在使用镶嵌的管线中，ShaderUnit 拥有 DS 或 GS 工作的时间百分比。
PostTessellationBusyCycles	离散, 流式	周期	在使用镶嵌的管线中，ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。
PostTessellationTime	离散	纳秒	在使用镶嵌的管线中，DS 或 GS 忙碌的时间（以纳秒为单位）。
PSBusy	离散, 流式	百分比	ShaderUnit 拥有像素着色器工作的时间百分比。
PSBusyCycles	离散, 流式	周期	ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。
PSTime	离散	纳秒	像素着色器忙碌的时间（以纳秒为单位）。
CSBusy	离散, 流式	百分比	ShaderUnit 拥有计算着色器工作的时间百分比。
CSBusyCycles	离散, 流式	周期	ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。
CSTime	离散	纳秒	计算着色器忙碌的时间（以纳秒为单位）。
PrimitiveAssemblyBusy	离散	百分比	原始图元装配（裁剪和剔除）忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起；中到低值可能表明像素着色器或输出缓冲区瓶颈。
PrimitiveAssemblyBusyCycles	离散	周期	原始图元装配（裁剪和剔除）忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起；中到低值可能表明像素着色器或输出缓冲区瓶颈。
TexUnitBusy	离散, 流式	百分比	纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。
TexUnitBusyCycles	离散, 流式	周期	纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。
DepthStencilTestBusy	离散, 流式	百分比	GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。
DepthStencilTestBusyCycles	离散, 流式	周期	花费在深度和模板测试上的 GPU 周期数。

VertexGeometry 组

计数器名称	采样类型	用法	简要说明
GSVerticesOut	离散, 流式	项	GS 输出的顶点数。
VsGsVALUInstCount	离散	项	在 VS-[GS-]PS 管道中，VS 和 GS 执行的向量 ALU 指令的平均数（受控制流影响）。
VsGsSALUInstCount	离散	项	VS 和 GS 执行的标量 ALU 指令的平均数（受控制流影响）。
VsGsVALUBusy	离散	百分比	VS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。
VsGsVALUBusyCycles	离散	周期	VS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。
VsGsSALUBusy	离散	百分比	VS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。
VsGsSALUBusyCycles	离散	周期	VS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。

PreTessellation 组

计数器名称	采样类型	用法	简要说明
PreTessVALUInstCount	离散, 流式	项	在使用了镶嵌的管道中，VS 和 HS 执行的向量 ALU 指令的平均数（受控制流影响）。
PreTessSALUInstCount	离散, 流式	项	在使用了镶嵌的管道中，VS 和 HS 执行的标量 ALU 指令的平均数（受控制流影响）。
PreTessVALUBusy	离散, 流式	百分比	在使用了镶嵌的管道中，VS 和 HS 处理向量 ALU 指令的 GPUTime 百分比。
PreTessVALUBusyCycles	离散, 流式	周期	在使用了镶嵌的管道中，VS 和 HS 处理向量 ALU 指令的 GPU 时钟周期数。
PreTessSALUBusy	离散, 流式	百分比	在使用了镶嵌的管道中，VS 和 HS 处理标量 ALU 指令的 GPUTime 百分比。
PreTessSALUBusyCycles	离散, 流式	周期	在使用了镶嵌的管道中，VS 和 HS 处理标量 ALU 指令的 GPU 时钟周期数。
PreTessVerticesIn	离散, 流式	项	在使用镶嵌时，由 VS 和 HS 处理的顶点数。

PostTessellation 组

计数器名称	采样类型	用法	简要说明
PostTessPrimsOut	离散, 流式	项	在使用镶嵌时，DS 和 GS 输出的原始图元数。
PostTessVALUInstCount	离散, 流式	项	在使用了镶嵌的管道中，DS 和 GS 执行的向量 ALU 指令的平均数（受控制流影响）。
PostTessSALUInstCount	离散	项	在使用了镶嵌的管道中，DS 和 GS 执行的标量 ALU 指令的平均数（受控制流影响）。
PostTessVALUBusy	离散, 流式	百分比	在使用了镶嵌的管道中，DS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。
PostTessVALUBusyCycles	离散, 流式	周期	在使用了镶嵌的管道中，DS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。
PostTessSALUBusy	离散, 流式	百分比	在使用了镶嵌的管道中，DS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。
PostTessSALUBusyCycles	离散, 流式	周期	在使用了镶嵌的管道中，DS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。

PrimitiveAssembly 组

计数器名称	采样类型	用法	简要说明
PrimitivesIn	离散, 流式	项	硬件接收到的原始图元数。包括镶嵌生成的原始图元。
CulledPrims	离散	项	被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。
ClippedPrims	离散, 流式	项	由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。
PAStalledOnRasterizer	离散, 流式	百分比	原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。
PAStalledOnRasterizerCycles	离散, 流式	周期	原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。

PixelShader 组

计数器名称	采样类型	用法	简要说明
PSPixelsOut	离散, 流式	项	从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素；如果有多个渲染目标，每个渲染目标会收到一次导出，因此写入两个 RT 的 1 个像素会是 2。
PSExportStalls	离散, 流式	百分比	像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零；如果不为零，则表示后期 Z 测试或颜色缓冲区的瓶颈。
PSExportStallsCycles	离散, 流式	周期	像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零；如果不为零，则表示后期 Z 测试或颜色缓冲区的瓶颈。

ComputeShader 组

计数器名称	采样类型	用法	简要说明
CSThreadGroupsLaunched	离散, 流式	项	启动的线程组总数。
CSWavefrontsLaunched	离散, 流式	项	为 CS 启动的波形前沿总数。
CSThreadsLaunched	离散, 流式	项	由硬件启动和处理的 CS 线程数。
CSThreadGroupSize	离散	项	每个线程组中的 CS 线程数。
CSVALUInsts	离散	项	每个工作项执行的向量 ALU 指令的平均数（受控制流影响）。
CSVALUUtilization	离散	百分比	波阵列中活动的向量 ALU 线程的百分比。较低的数字可能表示波阵列中的线程发散增加，或者工作组大小不是波阵列大小的倍数。值范围：0%（差）到 100%（理想 - 无线程发散）。
CSSALUInsts	离散	项	每个工作项执行的标量 ALU 指令的平均数（受控制流影响）。
CSVFetchInsts	离散	项	每个工作项执行的从视频内存读取的向量读取指令的平均数（受控制流影响）。
CSSFetchInsts	离散	项	每个工作项执行的从视频内存读取的标量读取指令的平均数（受控制流影响）。
CSVWriteInsts	离散	项	每个工作项执行的写入视频内存的向量写入指令的平均数（受控制流影响）。
CSGDSInsts	离散	项	每个工作项执行的 GDS 读取或 GDS 写入指令的平均数（受控制流影响）。
CSLDSInsts	离散	项	每个工作项执行的 LDS 读取/写入指令的平均数（受控制流影响）。
CSALUStalledByLDS	离散	百分比	ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 百分比。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。值范围：0%（最佳）到 100%（差）。
CSALUStalledByLDSCycles	离散	周期	每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期平均数。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。
CSLDSBankConflict	离散, 流式	百分比	LDS 因银行冲突而停顿的 GPUTime 百分比。值范围：0%（最佳）到 100%（差）。
CSLDSBankConflictCycles	离散, 流式	周期	LDS 因银行冲突而停顿的 GPU 周期数。值范围：0（最佳）到 GPUBusyCycles（差）。
CSALUStalledByLDSPerWave	流式	百分比	每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。值范围：0%（最佳）到 100%（差）。

TextureUnit 组

计数器名称	采样类型	用法	简要说明
TexTriFilteringPct	离散, 流式	百分比	应用了三线性过滤的像素百分比。注意，并非所有启用三线性过滤的像素都会应用它（例如，如果纹理被放大）。
TexTriFilteringCount	离散, 流式	项	应用了三线性过滤的像素数。注意，并非所有启用三线性过滤的像素都会应用它（例如，如果纹理被放大）。
NoTexTriFilteringCount	离散, 流式	项	未应用三线性过滤的像素数。
TexVolFilteringPct	离散, 流式	百分比	应用了体积过滤的像素百分比。
TexVolFilteringCount	离散, 流式	项	应用了体积过滤的像素数。
NoTexVolFilteringCount	离散, 流式	项	未应用体积过滤的像素数。
TexAveAnisotropy	离散	项	应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样（例如，如果视图向量垂直于表面，则不会有额外的各向异性采样），因此它可以远低于请求的各向异性。

DepthAndStencil 组

计数器名称	采样类型	用法	简要说明
HiZTilesAccepted	离散, 流式	百分比	被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。
HiZTilesAcceptedCount	离散, 流式	项	被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。
HiZTilesRejectedCount	离散, 流式	项	未被 HiZ 接受的图块计数。
PreZTilesDetailCulled	离散, 流式	百分比	因相关图元没有贡献面积而被拒绝的图块百分比。
PreZTilesDetailCulledCount	离散, 流式	项	因相关图元没有贡献面积而被拒绝的图块计数。
PreZTilesDetailSurvivingCount	离散, 流式	项	因相关图元有贡献面积而保留的图块计数。
HiZQuadsCulled	离散	百分比	HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区，或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsCulledCount	离散	项	HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区，或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsAcceptedCount	离散, 流式	项	HiZ 之后继续在管线中处理的四边形数。
PreZQuadsCulled	离散	百分比	基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。
PreZQuadsCulledCount	离散	项	基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。
PreZQuadsSurvivingCount	离散	项	通过 detailZ 和 earlyZ 测试的四边形数。
PostZQuads	离散	百分比	像素着色器将运行并可能进行 postZ 测试的四边形百分比。
PostZQuadCount	离散, 流式	项	像素着色器将运行并可能进行 postZ 测试的四边形数。
PreZSamplesPassing	离散, 流式	项	在着色前进行 Z 测试并通过的采样数。
PreZSamplesFailingS	离散, 流式	项	在着色前进行 Z 测试但模板测试失败的采样数。
PreZSamplesFailingZ	离散, 流式	项	在着色前进行 Z 测试但 Z 测试失败的采样数。
PostZSamplesPassing	离散, 流式	项	在着色后进行 Z 测试并通过的采样数。
PostZSamplesFailingS	离散, 流式	项	在着色后进行 Z 测试但模板测试失败的采样数。
PostZSamplesFailingZ	离散, 流式	项	在着色后进行 Z 测试但 Z 测试失败的采样数。
ZUnitStalled	离散, 流式	百分比	深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。
ZUnitStalledCycles	离散, 流式	周期	深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。
DBMemRead	离散, 流式	字节	从深度缓冲区读取的字节数。
DBMemWritten	离散, 流式	字节	写入深度缓冲区的字节数。

ColorBuffer 组

计数器名称	采样类型	用法	简要说明
CBMemRead	离散, 流式	字节	从颜色缓冲区读取的字节数。
CBColorAndMaskRead	离散, 流式	字节	从颜色和蒙版缓冲区读取的总字节数。
CBMemWritten	离散, 流式	字节	写入颜色缓冲区的字节数。
CBColorAndMaskWritten	离散, 流式	字节	写入颜色和蒙版缓冲区的总字节数。
CBSlowPixelPct	离散, 流式	百分比	使用半速率或四分之一速率格式写入颜色缓冲区的像素百分比。
CBSlowPixelCount	离散, 流式	项	使用半速率或四分之一速率格式写入颜色缓冲区的像素数。

MemoryCache 组

计数器名称	采样类型	用法	简要说明
L0CacheHit	离散, 流式	百分比	数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L0CacheRequestCount	离散, 流式	项	发往 L0 缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheHitCount	离散, 流式	项	从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheMissCount	离散, 流式	项	从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
ScalarCacheHit	离散, 流式	百分比	执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围：0%（未命中）到 100%（最佳）。
ScalarCacheRequestCount	离散, 流式	项	执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheHitCount	离散, 流式	项	执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheMissCount	离散, 流式	项	执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
InstCacheHit	离散, 流式	百分比	命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围：0%（未命中）到 100%（最佳）。
InstCacheRequestCount	离散, 流式	项	发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheHitCount	离散, 流式	项	命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheMissCount	离散, 流式	项	未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
L1CacheHit	离散, 流式	百分比	在 L1 缓存中命中数据（读取或写入）的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L1CacheRequestCount	离散	项	向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheHitCount	离散, 流式	项	从 L1 缓存命中（缓存命中）的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheMissCount	离散, 流式	项	从 L1 缓存未命中（缓存未命中）的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L2CacheHit	离散, 流式	百分比	数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L2CacheMiss	离散, 流式	百分比	数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围：0%（最佳）到 100%（全部未命中）。
L2CacheRequestCount	离散, 流式	项	发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheHitCount	离散, 流式	项	从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheMissCount	离散, 流式	项	从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L0TagConflictReadStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存读取操作停顿的周期数。
L0TagConflictWriteStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存写入操作停顿的周期数。
L0TagConflictAtomicStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存原子操作停顿的周期数。

GlobalMemory 组

计数器名称	采样类型	用法	简要说明
FetchSize	离散, 流式	字节	从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
WriteSize	离散, 流式	字节	写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
MemUnitBusy	离散, 流式	百分比	内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围：0% 到 100%（提取受限）。
MemUnitBusyCycles	离散, 流式	周期	内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。
MemUnitStalled	离散, 流式	百分比	内存单元停顿的 GPUTime 百分比。如果可能，尝试减少提取和写入的数量或大小。值范围：0%（最佳）到 100%（差）。
MemUnitStalledCycles	离散, 流式	周期	内存单元停顿的 GPU 周期数。
WriteUnitStalled	离散, 流式	百分比	写入单元停顿的 GPUTime 百分比。值范围：0% 到 100%（差）。
WriteUnitStalledCycles	离散, 流式	周期	写入单元停顿的 GPU 周期数。
LocalVidMemBytes	离散	字节	从 Infinity Cache（如果可用）或本地显存读取或写入的字节数。
PcieBytes	离散	字节	通过 PCIe 总线发送和接收的字节数。

RayTracing 组

计数器名称	采样类型	用法	简要说明
RayTriTests	离散, 流式	项	射线三角形交叉测试次数。
RayBoxTests	离散, 流式	项	射线包围盒交叉测试次数。
TotalRayTests	离散, 流式	项	射线交叉测试总次数，包括包围盒和三角形交叉。
RayTestsPerWave	离散, 流式	项	每个波形前沿的射线交叉测试次数。

WaveDistribution 组

计数器名称	采样类型	用法	简要说明
WaveOccupancyPct	流式	百分比	当前使用的最大波形前沿占用率百分比。

WaveOccupancyLimiters 组

计数器名称	采样类型	用法	简要说明
LSHSLimitedByVgpr	流式	百分比	LS 和 HS 波调度请求因 VGPR 可用性不足而受限的百分比。
LSHSLimitedByLds	流式	百分比	LS 和 HS 波调度请求因 LDS 可用性不足而受限的百分比。
LSHSLimitedByScratch	流式	百分比	LS 和 HS 波调度请求因暂存空间可用性不足而受限的百分比。
HSLimitedByBarriers	流式	百分比	受屏障限制的 HS 波形调度请求百分比。
ESGSLimitedByVgpr	流式	百分比	ES 和 GS 波调度请求因 VGPR 可用性不足而受限的百分比。
ESGSLimitedByLds	流式	百分比	ES 和 GS 波调度请求因 LDS 可用性不足而受限的百分比。
ESGSLimitedByScratch	流式	百分比	ES 和 GS 波调度请求因暂存空间可用性不足而受限的百分比。
VSLimitedByVgpr	流式	百分比	VS 波调度请求因 VGPR 可用性不足而受限的百分比。
VSLimitedByScratch	流式	百分比	VS 波调度请求因暂存空间可用性不足而受限的百分比。
VSLimitedByExport	流式	百分比	VS 波因导出空间可用性不足而停止的周期百分比。
PSLimitedByLds	流式	百分比	PS 波调度请求因 LDS 可用性不足而受限的百分比。
PSLimitedByVgpr	流式	百分比	PS 波调度请求因 VGPR 可用性不足而受限的百分比。
PSLimitedByScratch	流式	百分比	PS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByLds	流式	百分比	CS 波调度请求因 LDS 可用性不足而受限的百分比。
CSLimitedByVgpr	流式	百分比	CS 波调度请求因 VGPR 可用性不足而受限的百分比。
CSLimitedByScratch	流式	百分比	CS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByBarriers	流式	百分比	CS 波调度请求因屏障而受限的百分比。
CSLimitedByThreadGroupLimit	流式	百分比	CS 波调度请求因线程组限制而受限的百分比。

RDNA 计数器

Timing 组

计数器名称	采样类型	用法	简要说明
GPUTime	离散	纳秒	此 API 命令在 GPU 上执行所花费的时间（以纳秒为单位），从前一个命令到达管线底部 (BOP) 的时间到此命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionDuration	离散	纳秒	GPU 命令执行持续时间（以纳秒为单位），从命令进入管线顶部 (TOP) 的时间到命令到达管线底部 (BOP) 的时间。不包括绘图调用并行处理的时间。
ExecutionStart	离散	纳秒	GPU 命令执行开始时间（以纳秒为单位）。这是命令进入管线顶部 (TOP) 的时间。
ExecutionEnd	离散	纳秒	GPU 命令执行结束时间（以纳秒为单位）。这是命令到达管线底部 (BOP) 的时间。
GPUBusy	离散, 流式	百分比	GPU 命令处理器忙碌的时间百分比。
GPUBusyCycles	离散, 流式	周期	GPU 命令处理器忙碌的 GPU 周期数。
TessellatorBusy	离散, 流式	百分比	镶嵌引擎忙碌的时间百分比。
TessellatorBusyCycles	离散, 流式	周期	镶嵌引擎忙碌的 GPU 周期数。
VsGsBusy	离散, 流式	百分比	在 VS-[GS-]PS 管线中，ShaderUnit 拥有 VS 或 GS 工作的时间百分比。
VsGsBusyCycles	离散, 流式	周期	在 VS-[GS-]PS 管线中，ShaderUnit 拥有 VS 或 GS 工作的时间 GPU 周期数。
VsGsTime	离散	纳秒	在 VS-[GS-]PS 管线中，VS 或 GS 忙碌的时间（以纳秒为单位）。
PreTessellationBusy	离散, 流式	百分比	在使用镶嵌的管线中，ShaderUnit 拥有 VS 和 HS 工作的时间百分比。
PreTessellationBusyCycles	离散, 流式	周期	在使用镶嵌的管线中，ShaderUnit 拥有 VS 和 HS 工作的时间 GPU 周期数。
PreTessellationTime	离散	纳秒	在使用镶嵌的管线中，VS 和 HS 忙碌的时间（以纳秒为单位）。
PostTessellationBusy	离散, 流式	百分比	在使用镶嵌的管线中，ShaderUnit 拥有 DS 或 GS 工作的时间百分比。
PostTessellationBusyCycles	离散, 流式	周期	在使用镶嵌的管线中，ShaderUnit 拥有 DS 或 GS 工作的时间 GPU 周期数。
PostTessellationTime	离散	纳秒	在使用镶嵌的管线中，DS 或 GS 忙碌的时间（以纳秒为单位）。
PSBusy	离散, 流式	百分比	ShaderUnit 拥有像素着色器工作的时间百分比。
PSBusyCycles	离散, 流式	周期	ShaderUnit 拥有像素着色器工作的时间 GPU 周期数。
PSTime	离散	纳秒	像素着色器忙碌的时间（以纳秒为单位）。
CSBusy	离散, 流式	百分比	ShaderUnit 拥有计算着色器工作的时间百分比。
CSBusyCycles	离散, 流式	周期	ShaderUnit 拥有计算着色器工作的时间 GPU 周期数。
CSTime	离散	纳秒	计算着色器忙碌的时间（以纳秒为单位）。
PrimitiveAssemblyBusy	离散	百分比	原始图元装配（裁剪和剔除）忙碌的 GPUTime 百分比。高值可能是由于有许多小原始图元引起；中到低值可能表明像素着色器或输出缓冲区瓶颈。
PrimitiveAssemblyBusyCycles	离散	周期	原始图元装配（裁剪和剔除）忙碌的 GPU 周期数。高值可能是由于有许多小原始图元引起；中到低值可能表明像素着色器或输出缓冲区瓶颈。
TexUnitBusy	离散, 流式	百分比	纹理单元激活的 GPUTime 百分比。此测量已计入所有额外的提取以及任何缓存或内存效果。
TexUnitBusyCycles	离散, 流式	周期	纹理单元激活的 GPU 周期数。此测量已计入所有额外的提取以及任何缓存或内存效果。
DepthStencilTestBusy	离散, 流式	百分比	GPU 花费在深度和模板测试上的时间占 GPUBusy 的百分比。
DepthStencilTestBusyCycles	离散, 流式	周期	花费在深度和模板测试上的 GPU 周期数。

VertexGeometry 组

计数器名称	采样类型	用法	简要说明
GSVerticesOut	离散, 流式	项	GS 输出的顶点数。

PreTessellation 组

计数器名称	采样类型	用法	简要说明
PreTessVerticesIn	离散, 流式	项	在使用镶嵌时，由 VS 和 HS 处理的顶点数。
PreTessVALUInstCount	离散, 流式	项	在使用了镶嵌的管道中，VS 和 HS 执行的向量 ALU 指令的平均数（受控制流影响）。
PreTessSALUInstCount	离散, 流式	项	在使用了镶嵌的管道中，VS 和 HS 执行的标量 ALU 指令的平均数（受控制流影响）。
PreTessVALUBusy	离散, 流式	百分比	在使用了镶嵌的管道中，VS 和 HS 处理向量 ALU 指令的 GPUTime 百分比。
PreTessVALUBusyCycles	离散, 流式	周期	在使用了镶嵌的管道中，VS 和 HS 处理向量 ALU 指令的 GPU 时钟周期数。
PreTessSALUBusy	离散, 流式	百分比	在使用了镶嵌的管道中，VS 和 HS 处理标量 ALU 指令的 GPUTime 百分比。
PreTessSALUBusyCycles	离散, 流式	周期	在使用了镶嵌的管道中，VS 和 HS 处理标量 ALU 指令的 GPU 时钟周期数。

PostTessellation 组

计数器名称	采样类型	用法	简要说明
PostTessPrimsOut	离散, 流式	项	在使用镶嵌时，DS 和 GS 输出的原始图元数。
PostTessVALUInstCount	离散, 流式	项	在使用了镶嵌的管道中，DS 和 GS 执行的向量 ALU 指令的平均数（受控制流影响）。
PostTessSALUInstCount	离散	项	在使用了镶嵌的管道中，DS 和 GS 执行的标量 ALU 指令的平均数（受控制流影响）。
PostTessVALUBusy	离散, 流式	百分比	在使用了镶嵌的管道中，DS 和 GS 处理向量 ALU 指令的 GPUTime 百分比。
PostTessVALUBusyCycles	离散, 流式	周期	在使用了镶嵌的管道中，DS 和 GS 处理向量 ALU 指令的 GPU 时钟周期数。
PostTessSALUBusy	离散, 流式	百分比	在使用了镶嵌的管道中，DS 和 GS 处理标量 ALU 指令的 GPUTime 百分比。
PostTessSALUBusyCycles	离散, 流式	周期	在使用了镶嵌的管道中，DS 和 GS 处理标量 ALU 指令的 GPU 时钟周期数。

PrimitiveAssembly 组

计数器名称	采样类型	用法	简要说明
PrimitivesIn	离散, 流式	项	硬件接收到的原始图元数。包括镶嵌生成的原始图元。
CulledPrims	离散	项	被剔除的原始图元数。典型原因包括视口裁剪、原始图元面积为零以及背部或正面剔除。
ClippedPrims	离散, 流式	项	由于与视图体积或用户剪裁平面相交而需要一个或多个剪裁操作的原始图元数。
PAStalledOnRasterizer	离散, 流式	百分比	原始图元装配等待光栅化准备好接受数据的时间占 GPUTime 的百分比。这大致表明管线在多大比例的时间受到像素操作的瓶颈。
PAStalledOnRasterizerCycles	离散, 流式	周期	原始图元装配等待光栅化准备好接受数据的时间 GPU 周期数。表示管线因像素操作而受到瓶颈的 GPU 周期数。

PixelShader 组

计数器名称	采样类型	用法	简要说明
PSPixelsOut	离散, 流式	项	从着色器导出到颜色缓冲区的像素数。不包括被丢弃或 alpha 测试过的像素；如果有多个渲染目标，每个渲染目标会收到一次导出，因此写入两个 RT 的 1 个像素会是 2。
PSExportStalls	离散, 流式	百分比	像素着色器输出停顿。占 GPUBusy 的百分比。对于 PS 或进一步上游受限的情况应为零；如果不为零，则表示后期 Z 测试或颜色缓冲区的瓶颈。
PSExportStallsCycles	离散, 流式	周期	像素着色器输出停顿的 GPU 周期数。对于 PS 或进一步上游受限的情况应为零；如果不为零，则表示后期 Z 测试或颜色缓冲区的瓶颈。

ComputeShader 组

计数器名称	采样类型	用法	简要说明
CSThreadGroupsLaunched	离散, 流式	项	启动的线程组总数。
CSWavefrontsLaunched	离散, 流式	项	为 CS 启动的波形前沿总数。
CSThreadsLaunched	离散, 流式	项	由硬件启动和处理的 CS 线程数。
CSThreadGroupSize	离散	项	每个线程组中的 CS 线程数。
CSVALUInsts	离散	项	每个工作项执行的向量 ALU 指令的平均数（受控制流影响）。
CSVALUUtilization	离散	百分比	波阵列中活动的向量 ALU 线程的百分比。较低的数字可能表示波阵列中的线程发散增加，或者工作组大小不是波阵列大小的倍数。值范围：0%（差）到 100%（理想 - 无线程发散）。
CSSALUInsts	离散	项	每个工作项执行的标量 ALU 指令的平均数（受控制流影响）。
CSVFetchInsts	离散	项	每个工作项执行的从视频内存读取的向量读取指令的平均数（受控制流影响）。
CSSFetchInsts	离散	项	每个工作项执行的从视频内存读取的标量读取指令的平均数（受控制流影响）。
CSVWriteInsts	离散	项	每个工作项执行的写入视频内存的向量写入指令的平均数（受控制流影响）。
CSVALUBusy	离散, 流式	百分比	处理向量 ALU 指令的 GPUTime 百分比。值范围：0%（差）到 100%（最佳）。
CSVALUBusyCycles	离散, 流式	周期	处理向量 ALU 指令的 GPU 时钟周期数。
CSSALUBusy	离散, 流式	百分比	处理标量 ALU 指令的 GPUTime 百分比。值范围：0%（差）到 100%（最佳）。
CSSALUBusyCycles	离散, 流式	周期	处理标量 ALU 指令的 GPU 时钟周期数。
CSGDSInsts	离散	项	每个工作项执行的 GDS 读取或 GDS 写入指令的平均数（受控制流影响）。
CSLDSInsts	离散	项	每个工作项执行的 LDS 读取/写入指令的平均数（受控制流影响）。
CSALUStalledByLDS	离散	百分比	ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 百分比。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。值范围：0%（最佳）到 100%（差）。
CSALUStalledByLDSCycles	离散	周期	每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPU 时钟周期数。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。
CSLDSBankConflict	离散, 流式	百分比	LDS 因银行冲突而停顿的 GPUTime 百分比。值范围：0%（最佳）到 100%（差）。
CSLDSBankConflictCycles	离散, 流式	周期	LDS 因银行冲突而停顿的 GPU 周期数。值范围：0（最佳）到 GPUBusyCycles（差）。
CSALUStalledByLDSPerWave	流式	百分比	每个波阵列的 ALU 单元因 LDS 输入队列已满或输出队列未就绪而停止的 GPUTime 平均百分比。如果存在 LDS 银行冲突，请减少它们。否则，请尝试在可能的情况下减少 LDS 访问次数。值范围：0%（最佳）到 100%（差）。

TextureUnit 组

计数器名称	采样类型	用法	简要说明
TexTriFilteringPct	离散, 流式	百分比	应用了三线性过滤的像素百分比。注意，并非所有启用三线性过滤的像素都会应用它（例如，如果纹理被放大）。
TexTriFilteringCount	离散, 流式	项	应用了三线性过滤的像素数。注意，并非所有启用三线性过滤的像素都会应用它（例如，如果纹理被放大）。
NoTexTriFilteringCount	离散, 流式	项	未应用三线性过滤的像素数。
TexVolFilteringPct	离散, 流式	百分比	应用了体积过滤的像素百分比。
TexVolFilteringCount	离散, 流式	项	应用了体积过滤的像素数。
NoTexVolFilteringCount	离散, 流式	项	未应用体积过滤的像素数。
TexAveAnisotropy	离散	项	应用的平均各向异性程度。一个介于 1 到 16 之间的数字。各向异性过滤算法仅在需要时应用采样（例如，如果视图向量垂直于表面，则不会有额外的各向异性采样），因此它可以远低于请求的各向异性。

DepthAndStencil 组

计数器名称	采样类型	用法	简要说明
HiZTilesAccepted	离散, 流式	百分比	被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块百分比。
HiZTilesAcceptedCount	离散, 流式	项	被 HiZ 接受并将被渲染到深度或颜色缓冲区的图块计数。
HiZTilesRejectedCount	离散, 流式	项	未被 HiZ 接受的图块计数。
PreZTilesDetailCulled	离散, 流式	百分比	因相关图元没有贡献面积而被拒绝的图块百分比。
PreZTilesDetailCulledCount	离散, 流式	项	因相关图元没有贡献面积而被拒绝的图块计数。
PreZTilesDetailSurvivingCount	离散, 流式	项	因相关图元有贡献面积而保留的图块计数。
HiZQuadsCulled	离散	百分比	HiZ 之后不需要在管线中继续处理的四边形百分比。它们可以直接写入深度缓冲区，或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsCulledCount	离散	项	HiZ 之后不需要在管线中继续处理的四边形数。它们可以直接写入深度缓冲区，或完全被剔除。这里持续偏低的值可能表明 Z 范围未被充分利用。
HiZQuadsAcceptedCount	离散, 流式	项	HiZ 之后继续在管线中处理的四边形数。
PreZQuadsCulled	离散	百分比	基于 detailZ 和 earlyZ 测试而被拒绝的四边形百分比。
PreZQuadsCulledCount	离散	项	基于 detailZ 和 earlyZ 测试而被拒绝的四边形数。
PreZQuadsSurvivingCount	离散	项	通过 detailZ 和 earlyZ 测试的四边形数。
PostZQuads	离散	百分比	像素着色器将运行并可能进行 postZ 测试的四边形百分比。
PostZQuadCount	离散, 流式	项	像素着色器将运行并可能进行 postZ 测试的四边形数。
PreZSamplesPassing	离散, 流式	项	在着色前进行 Z 测试并通过的采样数。
PreZSamplesFailingS	离散, 流式	项	在着色前进行 Z 测试但模板测试失败的采样数。
PreZSamplesFailingZ	离散, 流式	项	在着色前进行 Z 测试但 Z 测试失败的采样数。
PostZSamplesPassing	离散, 流式	项	在着色后进行 Z 测试并通过的采样数。
PostZSamplesFailingS	离散, 流式	项	在着色后进行 Z 测试但模板测试失败的采样数。
PostZSamplesFailingZ	离散, 流式	项	在着色后进行 Z 测试但 Z 测试失败的采样数。
ZUnitStalled	离散, 流式	百分比	深度缓冲区等待颜色缓冲区准备好接受数据的时间占 GPUTime 的百分比。此处的高值表明颜色缓冲区操作存在瓶颈。
ZUnitStalledCycles	离散, 流式	周期	深度缓冲区等待颜色缓冲区准备好接受数据的时间 GPU 周期数。更大的数字表明颜色缓冲区操作存在瓶颈。
DBMemRead	离散, 流式	字节	从深度缓冲区读取的字节数。
DBMemWritten	离散, 流式	字节	写入深度缓冲区的字节数。

ColorBuffer 组

计数器名称	采样类型	用法	简要说明
CBMemRead	离散, 流式	字节	从颜色缓冲区读取的字节数。
CBColorAndMaskRead	离散, 流式	字节	从颜色和蒙版缓冲区读取的总字节数。
CBMemWritten	离散, 流式	字节	写入颜色缓冲区的字节数。
CBColorAndMaskWritten	离散, 流式	字节	写入颜色和蒙版缓冲区的总字节数。
CBSlowPixelPct	离散, 流式	百分比	使用半速率或四分之一速率格式写入颜色缓冲区的像素百分比。
CBSlowPixelCount	离散, 流式	项	使用半速率或四分之一速率格式写入颜色缓冲区的像素数。

MemoryCache 组

计数器名称	采样类型	用法	简要说明
L0CacheHit	离散, 流式	百分比	数据在 L0 缓存中命中的读取请求百分比。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L0CacheRequestCount	离散, 流式	项	发往 L0 缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheHitCount	离散, 流式	项	从 L0 缓存中命中缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
L0CacheMissCount	离散, 流式	项	从 L0 缓存中未命中缓存的读取请求数。L0 缓存包含向量数据，这些数据可能在波形前沿的每个线程中都不同。每个请求的大小为 128 字节。
ScalarCacheHit	离散, 流式	百分比	执行着色器代码的读取请求命中 Scalar 缓存数据中的百分比。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。值范围：0%（未命中）到 100%（最佳）。
ScalarCacheRequestCount	离散, 流式	项	执行着色器代码发往 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheHitCount	离散, 流式	项	执行着色器代码中命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
ScalarCacheMissCount	离散, 流式	项	执行着色器代码中未命中 Scalar 缓存的读取请求数。Scalar 缓存包含在波形前沿的线程中不变化的数据。每个请求的大小为 64 字节。
InstCacheHit	离散, 流式	百分比	命中指令缓存数据的读取请求百分比。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。值范围：0%（未命中）到 100%（最佳）。
InstCacheRequestCount	离散, 流式	项	发往指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheHitCount	离散, 流式	项	命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
InstCacheMissCount	离散, 流式	项	未命中指令缓存的读取请求数。指令缓存向正在执行的着色器提供着色器代码。每个请求的大小为 64 字节。
L1CacheHit	离散, 流式	百分比	在 L1 缓存中命中数据（读取或写入）的请求的百分比。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L1CacheRequestCount	离散, 流式	项	向 L1 缓存发出的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheHitCount	离散, 流式	项	从 L1 缓存命中（缓存命中）的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L1CacheMissCount	离散, 流式	项	从 L1 缓存未命中（缓存未命中）的读取或写入请求的数量。L1 缓存由单个着色器引擎中的所有 WGP 共享。每个请求的大小为 128 字节。
L2CacheHit	离散, 流式	百分比	数据在 L2 缓存中命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围：0%（未命中）到 100%（最佳）。
L2CacheMiss	离散, 流式	百分比	数据在 L2 缓存中未命中的读取或写入请求百分比。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。值范围：0%（最佳）到 100%（全部未命中）。
L2CacheRequestCount	离散, 流式	项	发往 L2 缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheHitCount	离散, 流式	项	从 L2 缓存中命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L2CacheMissCount	离散, 流式	项	从 L2 缓存中未命中缓存的读取或写入请求数。L2 缓存由 GPU 上的许多块共享，包括命令处理器、几何引擎、所有 WGP、所有渲染后端等。每个请求的大小为 128 字节。
L0TagConflictReadStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存读取操作停顿的周期数。
L0TagConflictWriteStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存写入操作停顿的周期数。
L0TagConflictAtomicStalledCycles	离散, 流式	项	由于标记冲突而导致 L0 缓存原子操作停顿的周期数。

GlobalMemory 组

计数器名称	采样类型	用法	简要说明
FetchSize	离散, 流式	字节	从显存中读取的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
WriteSize	离散, 流式	字节	写入显存的总字节数。此测量已计入所有额外的提取以及任何缓存或内存效果。
MemUnitBusy	离散, 流式	百分比	内存单元激活的 GPUTime 百分比。结果包括停顿时间 (MemUnitStalled)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。值范围：0% 到 100%（提取受限）。
MemUnitBusyCycles	离散, 流式	周期	内存单元激活的 GPU 周期数。结果包括停顿时间 (MemUnitStalledCycles)。此测量已计入所有额外的提取和写入以及任何缓存或内存效果。
MemUnitStalled	离散, 流式	百分比	内存单元停顿的 GPUTime 百分比。如果可能，尝试减少提取和写入的数量或大小。值范围：0%（最佳）到 100%（差）。
MemUnitStalledCycles	离散, 流式	周期	内存单元停顿的 GPU 周期数。
WriteUnitStalled	离散, 流式	百分比	写入单元停顿的 GPUTime 百分比。值范围：0% 到 100%（差）。
WriteUnitStalledCycles	离散, 流式	周期	写入单元停顿的 GPU 周期数。
LocalVidMemBytes	离散	字节	从本地视频内存读取或写入的字节数
PcieBytes	离散	字节	通过 PCIe 总线发送和接收的字节数。

WaveDistribution 组

计数器名称	采样类型	用法	简要说明
WaveOccupancyPct	流式	百分比	当前使用的最大波形前沿占用率百分比。

WaveOccupancyLimiters 组

计数器名称	采样类型	用法	简要说明
LSHSLimitedByVgpr	流式	百分比	LS 和 HS 波调度请求因 VGPR 可用性不足而受限的百分比。
LSHSLimitedByLds	流式	百分比	LS 和 HS 波调度请求因 LDS 可用性不足而受限的百分比。
LSHSLimitedByScratch	流式	百分比	LS 和 HS 波调度请求因暂存空间可用性不足而受限的百分比。
HSLimitedByBarriers	流式	百分比	受屏障限制的 HS 波形调度请求百分比。
ESGSLimitedByVgpr	离散, 流式	百分比	ES 和 GS 波调度请求因 VGPR 可用性不足而受限的百分比。
ESGSLimitedByLds	流式	百分比	ES 和 GS 波调度请求因 LDS 可用性不足而受限的百分比。
ESGSLimitedByScratch	流式	百分比	ES 和 GS 波调度请求因暂存空间可用性不足而受限的百分比。
VSLimitedByVgpr	流式	百分比	VS 波调度请求因 VGPR 可用性不足而受限的百分比。
VSLimitedByScratch	流式	百分比	VS 波调度请求因暂存空间可用性不足而受限的百分比。
VSLimitedByExport	流式	百分比	VS 波因导出空间可用性不足而停止的周期百分比。
PSLimitedByLds	流式	百分比	PS 波调度请求因 LDS 可用性不足而受限的百分比。
PSLimitedByVgpr	流式	百分比	PS 波调度请求因 VGPR 可用性不足而受限的百分比。
PSLimitedByScratch	流式	百分比	PS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByLds	流式	百分比	CS 波调度请求因 LDS 可用性不足而受限的百分比。
CSLimitedByVgpr	流式	百分比	CS 波调度请求因 VGPR 可用性不足而受限的百分比。
CSLimitedByScratch	流式	百分比	CS 波调度请求因暂存空间可用性不足而受限的百分比。
CSLimitedByBarriers	流式	百分比	CS 波调度请求因屏障而受限的百分比。
CSLimitedByThreadGroupLimit	流式	百分比	CS 波调度请求因线程组限制而受限的百分比。