FSB3PPOSettings

struct FSB3PPOSettings : public FTrainingSettings

用于 SB3 训练脚本的 PPO 设置结构。

注意：这是 PPO 设置的局部实现，并非详尽无遗。

依赖项： FScriptArgBuilder, FTrainingSettings

继承自： public FTrainingSettings

公共接口

析构函数

~FSB3PPOSettings

virtual ~FSB3PPOSettings()

属性: virtual

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 74 行，第 9 列)

实现： Schola/Source/Schola/Private/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.cpp (第 27-29 行)

公共函数

GenerateTrainingArgs

virtual void GenerateTrainingArgs(int Port, FScriptArgBuilder &ArgBuilder) const const

使用 ArgBuilder 为脚本生成训练参数。

注意：端口作为脚本的常见参数传入，并在高层设置，但特定子设置可能需要它。

参数

Port (int) – [输入] 用于脚本的端口
ArgBuilder (FScriptArgBuilder &) – [输入] 用于生成参数的构建器

属性： const, virtual

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 72 行，第 6 列)

实现： Schola/Source/Schola/Private/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.cpp (第 6-25 行)

公共成员

float LearningRate

float LearningRate = = 0.0003

PPO 算法的学习率。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 22 行，第 7 列)

int NSteps

int NSteps = = 2048

进行训练步骤之间的步数。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 26 行，第 5 列)

int BatchSize

int BatchSize = = 64

梯度下降期间使用的批量大小。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 30 行，第 5 列)

int NEpochs

int NEpochs = = 10

每次训练步骤要训练的 epoch 数。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 34 行，第 5 列)

float Gamma

float Gamma = = 0.99

PPO 算法的 gamma 值。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 38 行，第 7 列)

float GAELambda

float GAELambda = = 0.95

PPO 算法的广义优势估计 Lambda 值。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 42 行，第 7 列)

float ClipRange

float ClipRange = = 0.2

PPO 算法的裁剪范围。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 46 行，第 7 列)

bool NormalizeAdvantage

bool NormalizeAdvantage = = true

是否应标准化优势值。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 50 行，第 6 列)

float EntCoef

float EntCoef = = 0.0

PPO 算法的熵系数。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 54 行，第 7 列)

float VFCoef

float VFCoef = = 0.05

PPO 算法的值函数系数。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 58 行，第 7 列)

float MaxGradNorm

float MaxGradNorm = = 0.5

PPO 算法的最大梯度范数。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 62 行，第 7 列)

bool UseSDE

bool UseSDE = = false

是否应使用状态依赖的熵噪声。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 66 行，第 6 列)

int SDESampleFreq

int SDESampleFreq = = -1

对状态依赖的熵噪声进行采样的频率。

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 70 行，第 5 列)

由...使用： FSB3TrainingSettings

来源： Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 15 行，第 1 列)