FSB3PPOSettings
struct FSB3PPOSettings : public FTrainingSettings用于 SB3 训练脚本的 PPO 设置结构。
注意:这是 PPO 设置的局部实现,并非详尽无遗。
依赖项: FScriptArgBuilder, FTrainingSettings
继承自: public FTrainingSettings
公共接口
析构函数
~FSB3PPOSettings
virtual ~FSB3PPOSettings()属性: virtual
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 74 行,第 9 列)
实现: Schola/Source/Schola/Private/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.cpp (第 27-29 行)
公共函数
GenerateTrainingArgs
virtual void GenerateTrainingArgs(int Port, FScriptArgBuilder &ArgBuilder) const const使用 ArgBuilder 为脚本生成训练参数。
注意:端口作为脚本的常见参数传入,并在高层设置,但特定子设置可能需要它。
参数
Port(int) – [输入] 用于脚本的端口ArgBuilder(FScriptArgBuilder &) – [输入] 用于生成参数的构建器
属性: const, virtual
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 72 行,第 6 列)
实现: Schola/Source/Schola/Private/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.cpp (第 6-25 行)
公共成员
float LearningRate
float LearningRate = = 0.0003PPO 算法的学习率。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 22 行,第 7 列)
int NSteps
int NSteps = = 2048进行训练步骤之间的步数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 26 行,第 5 列)
int BatchSize
int BatchSize = = 64梯度下降期间使用的批量大小。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 30 行,第 5 列)
int NEpochs
int NEpochs = = 10每次训练步骤要训练的 epoch 数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 34 行,第 5 列)
float Gamma
float Gamma = = 0.99PPO 算法的 gamma 值。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 38 行,第 7 列)
float GAELambda
float GAELambda = = 0.95PPO 算法的广义优势估计 Lambda 值。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 42 行,第 7 列)
float ClipRange
float ClipRange = = 0.2PPO 算法的裁剪范围。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 46 行,第 7 列)
bool NormalizeAdvantage
bool NormalizeAdvantage = = true是否应标准化优势值。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 50 行,第 6 列)
float EntCoef
float EntCoef = = 0.0PPO 算法的熵系数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 54 行,第 7 列)
float VFCoef
float VFCoef = = 0.05PPO 算法的值函数系数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 58 行,第 7 列)
float MaxGradNorm
float MaxGradNorm = = 0.5PPO 算法的最大梯度范数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 62 行,第 7 列)
bool UseSDE
bool UseSDE = = false是否应使用状态依赖的熵噪声。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 66 行,第 6 列)
int SDESampleFreq
int SDESampleFreq = = -1对状态依赖的熵噪声进行采样的频率。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 70 行,第 5 列)
由...使用: FSB3TrainingSettings
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3PPOSettings.h (第 15 行,第 1 列)