FSB3SACSettings
struct FSB3SACSettings : public FTrainingSettings一个结构体,用于保存 SB3 训练脚本的 SAC 设置。
注意:这是 SAC 设置的局部实现,并非详尽无遗。
依赖项: FScriptArgBuilder, FTrainingSettings
继承自: public FTrainingSettings
公共接口
析构函数
~FSB3SACSettings
virtual ~FSB3SACSettings()属性: virtual
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 82 行,第 9 列)
实现: Schola/Source/Schola/Private/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.cpp (第 31 行)
公共函数
GenerateTrainingArgs
virtual void GenerateTrainingArgs(int Port, FScriptArgBuilder &ArgBuilder) const const使用 ArgBuilder 为脚本生成训练参数。
注意:端口作为脚本的常见参数传入,并在高层设置,但特定子设置可能需要它。
参数
Port(int) – [输入] 用于脚本的端口ArgBuilder(FScriptArgBuilder &) – [输入] 用于生成参数的构建器
属性: const, virtual
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 80 行,第 6 列)
实现: Schola/Source/Schola/Private/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.cpp (第 6-30 行)
公共成员
float LearningRate
float LearningRate = = 0.0003SAC 算法的学习率。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 22 行,第 7 列)
int BufferSize
int BufferSize = = 1000000SAC 算法的缓冲区大小。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 26 行,第 5 列)
int LearningStarts
int LearningStarts = = 100学习开始前的步数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 30 行,第 5 列)
int BatchSize
int BatchSize = = 256梯度下降期间使用的批量大小。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 34 行,第 5 列)
float Tau
float Tau = = 0.005SAC 算法的 Tau 值。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 38 行,第 7 列)
float Gamma
float Gamma = = 0.99SAC 算法的 Gamma 值。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 42 行,第 7 列)
int TrainFreq
int TrainFreq = = 1目标网络更新的频率(以步数为单位)。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 46 行,第 5 列)
int GradientSteps
int GradientSteps = = 1训练期间执行的梯度步数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 50 行,第 5 列)
bool OptimizeMemoryUsage
bool OptimizeMemoryUsage = = false优化内存使用。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 54 行,第 6 列)
bool LearnEntCoef
bool LearnEntCoef = = true是否在训练期间学习熵系数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 58 行,第 6 列)
float InitialEntCoef
float InitialEntCoef = = 1.0SAC 算法的初始熵系数。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 62 行,第 7 列)
int TargetUpdateInterval
int TargetUpdateInterval = = 1更新目标网络的间隔。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 66 行,第 5 列)
FString TargetEntropy
FString TargetEntropy = = "auto"SAC 算法的目标熵。
使用 auto 来学习目标熵
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 70 行,第 9 列)
bool UseSDE
bool UseSDE = = false使用与状态相关的熵噪声。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 74 行,第 6 列)
int SDESampleFreq
int SDESampleFreq = = -1采样状态相关熵噪声的频率。
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 78 行,第 5 列)
由...使用: FSB3TrainingSettings
来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 15 行,第 1 列)