跳至内容

FSB3SACSettings

struct FSB3SACSettings : public FTrainingSettings

一个结构体,用于保存 SB3 训练脚本的 SAC 设置。

注意:这是 SAC 设置的局部实现,并非详尽无遗。

依赖项: FScriptArgBuilder, FTrainingSettings

继承自: public FTrainingSettings

公共接口

析构函数

~FSB3SACSettings

virtual ~FSB3SACSettings()

属性: virtual

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 82 行,第 9 列)

实现: Schola/Source/Schola/Private/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.cpp (第 31 行)

公共函数

GenerateTrainingArgs

virtual void GenerateTrainingArgs(int Port, FScriptArgBuilder &ArgBuilder) const const

使用 ArgBuilder 为脚本生成训练参数。

注意:端口作为脚本的常见参数传入,并在高层设置,但特定子设置可能需要它。

参数

  • Port (int) – [输入] 用于脚本的端口
  • ArgBuilder (FScriptArgBuilder &) – [输入] 用于生成参数的构建器

属性: const, virtual

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 80 行,第 6 列)

实现: Schola/Source/Schola/Private/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.cpp (第 6-30 行)

公共成员

float LearningRate

float LearningRate = = 0.0003

SAC 算法的学习率。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 22 行,第 7 列)

int BufferSize

int BufferSize = = 1000000

SAC 算法的缓冲区大小。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 26 行,第 5 列)

int LearningStarts

int LearningStarts = = 100

学习开始前的步数。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 30 行,第 5 列)

int BatchSize

int BatchSize = = 256

梯度下降期间使用的批量大小。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 34 行,第 5 列)

float Tau

float Tau = = 0.005

SAC 算法的 Tau 值。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 38 行,第 7 列)

float Gamma

float Gamma = = 0.99

SAC 算法的 Gamma 值。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 42 行,第 7 列)

int TrainFreq

int TrainFreq = = 1

目标网络更新的频率(以步数为单位)。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 46 行,第 5 列)

int GradientSteps

int GradientSteps = = 1

训练期间执行的梯度步数。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 50 行,第 5 列)

bool OptimizeMemoryUsage

bool OptimizeMemoryUsage = = false

优化内存使用。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 54 行,第 6 列)

bool LearnEntCoef

bool LearnEntCoef = = true

是否在训练期间学习熵系数。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 58 行,第 6 列)

float InitialEntCoef

float InitialEntCoef = = 1.0

SAC 算法的初始熵系数。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 62 行,第 7 列)

int TargetUpdateInterval

int TargetUpdateInterval = = 1

更新目标网络的间隔。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 66 行,第 5 列)

FString TargetEntropy

FString TargetEntropy = = "auto"

SAC 算法的目标熵。

使用 auto 来学习目标熵

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 70 行,第 9 列)

bool UseSDE

bool UseSDE = = false

使用与状态相关的熵噪声。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 74 行,第 6 列)

int SDESampleFreq

int SDESampleFreq = = -1

采样状态相关熵噪声的频率。

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 78 行,第 5 列)

由...使用: FSB3TrainingSettings

来源: Schola/Source/Schola/Public/Subsystem/SubsystemSettings/StableBaselines/Algorithms/SB3SACSettings.h (第 15 行,第 1 列)

© . This site is unofficial and not affiliated with AMD.