schola.scripts.ray.settings.PPOSettings
类定义
class schola.scripts.ray.settings.PPOSettings(gae_lambda=0.95, clip_param=0.2, use_gae=True)基类: RLLibAlgorithmSpecificSettings
PPO(近端策略优化)算法特定设置的数据类。此类定义了 PPO 算法中使用的参数,包括 GAE lambda、clip 参数以及是否使用 GAE。
参数
gae_lambda
类型: float
clip_param
类型: float
use_gae
类型: bool
属性
clip_param
类型: float
默认: 0.2
PPO 算法的 clip 参数。这是用于裁剪代理目标函数的 epsilon 值。它有助于限制策略更新步长,以防止可能导致性能崩溃的大幅度更改。
gae_lambda
类型: float
默认: 0.95
广义优势估计(GAE)的 lambda 参数。这控制了优势估计中的偏差和方差之间的权衡。
name
类型: str
rllib_config
类型: Type[PPOConfig]
use_gae
类型: bool
默认值: True
是否使用广义优势估计(GAE)进行优势计算。GAE 是一种在保持低偏差的同时降低优势估计方差的方法。如果设置为 False,则将使用标准的优势计算。
方法
__init__
__init__(gae_lambda=0.95, clip_param=0.2, use_gae=True)返回类型: None
get_parser
classmethod get_parser()将设置添加到解析器或子解析器
get_settings_dict
get_settings_dict()以 Ray 中的正确参数名称为键的字典形式获取设置 — title: “schola.scripts.ray.settings.PPOSettings” description: “Bases: RLLibAlgorithmSpecificSettings.” sidebar: label: “PPOSettings”
类定义
class schola.scripts.ray.settings.PPOSettings(gae_lambda=0.95, clip_param=0.2, use_gae=True)基类: RLLibAlgorithmSpecificSettings
PPO(近端策略优化)算法特定设置的数据类。此类定义了 PPO 算法中使用的参数,包括 GAE lambda、clip 参数以及是否使用 GAE。
参数
gae_lambda
类型: float
clip_param
类型: float
use_gae
类型: bool
属性
clip_param
类型: float
默认: 0.2
PPO 算法的 clip 参数。这是用于裁剪代理目标函数的 epsilon 值。它有助于限制策略更新步长,以防止可能导致性能崩溃的大幅度更改。
gae_lambda
类型: float
默认: 0.95
广义优势估计(GAE)的 lambda 参数。这控制了优势估计中的偏差和方差之间的权衡。
name
类型: str
rllib_config
类型: Type[PPOConfig]
use_gae
类型: bool
默认值: True
是否使用广义优势估计(GAE)进行优势计算。GAE 是一种在保持低偏差的同时降低优势估计方差的方法。如果设置为 False,则将使用标准的优势计算。
方法
__init__
__init__(gae_lambda=0.95, clip_param=0.2, use_gae=True)返回类型: None
get_parser
classmethod get_parser()将设置添加到解析器或子解析器
get_settings_dict
get_settings_dict()以 Ray 中正确的参数名称作为键,将设置获取为字典