schola.scripts.ray.settings.PPOSettings

类定义

class schola.scripts.ray.settings.PPOSettings(gae_lambda=0.95, clip_param=0.2, use_gae=True)

基类： RLLibAlgorithmSpecificSettings

PPO（近端策略优化）算法特定设置的数据类。此类定义了 PPO 算法中使用的参数，包括 GAE lambda、clip 参数以及是否使用 GAE。

参数

gae_lambda

类型： float

clip_param

类型： float

use_gae

类型： bool

属性

clip_param

类型： float
默认: 0.2

PPO 算法的 clip 参数。这是用于裁剪代理目标函数的 epsilon 值。它有助于限制策略更新步长，以防止可能导致性能崩溃的大幅度更改。

gae_lambda

类型： float
默认: 0.95

广义优势估计（GAE）的 lambda 参数。这控制了优势估计中的偏差和方差之间的权衡。

name

类型： str

rllib_config

类型： Type[PPOConfig]

use_gae

类型： bool
默认值： True

是否使用广义优势估计（GAE）进行优势计算。GAE 是一种在保持低偏差的同时降低优势估计方差的方法。如果设置为 False，则将使用标准的优势计算。

方法

init

__init__(gae_lambda=0.95, clip_param=0.2, use_gae=True)

返回类型： None

get_parser

classmethod get_parser()

将设置添加到解析器或子解析器

get_settings_dict

get_settings_dict()

以 Ray 中的正确参数名称为键的字典形式获取设置 — title: “schola.scripts.ray.settings.PPOSettings” description: “Bases: RLLibAlgorithmSpecificSettings.” sidebar: label: “PPOSettings”

类定义

class schola.scripts.ray.settings.PPOSettings(gae_lambda=0.95, clip_param=0.2, use_gae=True)

基类： RLLibAlgorithmSpecificSettings

PPO（近端策略优化）算法特定设置的数据类。此类定义了 PPO 算法中使用的参数，包括 GAE lambda、clip 参数以及是否使用 GAE。

参数

gae_lambda

类型： float

clip_param

类型： float

use_gae

类型： bool

属性

clip_param

类型： float
默认: 0.2

PPO 算法的 clip 参数。这是用于裁剪代理目标函数的 epsilon 值。它有助于限制策略更新步长，以防止可能导致性能崩溃的大幅度更改。

gae_lambda

类型： float
默认: 0.95

广义优势估计（GAE）的 lambda 参数。这控制了优势估计中的偏差和方差之间的权衡。

name

类型： str

rllib_config

类型： Type[PPOConfig]

use_gae

类型： bool
默认值： True

是否使用广义优势估计（GAE）进行优势计算。GAE 是一种在保持低偏差的同时降低优势估计方差的方法。如果设置为 False，则将使用标准的优势计算。

方法

init

__init__(gae_lambda=0.95, clip_param=0.2, use_gae=True)

返回类型： None

get_parser

classmethod get_parser()

将设置添加到解析器或子解析器

get_settings_dict

get_settings_dict()

以 Ray 中正确的参数名称作为键，将设置获取为字典