跳至内容

schola.scripts.ray.settings.PPOSettings

类定义

class schola.scripts.ray.settings.PPOSettings(gae_lambda=0.95, clip_param=0.2, use_gae=True)

基类: RLLibAlgorithmSpecificSettings

PPO(近端策略优化)算法特定设置的数据类。此类定义了 PPO 算法中使用的参数,包括 GAE lambda、clip 参数以及是否使用 GAE。

参数

gae_lambda

类型: float

clip_param

类型: float

use_gae

类型: bool

属性

clip_param

类型: float
默认: 0.2

PPO 算法的 clip 参数。这是用于裁剪代理目标函数的 epsilon 值。它有助于限制策略更新步长,以防止可能导致性能崩溃的大幅度更改。

gae_lambda

类型: float
默认: 0.95

广义优势估计(GAE)的 lambda 参数。这控制了优势估计中的偏差和方差之间的权衡。

name

类型: str

rllib_config

类型: Type[PPOConfig]

use_gae

类型: bool
默认值: True

是否使用广义优势估计(GAE)进行优势计算。GAE 是一种在保持低偏差的同时降低优势估计方差的方法。如果设置为 False,则将使用标准的优势计算。

方法

__init__

__init__(gae_lambda=0.95, clip_param=0.2, use_gae=True)

返回类型: None

get_parser

classmethod get_parser()

将设置添加到解析器或子解析器

get_settings_dict

get_settings_dict()

以 Ray 中的正确参数名称为键的字典形式获取设置 — title: “schola.scripts.ray.settings.PPOSettings” description: “Bases: RLLibAlgorithmSpecificSettings.” sidebar: label: “PPOSettings”

类定义

class schola.scripts.ray.settings.PPOSettings(gae_lambda=0.95, clip_param=0.2, use_gae=True)

基类: RLLibAlgorithmSpecificSettings

PPO(近端策略优化)算法特定设置的数据类。此类定义了 PPO 算法中使用的参数,包括 GAE lambda、clip 参数以及是否使用 GAE。

参数

gae_lambda

类型: float

clip_param

类型: float

use_gae

类型: bool

属性

clip_param

类型: float
默认: 0.2

PPO 算法的 clip 参数。这是用于裁剪代理目标函数的 epsilon 值。它有助于限制策略更新步长,以防止可能导致性能崩溃的大幅度更改。

gae_lambda

类型: float
默认: 0.95

广义优势估计(GAE)的 lambda 参数。这控制了优势估计中的偏差和方差之间的权衡。

name

类型: str

rllib_config

类型: Type[PPOConfig]

use_gae

类型: bool
默认值: True

是否使用广义优势估计(GAE)进行优势计算。GAE 是一种在保持低偏差的同时降低优势估计方差的方法。如果设置为 False,则将使用标准的优势计算。

方法

__init__

__init__(gae_lambda=0.95, clip_param=0.2, use_gae=True)

返回类型: None

get_parser

classmethod get_parser()

将设置添加到解析器或子解析器

get_settings_dict

get_settings_dict()

以 Ray 中正确的参数名称作为键,将设置获取为字典

© . This site is unofficial and not affiliated with AMD.