跳至内容

schola.scripts.sb3.utils.RewardCallback

类定义

class schola.scripts.sb3.utils.RewardCallback(verbose=0, frequency=10, num_envs=1)

基类: CallbackList

用于在多环境设置中记录每个环境的奖励和步数的 callback。

参数

详细

Type: int
默认: 0
详细程度级别。

频率

Type: int
默认: 10
记录奖励和已采取步骤的频率。

num_envs

Type: int
Default: 1
记录奖励和步骤的环境数量。

属性

回调

类型: List[SingleEnvRewardCallback]

每个环境的 RewardLoggingCallbacks 列表。

当前记录间隔

Type: int

当前的记录间隔。

记录器

模型

num_envs

Type: int

记录奖励和步骤的环境数量。

准备好记录

类型: bool

返回所有环境是否已准备好进行记录。

开始时间

Type: int

创建回调的时间。

每隔多少次记录

Type: int

记录奖励和已采取步骤的频率。

方法

__init__

__init__(verbose=0, frequency=10, num_envs=1)

初始化回调

init_callback(model)

通过保存 RL 模型和训练环境的引用来初始化回调,以方便使用。

回滚结束时

on_rollout_end()

回滚开始时

on_rollout_start()

步时

on_step()

该方法将在每次调用 env.step() 后由模型调用。

训练结束时

on_training_end()

训练开始时

on_training_start(locals_, globals_)

更新子本地变量

update_child_locals(locals_)

更新局部变量的引用。

更新本地变量

update_locals(locals_)

更新局部变量的引用。

© . This site is unofficial and not affiliated with AMD.