schola.scripts.sb3.utils.SingleEnvRewardCallback

类定义

class schola.scripts.sb3.utils.SingleEnvRewardCallback(verbose=0, id=0, frequency=10)

基类： BaseCallback

记录向量环境中单个环境的奖励和步数的类的回调。

参数

详细

Type: int
详细程度。

ID

Type: int
要记录奖励和步数的环境的 ID。

频率

Type: int
记录奖励和步数的频率。

属性

单集奖励

类型： float

当前单集的奖励。

单集奖励列表

类型： List[float]

每个单集的奖励。

单集步数

Type: int

当前单集所采取的步数。

ID

Type: int

要记录奖励和步数的环境的 ID。

最后一次记录的间隔

Type: int

最后一次记录的间隔。

记录器

记录间隔大小

Type: int

记录奖励和步数的频率。

模型

准备记录

类型： bool

通过检查自上次记录以来完成的单集是否超过 self.logging_interval_size 来确定环境是否已准备好记录。

步数统计

类型： List[int]

每个单集所采取的步数。

方法

init

__init__(verbose=0, id=0, frequency=10)

获取奖励间隔

get_reward_interval()

返回上一个记录间隔的奖励。

返回： 上一个记录间隔的奖励。

返回类型： List[float]

获取步数间隔

get_step_interval()

返回上一个记录间隔中每个单集所采取的步数。

返回： 上一个记录间隔中每个单集所采取的步数。

返回类型： List[int]

递增记录间隔

increment_logging_interval()

将记录间隔增加 self.logging_interval_size 步。

返回类型： None

初始化回调

init_callback(model)

通过保存 RL 模型和训练环境的引用来初始化回调，以方便使用。

回滚结束时

on_rollout_end()

回滚开始时

on_rollout_start()

步时

on_step()

该方法将在每次调用 env.step() 后由模型调用。

训练结束时

on_training_end()

训练开始时

on_training_start(locals_, globals_)

更新子本地变量

update_child_locals(locals_)

更新子回调的局部变量的引用。

更新本地变量

update_locals(locals_)

更新局部变量的引用。