FTrainerState

struct FTrainerState

一个表示代理在奖励、向量观测和状态下的状态的结构。

依赖项: FDictPoint

公共接口

公共函数

转换为 Protobuf

inline void ToProto(Schola::AgentState &OutState) const const

用代理的状态填充一个 Protobuf 消息（Schola::AgentState）。

参数

OutState (Schola::AgentState &) – [输出] 要填充的 Protobuf 消息引用

属性： const, inline

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 74 行, 第 6 列)

Reset

inline void Reset()

在每个 episode 结束时重置 Trainer State。

属性: inline

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 105 行, 第 6 列)

转换为 Protobuf

inline void ToProto(Schola::AgentState *OutState) const const

用代理的状态填充一个 Protobuf 消息（Schola::AgentState）。

参数

OutState (Schola::AgentState *) – [输出] 要填充的 Protobuf 消息指针

属性： const, inline

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 116 行, 第 6 列)

转换为 Protobuf

inline Schola::AgentState * ToProto() const const

将此对象转换为 Protobuf 消息 (Schola::AgentState)

返回: 一个包含此对象内容的新的 Protobuf 消息

返回: Schola::AgentState *

属性： const, inline

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 125 行, 第 20 列)

是否完成

inline bool IsDone() const const

代理是否已完成当前的训练 episode。

返回: 如果代理已完成其当前 episode，则为 true。

返回: bool

属性： const, inline

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 136 行, 第 6 列)

重置 Protobuf

inline void ToResetProto(Schola::InitialAgentState &OutState) const const

创建一个对应于代理重置后初始状态的 Protobuf 消息 (Schola::InitialAgentState)。

参数

OutState (Schola::InitialAgentState &) – [输出] 要填充的 Protobuf 消息引用

属性： const, inline

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 145 行, 第 6 列)

公共成员

float Reward

float Reward = = 0.0

代理在上一步中收到的奖励。

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 45 行, 第 7 列)

EAgentTrainingStatus LastStatus

EAgentTrainingStatus LastStatus = = EAgentTrainingStatus::Running

我们是否在完成 episode 后发送了最后一条消息。

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 49 行, 第 22 列)

FDictPoint * Observations

FDictPoint * Observations

代理在上一步中的向量观测。

不是 UProperty，因为 FDictPoint 不能蓝图化

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 52 行, 第 12 列)

TMap<FString, FString> Info

TMap<FString, FString> Info

包含有关代理在上一步中的额外信息的键值对映射。

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 56 行, 第 6 列)

EAgentTrainingStatus TrainingStatus

EAgentTrainingStatus TrainingStatus = = EAgentTrainingStatus::Running

代理在上一步中的状态。

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 60 行, 第 22 列)

bool bExists

bool bExists = = false

与此状态关联的 Trainer 是否存在。

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 64 行, 第 6 列)

int Step

int Step = = 0

代理的当前步。

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 68 行, 第 5 列)

使用于

此类型由以下部分使用

来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 39 行, 第 1 列)