FTrainerState
struct FTrainerState一个表示代理在奖励、向量观测和状态下的状态的结构。
依赖项: FDictPoint
公共接口
公共函数
转换为 Protobuf
inline void ToProto(Schola::AgentState &OutState) const const用代理的状态填充一个 Protobuf 消息(Schola::AgentState)。
参数
OutState(Schola::AgentState &) – [输出] 要填充的 Protobuf 消息引用
属性: const, inline
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 74 行, 第 6 列)
Reset
inline void Reset()在每个 episode 结束时重置 Trainer State。
属性: inline
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 105 行, 第 6 列)
转换为 Protobuf
inline void ToProto(Schola::AgentState *OutState) const const用代理的状态填充一个 Protobuf 消息(Schola::AgentState)。
参数
OutState(Schola::AgentState *) – [输出] 要填充的 Protobuf 消息指针
属性: const, inline
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 116 行, 第 6 列)
转换为 Protobuf
inline Schola::AgentState * ToProto() const const将此对象转换为 Protobuf 消息 (Schola::AgentState)
返回: 一个包含此对象内容的新的 Protobuf 消息
返回: Schola::AgentState *
属性: const, inline
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 125 行, 第 20 列)
是否完成
inline bool IsDone() const const代理是否已完成当前的训练 episode。
返回: 如果代理已完成其当前 episode,则为 true。
返回: bool
属性: const, inline
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 136 行, 第 6 列)
重置 Protobuf
inline void ToResetProto(Schola::InitialAgentState &OutState) const const创建一个对应于代理重置后初始状态的 Protobuf 消息 (Schola::InitialAgentState)。
参数
OutState(Schola::InitialAgentState &) – [输出] 要填充的 Protobuf 消息引用
属性: const, inline
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 145 行, 第 6 列)
公共成员
float Reward
float Reward = = 0.0代理在上一步中收到的奖励。
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 45 行, 第 7 列)
EAgentTrainingStatus LastStatus
EAgentTrainingStatus LastStatus = = EAgentTrainingStatus::Running我们是否在完成 episode 后发送了最后一条消息。
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 49 行, 第 22 列)
FDictPoint * Observations
FDictPoint * Observations代理在上一步中的向量观测。
不是 UProperty,因为 FDictPoint 不能蓝图化
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 52 行, 第 12 列)
TMap<FString, FString> Info
TMap<FString, FString> Info包含有关代理在上一步中的额外信息的键值对映射。
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 56 行, 第 6 列)
EAgentTrainingStatus TrainingStatus
EAgentTrainingStatus TrainingStatus = = EAgentTrainingStatus::Running代理在上一步中的状态。
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 60 行, 第 22 列)
bool bExists
bool bExists = = false与此状态关联的 Trainer 是否存在。
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 64 行, 第 6 列)
int Step
int Step = = 0代理的当前步。
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 68 行, 第 5 列)
使用于
此类型由以下部分使用
- AAbstractTrainer
- FSharedEnvironmentState
- UAbstractEnvironmentUtilityComponent
- UBlueprintEnvironmentUtilityComponent
- UStatLoggerComponent
来源: Schola/Source/Schola/Public/Training/StateStructs/TrainerState.h (第 39 行, 第 1 列)