多控制节点策略
控制任务中控制多个节点实现目标是常见的需求。REVIVE支持通过简单的配置训练包含多个节点的控制策略。例如,在自动驾驶任务中,需要同时控制车辆的方向和动力的输出。这两个方面都对车辆的行驶方向产生影响,因此需要同时考虑它们。通过使用 Revive SDK。
下面通过这个示例展示如何在训练时启动该功能:
yaml
metadata:
graph:
action_1:
- observation
action_2:
- action_1
- observation
next_observation:
- action_1
- action_2
- observation
columns:
...
上面的决策流图,展示了一个多节点的控制业务, action_1
节点和 action_2
节点需要共同作用完成控制。在训练时使用 -tpn
参数进行多策略节点训练。
训练命令:
python
python train.py \
-df test.npz \
-cf test.yaml \
-rf test_reward.py \
-vm once \
-pm once \
-tpn action_1,action_2 \
--run_id test