快速开始
REVIVE 致力于为用户提供灵活多样的模型训练模式。使用REVIVE时,您只需专注于核心业务,通过结合专业领域知识构建满足 REVIVE要求的决策流图和任务数据,提交训练任务后,REVIVE 将自动训练出最优的虚拟环境模型和策略模型,从而实现业务模拟与智能优化。
任务准备
使用REVIVE SDK需要结合任务和数据特征来准备以下内容:
REVIVE 的核心在于将实际业务场景及其逻辑数字化处理。通过构建决策流图,SDK 能够完整描述业务数据之间的依赖和关联;结合精心准备的训练数据,系统便能构建出准确逼真的虚拟环境模型。奖励函数则为决策过程提供衡量标准,SDK 利用强化学习算法不断优化,最终获取实现业务目标的最佳策略。
决策流图、训练数据、奖励函数构成了一个完整的训练任务输入,在后续的教程和任务示例中,我们将详细解释准备数据的流程。
训练命令示例
下面展示了如何使用 REVIVE 提供的示例数据进行虚拟环境模型和策略模型的快速训练。您可以根据实际需求选择合适的训练模式:
python
# 使用默认参数来训练虚拟环境模型和策略
python train.py \
-df test.npz \
-cf test.yaml \
-rf test_reward.py \
-vm once \
-pm once \
--run_id test
# 使用超参搜索模式来训练虚拟环境模型和策略
python train.py \
-df test.npz \
-cf test.yaml \
-rf test_reward.py \
-vm tune \
-pm tune \
--run_id test
# 使用自定义的参数文件(config.json)来训练虚拟环境模型和策略
python train.py \
-df test.npz \
-cf test.yaml \
-rf test_reward.py \
-rcf config.json \
--run_id test
示例数据
示例数据可以在以下链接中找到:revive/data at master · polixir/revive
查看训练结果
在训练过程中,REVIVE SDK会自动创建日志文件夹 logs/<run_id>
来记录训练日志和保存模型结果。训练完成后,结果将以 env.pkl
和 policy.pkl
的形式存储在训练日志文件夹当中。