快速开始
REVIVE 致力于为用户提供灵活多样的模型训练模式。使用 REVIVE 时,您只需专注于核心业务逻辑,通过结合专业领域知识构建符合 REVIVE 要求的决策流图和任务数据,提交训练任务后,REVIVE 将自动训练出最优的虚拟环境模型和策略模型,从而实现业务模拟与智能优化。
核心工作流程
REVIVE 的核心在于将实际业务场景及其逻辑进行数字化处理。通过构建决策流图,SDK 能够完整描述业务数据之间的依赖和关联关系;结合精心准备的训练数据,系统便能构建出准确逼真的虚拟环境模型。奖励函数则为决策过程提供衡量标准,SDK 利用强化学习算法不断优化,最终获取实现业务目标的最佳策略。
任务准备步骤
使用 REVIVE SDK 需要结合任务和数据特征来准备以下内容:
决策流图、训练数据、奖励函数构成了一个完整的训练任务输入。在后续的教程和任务示例中,我们将详细解释每个步骤的具体流程。
训练命令示例
下面展示了如何使用 REVIVE 提供的示例数据进行虚拟环境模型和策略模型的快速训练。您可以根据实际需求选择合适的训练模式:
基础训练模式
使用默认参数快速训练虚拟环境模型和策略模型:
bash
python train.py \
-df test.npz \
-cf test.yaml \
-rf test_reward.py \
-vm once \
-pm once \
--run_id test
超参数优化模式
使用超参数搜索模式来获得更优的模型性能:
bash
python train.py \
-df test.npz \
-cf test.yaml \
-rf test_reward.py \
-vm tune \
-pm tune \
--run_id test
自定义配置模式
使用自定义的参数配置文件进行训练:
bash
python train.py \
-df test.npz \
-cf test.yaml \
-rf test_reward.py \
-rcf config.json \
--run_id test
参数说明
参数 | 描述 | 示例 |
---|---|---|
-df | 训练数据文件路径 | test.npz |
-cf | 决策流图配置文件 | test.yaml |
-rf | 奖励函数文件路径 | test_reward.py |
-vm | 虚拟环境训练模式 | once (单次)、tune (优化)或 None (不训练) |
-pm | 策略训练模式 | once (单次)、tune (优化)或 None (不训练) |
-rcf | 自定义配置文件 | config.json |
--run_id | 训练任务标识 | test |
示例数据
REVIVE 提供了丰富的示例数据,您可以在以下链接中找到:
revive/data at master · polixir/revive
查看训练结果
在训练过程中,REVIVE SDK会自动创建日志文件夹 logs/<run_id>
来记录训练日志和保存模型结果。训练完成后,结果将以 env.pkl
和 policy.pkl
的形式存储在训练日志文件夹当中。