跳转到内容

快速开始

REVIVE 致力于为用户提供灵活多样的模型训练模式。使用REVIVE时,您只需专注于核心业务,通过结合专业领域知识构建满足 REVIVE要求的决策流图和任务数据,提交训练任务后,REVIVE 将自动训练出最优的虚拟环境模型和策略模型,从而实现业务模拟与智能优化。

任务准备

使用REVIVE SDK需要结合任务和数据特征来准备以下内容:

REVIVE 的核心在于将实际业务场景及其逻辑数字化处理。通过构建决策流图,SDK 能够完整描述业务数据之间的依赖和关联;结合精心准备的训练数据,系统便能构建出准确逼真的虚拟环境模型。奖励函数则为决策过程提供衡量标准,SDK 利用强化学习算法不断优化,最终获取实现业务目标的最佳策略。

决策流图、训练数据、奖励函数构成了一个完整的训练任务输入,在后续的教程和任务示例中,我们将详细解释准备数据的流程。

训练命令示例

下面展示了如何使用 REVIVE 提供的示例数据进行虚拟环境模型和策略模型的快速训练。您可以根据实际需求选择合适的训练模式:

python
# 使用默认参数来训练虚拟环境模型和策略
python train.py \
    -df test.npz \
    -cf test.yaml \
    -rf test_reward.py \
    -vm once \
    -pm once \
    --run_id test

# 使用超参搜索模式来训练虚拟环境模型和策略
python train.py \
    -df test.npz \
    -cf test.yaml \
    -rf test_reward.py \
    -vm tune \
    -pm tune \
    --run_id test

# 使用自定义的参数文件(config.json)来训练虚拟环境模型和策略
python train.py \
    -df test.npz \
    -cf test.yaml \
    -rf test_reward.py \
    -rcf config.json \
    --run_id test

示例数据

示例数据可以在以下链接中找到:revive/data at master · polixir/revive

查看训练结果

在训练过程中,REVIVE SDK会自动创建日志文件夹 logs/<run_id> 来记录训练日志和保存模型结果。训练完成后,结果将以 env.pklpolicy.pkl 的形式存储在训练日志文件夹当中。