快速开始

REVIVE 致力于为用户提供灵活多样的模型训练模式。使用 REVIVE 时，您只需专注于核心业务逻辑，通过结合专业领域知识构建符合 REVIVE 要求的决策流图和任务数据，提交训练任务后，REVIVE 将自动训练出最优的虚拟环境模型和策略模型，从而实现业务模拟与智能优化。

核心工作流程

REVIVE 的核心在于将实际业务场景及其逻辑进行数字化处理。通过构建决策流图，SDK 能够完整描述业务数据之间的依赖和关联关系；结合精心准备的训练数据，系统便能构建出准确逼真的虚拟环境模型。奖励函数则为决策过程提供衡量标准，SDK 利用强化学习算法不断优化，最终获取实现业务目标的最佳策略。

使用 REVIVE SDK 需要结合任务和数据特征来准备以下内容：

决策流图、训练数据、奖励函数构成了一个完整的训练任务输入。在后续的教程和任务示例中，我们将详细解释每个步骤的具体流程。

下面展示了如何使用 REVIVE 提供的示例数据进行虚拟环境模型和策略模型的快速训练。您可以根据实际需求选择合适的训练模式：

使用默认参数快速训练虚拟环境模型和策略模型：

bash

python train.py \
    -df test.npz \
    -cf test.yaml \
    -rf test_reward.py \
    -vm once \
    -pm once \
    --run_id test

使用超参数搜索模式来获得更优的模型性能：

bash

python train.py \
    -df test.npz \
    -cf test.yaml \
    -rf test_reward.py \
    -vm tune \
    -pm tune \
    --run_id test

使用自定义的参数配置文件进行训练：

bash

python train.py \
    -df test.npz \
    -cf test.yaml \
    -rf test_reward.py \
    -rcf config.json \
    --run_id test

REVIVE 提供了丰富的示例数据，您可以在以下链接中找到：

在训练过程中，REVIVE SDK会自动创建日志文件夹 logs/<run_id> 来记录训练日志和保存模型结果。训练完成后，结果将以 env.pkl 和 policy.pkl 的形式存储在训练日志文件夹当中。