Для установки SUMO-RL и TorchRL:
./install_sumo.sh
pip install -r requirements.txtНастройка моделей, параметров обучения и т.п. происходит посредством изменения yaml конфигов, лежащих в dqn/configs и ppo/configs.
Пример конфига:
random_state: 43
defaults:
- actor: default
- loss: default
- optimizer: adamw
- enviroment: default
log_dir: /kaggle/working
experiment_name: "full validation"
train_params:
num_workers: 2
num_envs: 2
total_frames: 10000
buffer_size: 100000
init_random_frames: 100
frames_per_batch: 1
batch_size: 32
optim_steps_per_batch: 4
gamma: 0.999
val_params:
log_interval: 500
steps: 5000DQN:
python3 dqn/train.pyPPO:
python3 ppo/train.pyPPO — график среднего времени ожидания машины под управлением агента, обученного с помощью PPO
DQN — график среднего времени ожидания машины под управлением агента, обученного с помощью DQN
Real — график среднего времени ожидания машины под управлением реальной системы управления светофором через цикличную смену фаз
