{"cfg": {"train_env": {"_type_": "cleanba.environments:EnvpoolBoxobanConfig", "env_id": "Sokoban-v0", "reward_finished": 10.0, "reward_box": 1.0, "reward_step": -0.1, "verbose": 0, "min_episode_steps": 30, "load_sequentially": false, "n_levels_to_load": -1, "cache_path": "/opt/sokoban_cache", "split": "train", "difficulty": "unfiltered", "num_threads": 0, "thread_affinity_offset": -1, "max_num_players": 1, "max_episode_steps": 120, "num_envs": 1, "seed": 317026872}, "eval_envs": {"test_unfiltered": {"env": {"_type_": "cleanba.environments:EnvpoolBoxobanConfig", "env_id": "Sokoban-v0", "reward_finished": 10.0, "reward_box": 1.0, "reward_step": -0.1, "verbose": 0, "min_episode_steps": 240, "load_sequentially": false, "n_levels_to_load": -1, "cache_path": "/opt/sokoban_cache", "split": "test", "difficulty": "unfiltered", "num_threads": 0, "thread_affinity_offset": -1, "max_num_players": 1, "max_episode_steps": 240, "num_envs": 256, "seed": 5454}, "n_episode_multiple": 2, "steps_to_think": [0, 2, 4, 8, 12, 16, 24, 32], "temperature": 0.0, "safeguard_max_episode_steps": 30000}, "valid_medium": {"env": {"_type_": "cleanba.environments:EnvpoolBoxobanConfig", "env_id": "Sokoban-v0", "reward_finished": 10.0, "reward_box": 1.0, "reward_step": -0.1, "verbose": 0, "min_episode_steps": 240, "load_sequentially": false, "n_levels_to_load": -1, "cache_path": "/opt/sokoban_cache", "split": "valid", "difficulty": "medium", "num_threads": 0, "thread_affinity_offset": -1, "max_num_players": 1, "max_episode_steps": 240, "num_envs": 256, "seed": 5454}, "n_episode_multiple": 2, "steps_to_think": [0, 2, 4, 8, 12, 16, 24, 32], "temperature": 0.0, "safeguard_max_episode_steps": 30000}}, "eval_at_steps": [312960, 3716, 391, 97800, 35208, 21516, 782, 7824, 195600, 1173, 293400, 29340, 1564, 15648, 78240, 391200, 1956, 176040, 2347, 37164, 23472, 273840, 2738, 27384, 9780, 58680, 3129, 371640, 3520, 31296, 156480, 195, 17604, 3912, 254280, 586, 39120, 352080, 978, 25428, 11736, 1369, 136920, 1760, 234720, 33252, 2151, 19560, 332520, 5868, 2542, 117360, 2934, 215160, 13692, 3325], "seed": 996363843, "save_model": true, "log_frequency": 10, "sync_frequency": 100000000000000000000, "actor_update_frequency": 1, "actor_update_cutoff": 100000000000000000000, "base_run_dir": "/training/cleanba", "loss": {"gamma": 0.97, "ent_coef": 0.01, "vf_coef": 0.25, "vtrace_lambda": 0.5, "clip_rho_threshold": 1.0, "clip_pg_rho_threshold": 1.0, "normalize_advantage": false, "logit_l2_coef": 1.5625e-06, "weight_l2_coef": 1.5625e-08, "max_vf_error": 1.0, "vf_loss_type": "square", "advantage_multiplier": "one"}, "net": {"_type_": "cleanba.convlstm:ConvLSTMConfig", "embed": [{"features": 32, "kernel_size": [4, 4], "strides": [1, 1], "padding": "SAME", "use_bias": true, "initialization": "lecun"}, {"features": 32, "kernel_size": [4, 4], "strides": [1, 1], "padding": "SAME", "use_bias": true, "initialization": "lecun"}], "recurrent": {"conv": {"features": 32, "kernel_size": [3, 3], "strides": [1, 1], "padding": "SAME", "use_bias": true, "initialization": "lecun"}, "pool_and_inject": "horizontal", "pool_projection": "per-channel", "output_activation": "tanh", "forget_bias": 0.0, "fence_pad": "valid"}, "use_relu": false, "n_recurrent": 3, "repeats_per_step": 3, "mlp_hiddens": [256], "skip_final": true, "residual": false, "yang_init": false, "norm": {"_type_": "cleanba.network:IdentityNorm"}, "normalize_input": false, "head_scale": 1.0}, "total_timesteps": 2002944000, "learning_rate": 0.0004, "final_learning_rate": 4e-06, "local_num_envs": 256, "num_steps": 20, "train_epochs": 1, "anneal_lr": true, "num_minibatches": 8, "gradient_accumulation_steps": 1, "max_grad_norm": 0.00025, "optimizer": "adam", "adam_b1": 0.9, "rmsprop_eps": 1.5625e-07, "rmsprop_decay": 0.99, "optimizer_yang": false, "base_fan_in": 1, "queue_timeout": 300.0, "num_actor_threads": 1, "actor_device_ids": [0], "learner_device_ids": [0], "distributed": false, "concurrency": true, "load_path": null}, "update_step": 156480}