SocialAISchool / hp_tuning_agent.txt
grg's picture
Cleaned old git history
be5548b
## PPO
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-05 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.01 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0001 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.0004 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.01 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1000 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 40 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 20 --*env MiniGrid-TalkItOutPolite-8x8-v0
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --*optim-eps 1e-07 --*entropy-coef 0.0005 --*intrinsic-reward-learning-rate 0.001 --*intrinsic-reward-epsilon 0.0001 --*intrinsic-reward-max-grad-norm 1 --*env MiniGrid-TalkItOutPolite-8x8-v0