Spaces:

flowers-team
/

SocialAISchool

Sleeping

App Files Files Community

SocialAISchool / hp_tuning_agent.txt

grg

Cleaned old git history

be5548b 12 months ago

raw

history blame

207 kB

	## PPO
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-05 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.01 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0001 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.0004 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.01 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1000 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 40 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 20 --env MiniGrid-TalkItOutPolite-8x8-v0
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-CoinThief-8x8-v0 --env_args few_actions True
	--slurm_conf jz_short_2gpus_32g --nb_seeds 8 --model PPO_RND_tuning --algo ppo -cs --frames 10000000 --save-interval 100 --log-interval 100 --dialogue --multi-modal-babyai11-agent --exploration-bonus --exploration-bonus-type rnd --clipped-rewards --arch original_endpool_res --optim-eps 1e-07 --entropy-coef 0.0005 --intrinsic-reward-learning-rate 0.001 --intrinsic-reward-epsilon 0.0001 --intrinsic-reward-max-grad-norm 1 --env MiniGrid-TalkItOutPolite-8x8-v0