# Experiment for NeurIPS # Make sure you modify campain_launcher.py to fit your cluster configuration # Uncomment each line you want to run, then launch "python3 campain_launcher.py run_NeurIPS.txt" on your slurm cluster # # # NeurIPS Polite # PPO + explo bonus #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_BONUS_NoLiar -cs --algo ppo --*env MiniGrid-TalkItOutNoLiarPolite-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 7 50 --*exploration-bonus-tanh 0.6 #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_BONUS -cs --algo ppo --*env MiniGrid-TalkItOutPolite-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 7 50 --*exploration-bonus-tanh 0.6 # PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_NO_BONUS_NoLiar -cs --algo ppo --*env MiniGrid-TalkItOutNoLiarPolite-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_NO_BONUS -cs --algo ppo --*env MiniGrid-TalkItOutPolite-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning # unsocial #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_NoSocial_NO_BONUS_NoLiar -cs --algo ppo --*env MiniGrid-TalkItOutNoLiarPolite-8x8-v0 --*env_args hidden_npc True --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_NoSocial_NO_BONUS -cs --algo ppo --*env MiniGrid-TalkItOutPolite-8x8-v0 --*env_args hidden_npc True --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning # PPO + RND #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_RND_NoLiar -cs --algo ppo --*env MiniGrid-TalkItOutNoLiarPolite-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_RND -cs --algo ppo --*env MiniGrid-TalkItOutPolite-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards # PPO + RIDE #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_RIDE_NoLiar -cs --algo ppo --*env MiniGrid-TalkItOutNoLiarPolite-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type ride --clipped-rewards #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_TalkItOutPolite_RIDE -cs --algo ppo --*env MiniGrid-TalkItOutPolite-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type ride --clipped-rewards # # # NeurIPS ShowME # PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_NO_BONUS_ABL --compact-save --algo ppo --*env MiniGrid-ShowMeNoSocial-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_NO_BONUS --compact-save --algo ppo --*env MiniGrid-ShowMe-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning # PPO + explo bonus #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_BONUS_ABL_ --compact-save --algo ppo --*env MiniGrid-ShowMeNoSocial-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 3 50 --*exploration-bonus-tanh 0.6 #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_BONUS --compact-save --algo ppo --*env MiniGrid-ShowMe-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 3 50 --*exploration-bonus-tanh 0.6 # unsocial #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_NoSocial_NO_BONUS_ABL --compact-save --algo ppo --*env MiniGrid-ShowMeNoSocial-8x8-v0 --*env_args hidden_npc True --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_NoSocial_NO_BONUS --compact-save --algo ppo --*env MiniGrid-ShowMe-8x8-v0 --*env_args hidden_npc True --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning # PPO + RND #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_RND_ABL_ --compact-save --algo ppo --*env MiniGrid-ShowMeNoSocial-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_RND --compact-save --algo ppo --*env MiniGrid-ShowMe-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards # PPO + RIDE #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_RIDE_ABL_ --compact-save --algo ppo --*env MiniGrid-ShowMeNoSocial-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type ride --clipped-rewards #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_ShowMe_RIDE --compact-save --algo ppo --*env MiniGrid-ShowMe-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type ride --clipped-rewards # # # NeurIPS Help (Exiter role) # PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_Help_NO_BONUS --compact-save --algo ppo --*env MiniGrid-Exiter-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 5000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning # PPO + explo bonus #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_Help_BONUS --compact-save --algo ppo --*env MiniGrid-Exiter-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 5000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 3 50 --*exploration-bonus-tanh 0.6 # unsocial #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_Help_NoSocial_NO_BONUS --compact-save --algo ppo --*env MiniGrid-Exiter-8x8-v0 --*env_args hidden_npc True --dialogue --save-interval 100 --log-interval 100 --frames 5000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning # PPO + RND #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_Help_RND --compact-save --algo ppo --*env MiniGrid-Exiter-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 5000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards # PPO + RIDE #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_Help_RIDE --compact-save --algo ppo --*env MiniGrid-Exiter-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 5000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type ride --clipped-rewards # # DiverseExit # PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_DiverseExit_NO_BONUS --compact-save --algo ppo --*env MiniGrid-DiverseExit-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning # PPO + explo bonus #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_DiverseExit_BONUS --compact-save --algo ppo --*env MiniGrid-DiverseExit-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 20 50 --*exploration-bonus-tanh 0.6 # unsocial #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_DiverseExit_NoSocial_NO_BONUS --compact-save --algo ppo --*env MiniGrid-DiverseExit-8x8-v0 --*env_args hidden_npc True --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*ppo-hp-tuning # PPO + RND #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_DiverseExit_RND --compact-save --algo ppo --*env MiniGrid-DiverseExit-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards # PPO + RIDE #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model NeurIPS_DiverseExit_RIDE --compact-save --algo ppo --*env MiniGrid-DiverseExit-8x8-v0 --dialogue --save-interval 100 --log-interval 100 --frames 30000000 --*multi-modal-babyai11-agent --*arch original_endpool_res --*custom-ppo-2 --exploration-bonus --*exploration-bonus-type ride --clipped-rewards # # # NeurIPS CoinThief # PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model coinThief --algo ppo -cs --env MiniGrid-CoinThief-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env_args few_actions True npc_view_size 5 npc_look_around True # PPO + explo bonus #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model coinThief --algo ppo -cs --env MiniGrid-CoinThief-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env_args few_actions True npc_view_size 5 npc_look_around True --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 # PPO + RND #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model coinThief --algo ppo -cs --env MiniGrid-CoinThief-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --custom-ppo-2 --*env_args few_actions True npc_view_size 5 npc_look_around True --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards # PPO + RIDE #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model coinThief --algo ppo -cs --env MiniGrid-CoinThief-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --custom-ppo-2 --*env_args few_actions True npc_view_size 5 npc_look_around True --exploration-bonus --*exploration-bonus-type ride --clipped-rewards # unsocial PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model coinThief --algo ppo -cs --env MiniGrid-CoinThief-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env_args few_actions True hidden_npc True npc_view_size 5 npc_look_around True # PPO on easy version - visible coin tags #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model coinThief --algo ppo -cs --env MiniGrid-CoinThief-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env_args few_actions True tag_visible_coins True npc_view_size 5 npc_look_around True # PPO + explo bonus on easy version - visible coin tags #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model coinThief --algo ppo -cs --env MiniGrid-CoinThief-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env_args few_actions True tag_visible_coins True npc_view_size 5 npc_look_around True --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 # # # NeurIPS Dance # PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model dance --algo ppo -cs --env MiniGrid-DanceWithOneNPC-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env_args few_actions True dance_len 3 # PPO + explo bonus #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model dance --algo ppo -cs --env MiniGrid-DanceWithOneNPC-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env_args few_actions True dance_len 3 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --*exploration-bonus-params 3 50 --exploration-bonus-tanh 0.6 # PPO + RND #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model dance --algo ppo -cs --env MiniGrid-DanceWithOneNPC-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --custom-ppo-2 --*env_args few_actions True dance_len 3 --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards # unsocial PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model dance --algo ppo -cs --env MiniGrid-DanceWithOneNPC-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --*env_args hidden_npc True few_actions True dance_len 3 # PPO + RIDE #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model dance --algo ppo -cs --env MiniGrid-DanceWithOneNPC-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --custom-ppo-2 --*env_args few_actions True dance_len 3 --exploration-bonus --*exploration-bonus-type ride --clipped-rewards # # # NeurIPS SocialEnv ### PPO #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model socialEnv --algo ppo -cs --env MiniGrid-SocialEnv-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning ### PPO + explo tests #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model socialEnv --algo ppo -cs --env MiniGrid-SocialEnv-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 ### PPO + RND #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model socialEnv --algo ppo -cs --env MiniGrid-SocialEnv-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --custom-ppo-2 --exploration-bonus --*exploration-bonus-type rnd --clipped-rewards ### PPO + RIDE #--slurm_conf jz_long_2gpus_32g --nb_seeds 16 --model socialEnv --algo ppo -cs --env MiniGrid-SocialEnv-8x8-v0 --frames 30000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --custom-ppo-2 --exploration-bonus --*exploration-bonus-type ride --clipped-rewards #