# we selected the parameters # PPO: 5 0.0001 0.001 -> (543) # PPO: 543, 544,555,843,844 # CB: 1,2,5,10,20,50,100 # should be 1-10 ? # 35 combinations # ### Emulation Marble ## 543 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 544 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 555 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 843 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 844 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 # ### Language Switches ## 543 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 544 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 555 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 843 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 844 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 # CB grid search # Ask pointing boxes # 545 # 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 # 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8 # 845 # 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 # 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8 # 544 # 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 # 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8