SocialAISchool / run_ppo_cb_cell_gs.txt
grg's picture
Cleaned old git history
be5548b
raw
history blame
66.2 kB
# we selected the parameters
# PPO: 5 0.0001 0.001 -> (543)
# PPO: 543, 544,555,843,844
# CB: 1,2,5,10,20,50,100 # should be 1-10 ?
# 35 combinations
#
### Emulation Marble
## 543
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
## 544
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
## 555
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
## 843
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
## 844
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
#
### Language Switches
## 543
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
## 544
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
## 555
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
## 843
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
## 844
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6
# CB grid search
# Ask pointing boxes
# 545
# 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6
# 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8
# 845
# 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6
# 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8
# 544
# 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6
# 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8