# we selected the parameters # PPO: 543, 845, 544 # Ask pointing boxes # take a look at custom ppo-rnd reference (clipped rewards etc?) # --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd # 545 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001 # 845 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001 # 544 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001