# Phase one # ir coef intr # 1.0, 0.5, 0.1, 0.05, 0.01, 0.005 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_param_tanh --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 1.0 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_param_tanh --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.5 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_param_tanh --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.1 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_param_tanh --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.05 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_param_tanh --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.01 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_param_tanh --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.005 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_param_tanh --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.001 # phase two ACL # ACL --acl-thresholds [0.75, 0.8, 0.9, 0.95] # ir coef intr [0.01, 0.05, 0.1, 0.3] ## acl 75 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.3 ##--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.1 ##--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.05 ##--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --acl-thresholds 0.75 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.01 # ## acl 80 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.8 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.3 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.8 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.1 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.8 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.05 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.8 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.01 # ## acl 90 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.9 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.3 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.9 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.1 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.9 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.05 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.9 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.01 # ## acl 95 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.95 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.3 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.95 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.1 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.95 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.05 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_GS_coef_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.95 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.01 # test reset of rnd --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model bAI_rnd_reset_at_phase --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-SocialAIParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-5 --entropy-coef 0.00001 --acl --*acl-thresholds 0.9 --acl-average-interval 500 --acl-minimum-episodes 1000 --test-set-name SocialAITestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-coef 0.01 --*reset-rnd-ride-at-phase