SocialAISchool / run_SAI_GS_case_studies_GS.txt
grg's picture
Cleaned old git history
be5548b
raw
history blame
34.7 kB
# no exploration bonus
# phase 1
# lr [1e-4, 1e-5]
# recurrence [5, 10, 20, 80]
# vs rnd ride reference
# # rec 5
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
# # rec 10
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
# # rec 20
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
# reference
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --*custom-ppo-ride-reference --test-set-name SocialAIGSTestSet
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --*custom-ppo-ride-reference --test-set-name SocialAIGSTestSet
# best from phase 1, with expl bonuses
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
## CB
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1.5 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1.5 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8
#
## CBL
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 1.5 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 1.5 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 5 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type lang --*exploration-bonus-params 50 50 --*exploration-bonus-tanh 0.6
#
## RND
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 1.0
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.5
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.1
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.05
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.01
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.005
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.001
#
# RIDE
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 1.0
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.5
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.1
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.05
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.01
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.005
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type ride --*intrinsic-reward-coef 0.001
#
# other envs -> with more problems and with emulation
# best: lr 1e-5, rec 10
# vs rnd ride reference
## rec 5
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## rec 10
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## rec 20
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## reference
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --*custom-ppo-ride-reference --test-set-name SocialAICuesGSTestSet
# Emulation
# vs rnd ride reference
# rec 5
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## rec 10
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## rec 20
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## reference
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --*custom-ppo-ride-reference