###################### ## Scaffolding + Formats ###################### #--slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 50000000 --model formats_50M_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AELangFeedbackTrainFormatsCSParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name AEFormatsTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type lang --exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 50000000 --model scaffolding_50M_no_acl --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AELangFeedbackTrainFormatsCSParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name AEFormatsTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 #--slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 50000000 --model scaffolding_50M_acl_4 --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AELangFeedbackTrainScaffoldingCSParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name AEFormatsTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --acl --*acl-type intro_seq --acl-thresholds 0.90 0.90 0.90 0.90 --acl-average-interval 500 --acl-minimum-episodes 1000 #--slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 50000000 --model scaffolding_50M_acl_8 --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AELangFeedbackTrainScaffoldingCSParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name AEFormatsTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --acl --*acl-type intro_seq_scaf --acl-thresholds 0.90 0.90 0.90 0.90 --acl-average-interval 500 --acl-minimum-episodes 1000 ############### ## Pointing ############### # --slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 50000000 --model Pointing_CB_heldout_doors --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-EPointingHeldoutDoorsTrainInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name PointingTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 0.25 50 --exploration-bonus-tanh 0.6 ############### ## Feedback ############### # --slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 20000000 --model Feedback_CB_heldout_doors_20M --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-ELangFeedbackHeldoutDoorsTrainInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name LangFeedbackTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type lang --exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 ############### ## Color ############### # --slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 20000000 --model Color_CB_heldout_doors --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-ELangColorHeldoutDoorsTrainInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name LangColorTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type lang --exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 ############### ## Joint attention ############### # JA - Color # --slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 20000000 --model JA_Color_CB_heldout_doors --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-JAELangColorHeldoutDoorsTrainInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name JALangColorTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type lang --exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 ############### ## Imitation ############### # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 20000000 --model Imitation_PPO_CB --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-EEmulationNoDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --test-set-name NoDistrEmulationTestSet --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.25 50 --exploration-bonus-tanh 0.6 # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 20000000 --model Imitation_PPO_CB --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-EEmulationNoDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --test-set-name NoDistrEmulationTestSet --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --exploration-bonus-tanh 0.6 # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 20000000 --model Imitation_PPO_CB --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-EEmulationNoDistrInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --test-set-name NoDistrEmulationTestSet --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 ################## ## Role Reversal ################## ## SINGLE ################## # pretrain # --slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 4000000 --model RR_single_CB_marble_pass_B_exp --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-MarblePassBCollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 # --slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 4000000 --model RR_single_CB_marble_pass_asoc_contr --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AsocialMarbleCollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 # finetune # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 1000000 --model RR_ft_single_CB_marble_pass_A_soc_exp --algo ppo --dialogue --save-interval 1 --log-interval 1 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-MarblePassACollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 --finetune-train storage/02-01_RR_single_CB_marble_pass_B_exp # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 1000000 --model RR_ft_single_CB_marble_pass_A_asoc_contr --algo ppo --dialogue --save-interval 1 --log-interval 1 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-MarblePassACollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 --finetune-train storage/02-01_RR_single_CB_marble_pass_asoc_contr ## GROUP ################## # pretrain # --slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 50000000 --model RR_group_CB_marble_pass_B_exp --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-RoleReversalGroupExperimentalCollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 # --slurm_conf jz_short_gpu_chained_a100 --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 50000000 --model RR_group_CB_marble_pass_asoc_contr --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-RoleReversalGroupControlCollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 # finetune # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 500000 --model RR_ft_group_20M_CB_marble_pass_A_soc_exp --algo ppo --dialogue --save-interval 1 --log-interval 1 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-MarblePassACollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 --finetune-train storage/02-01_RR_group_CB_marble_pass_B_exp # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 500000 --model RR_ft_group_20M_CB_marble_pass_A_asoc_contr --algo ppo --dialogue --save-interval 1 --log-interval 1 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-MarblePassACollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 --finetune-train storage/02-01_RR_group_CB_marble_pass_asoc_contr # finetune - 50M # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 500000 --model RR_ft_group_50M_CB_marble_pass_A_soc_exp --algo ppo --dialogue --save-interval 1 --log-interval 1 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-MarblePassACollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 --finetune-train storage/03-01_RR_group_CB_marble_pass_B_exp # --slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 500000 --model RR_ft_group_50M_CB_marble_pass_A_asoc_contr --algo ppo --dialogue --save-interval 1 --log-interval 1 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-MarblePassACollaborationParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 --finetune-train storage/03-01_RR_group_CB_marble_pass_asoc_contr ################## ## Adversarial type - AppleStealing ################## # --slurm_conf jz_short_gpu_chained_a100_4h --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 2000000 --model Adversarial_2M_PPO_CB --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AppleStealingObst_NoParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 # --slurm_conf jz_short_gpu_chained_a100_4h --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 2000000 --model Adversarial_2M_PPO_CB_hidden_npc --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AppleStealingObst_NoParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 --env-args hidden_npc True # --slurm_conf jz_short_gpu_chained_a100_4h --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 2000000 --model Adversarial_2M_PPO_CB_asoc --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AsocialAppleStealingObst_NoParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 ################## # Adversarial type - AppleStealing - more stumps ################## # --slurm_conf jz_short_gpu_chained_a100_4h --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 5000000 --model Adversarial_5M_Stumps_PPO_CB --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AppleStealingObst_MediumParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 # --slurm_conf jz_short_gpu_chained_a100_4h --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 5000000 --model Adversarial_5M_Stumps_PPO_CB_hidden_npc --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AppleStealingObst_MediumParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 --env-args hidden_npc True # --slurm_conf jz_short_gpu_chained_a100_4h --nb_seeds 8 --cpu_cores_per_seed 80 --gpus_per_seed 1 --seeds_per_launch 1 --frames 5000000 --model Adversarial_5M_Stumps_PPO_CB_asoc --algo ppo --dialogue --save-interval 10 --log-interval 10 --test-interval 0 --frames-per-proc 40 --multi-modal-babyai11-agent --env SocialAI-AsocialAppleStealingObst_MediumParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 1e-4 --entropy-coef 0.00001 --test-set-name RoleReversalTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus --exploration-bonus-type cell --exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6