Spaces:

flowers-team
/

SocialAISchool

Sleeping

App Files Files Community

SocialAISchool / run_soc_inf_gs.txt

grg

Cleaned old git history

be5548b 12 months ago

raw

history blame

46.8 kB

	# soc inf
	#--slurm_conf jz_long_2gpus --nb_seeds 4 --model Social_influence_experiments --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --env SocialAI-DummyParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards
	#--slurm_conf jz_long_2gpus --nb_seeds 4 --model Social_influence_experiments --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --env SocialAI-DummyParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 10 0.5 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 0.1 --optim-eps 1e-05 --epochs 4 --lr 0.0001

	# no bonus
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --lr 0.0001

	# grid search

	# loss coef = 0.1

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	## loss coef = 1

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	## loss coef = 10

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	# loss coef = 100
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	# soc inf
	#--slurm_conf jz_long_2gpus --nb_seeds 4 --model Social_influence_experiments --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --env SocialAI-DummyParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards
	#--slurm_conf jz_long_2gpus --nb_seeds 4 --model Social_influence_experiments --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --multi-modal-babyai11-agent --arch original_endpool_res --ppo-hp-tuning --env SocialAI-DummyParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 10 0.5 --clip-eps 0.2 --recurrence 10 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 0.1 --optim-eps 1e-05 --epochs 4 --lr 0.0001

	# no bonus
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search_no_bonus --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --optim-eps 1e-05 --epochs 4 --lr 0.0001

	# grid search

	# loss coef = 0.1

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 0.1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	## loss coef = 1

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 5 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 1 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	## loss coef = 10

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 10 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	# loss coef = 100
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 10 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 100 --optim-eps 1e-05 --epochs 4 --*lr 0.0001

	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.01
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.001
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0005
	--slurm_conf jz_super_short_gpu --nb_seeds 4 --model Social_influence_Boxes_Pointing_grid_search --algo ppo -cs --frames 100000000 --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-EyeContactBoxes2PointingInformationSeekingParamEnv-v1 --exploration-bonus --exploration-bonus-type soc_inf --clipped-rewards --entropy-coef 0.01 --optim-eps 1e-5 --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --intrinsic-reward-loss-coef 100 --intrinsic-reward-coef 1000 --optim-eps 1e-05 --epochs 4 --*lr 0.0001