SocialAISchool / run_test_rnd_ride.txt
grg's picture
Cleaned old git history
be5548b
raw
history blame
No virus
11.2 kB
## squeue -u utu57ed -i 1 -o "%.18i %.9P %.130j %.8u %.2t %.10M %.6D %R"
##
### RND
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_rnd_mask --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd
### Basic
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_raw --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-rnd-reference
### RIDE
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N2-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N4-S5-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-MultiRoomNoisyTV-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model test_ride --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --custom-ppo-ride-reference --exploration-bonus --exploration-bonus-type ride
#
# old
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model ref_rnd --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --*custom-ppo-rnd --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model ref_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --*custom-ppo-ride --exploration-bonus --exploration-bonus-type ride
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model kc_ref_rnd --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --*custom-ppo-rnd --exploration-bonus --exploration-bonus-type rnd
#--slurm_conf jz_medium_gpu --nb_seeds 8 --model kc_ref_ride --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --frames 50000000 --arch original_endpool_res --*custom-ppo-ride --exploration-bonus --exploration-bonus-type ride
# MultiRoom N7 S4
# with vs ride parametres
## memore and Ref model
## no
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_no --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference
## rnd
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_rnd --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
## ride
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_ref_ride --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
##
#
## with vs ride parametres: key corridor
## no
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_no --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference
## rnd
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_rnd --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
## ride
#--slurm_conf jz_short_gpu_chained --nb_seeds 8 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model new_kc_ref_ride --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
#
## conclution: it doesn't work with our params, we have to use reference params
## NOTE: also here recurrence was 1 because it's their envs, for our envs we have to change the recurrence
# testing
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_ref_rnd_agent --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_ref_rnd_preproc --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
# testing
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_kc_ref_ride_agent --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model testing_kc_ref_ride_preproc --ride-ref-preprocessor --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
# Ref model
# no
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_no --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference
# rnd
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_rnd --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
# ride
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_REF_ride --compact-save --algo ppo --*env MiniGrid-MultiRoom-N7-S4-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
##
#
## with vs ride parametres: key corridor
## no
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_no --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference
## rnd
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_rnd --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd
## ride
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_REF_ride --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride
## ride small reward
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_ref_ride_small_rew --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-ride-reference --exploration-bonus --*exploration-bonus-type ride --intrinsic-reward-coef 0.05
## rnd small reward
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 16 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 60000000 --model agent_kc_ref_rnd_small_rew --compact-save --algo ppo --*env MiniGrid-KeyCorridorS3R3-v0 --save-interval 10 --ride-ref-agent --*custom-ppo-rnd-reference --exploration-bonus --*exploration-bonus-type rnd --intrinsic-reward-coef 0.05