Upload folder using huggingface_hub

Files changed (8) hide show

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_0/checkpoints/checkpoints_1400.zip +3 -0
parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_0/config.yaml +26 -34
parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_0/epoch_results_1400_seed_0.pkl +3 -0
parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_0/optimal_results_seed_1400_0.pkl +3 -0
parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_1/config.yaml +26 -34
parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_2/config.yaml +26 -34
parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_3/config.yaml +26 -34
parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_97/config.yaml +26 -34

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_0/checkpoints/checkpoints_1400.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e174d3901f5508911e129b07501fb42e472ab95801d3bec9b3ccda0f5e0d2c26
+size 23670534

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_0/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ huggingface:
 synergymask: false
 sparsity_sampling: 10
 scheduler: null
-device: cpu
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
@@ -25,11 +25,11 @@ oinformation:
   layer: fc2_post
   njobs: 16
   layers:
-  - fc1_post
   train: true
   features_type:
   - train
-  max_batch_exhaustive: 3
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
@@ -37,7 +37,7 @@ train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
-  max_epochs: 900
   max_steps: 1000000
 regularization:
   weight_decay:
@@ -98,10 +98,11 @@ paths:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
-  plot_dir: ./plots/gridsearch
-  plot_dir_all: ./plots/gridsearch/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
   work_dir: ${hydra:runtime.cwd}
-experiment_name: gridsearch
 seeds:
 - 0
 - 1
@@ -110,45 +111,36 @@ seeds:
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
-train_seeds_parallel: true
-plots:
-  experiment1:
-    title:
-    - train.max_epochs
-    type: heatmap
-    x: dataset.train_samples
-    x_label: dataset size
-    y_label: learning rate
-    'y':
-    - test_acc
-    - synergy
-    - redundancy
 grid_search:
   dataset.train_samples:
     array:
     - 800
     - 1000
-    - 1200
-    - 1500
-    - 2000
-    - 3000
   train.lr:
     array:
     - 0.1
   train.train_batch_size:
     array:
     - 32
   dataset.parameters.n:
     array:
-    - 30
     - 40
-  model.parameters.layers.fc1:
-    array:
-    - 10
-    - 12
-    - 14
-    - 16
-    - 18
-    - 20
-    - 100
 experiment_oinfo_title: null

 synergymask: false
 sparsity_sampling: 10
 scheduler: null
+device: cuda
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
   layer: fc2_post
   njobs: 16
   layers:
+  - fc3_post
   train: true
   features_type:
   - train
+  max_batch_exhaustive: 10
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
+  max_epochs: 1400
   max_steps: 1000000
 regularization:
   weight_decay:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  plot_dir: ./plots/gridsearch_100
+  plot_dir_all: ./plots/gridsearch_100/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  run_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs
   work_dir: ${hydra:runtime.cwd}
+experiment_name: gridsearch_100
 seeds:
 - 0
 - 1
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
+train_seeds_parallel: false
 grid_search:
   dataset.train_samples:
     array:
+    - 500
+    - 600
     - 800
+    - 900
     - 1000
+    - 1100
+    name: train_samples
   train.lr:
     array:
+    - 0.05
     - 0.1
+    name: lr
   train.train_batch_size:
     array:
     - 32
+    - 64
+    - 128
+    name: train_bs
   dataset.parameters.n:
     array:
     - 40
+    - 50
+    name: 'n'
+plots:
+  training_heatmaps:
+    plot_1:
+    - dataset.train_samples
+    - train.train_batch_size
 experiment_oinfo_title: null

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_0/epoch_results_1400_seed_0.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1faf94efe8e1ac182cdd6e61fed6088c9e5b501815e27299bc6be37e037c2dee
+size 101686

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_0/optimal_results_seed_1400_0.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8498fd021a0ed5b5716b682b2575834da0cd3bb2366ff29bf3baceb24fb171c1
+size 98

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_1/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ huggingface:
 synergymask: false
 sparsity_sampling: 10
 scheduler: null
-device: cpu
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
@@ -25,11 +25,11 @@ oinformation:
   layer: fc2_post
   njobs: 16
   layers:
-  - fc1_post
   train: true
   features_type:
   - train
-  max_batch_exhaustive: 3
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
@@ -37,7 +37,7 @@ train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
-  max_epochs: 900
   max_steps: 1000000
 regularization:
   weight_decay:
@@ -98,10 +98,11 @@ paths:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
-  plot_dir: ./plots/gridsearch
-  plot_dir_all: ./plots/gridsearch/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
   work_dir: ${hydra:runtime.cwd}
-experiment_name: gridsearch
 seeds:
 - 0
 - 1
@@ -110,45 +111,36 @@ seeds:
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
-train_seeds_parallel: true
-plots:
-  experiment1:
-    title:
-    - train.max_epochs
-    type: heatmap
-    x: dataset.train_samples
-    x_label: dataset size
-    y_label: learning rate
-    'y':
-    - test_acc
-    - synergy
-    - redundancy
 grid_search:
   dataset.train_samples:
     array:
     - 800
     - 1000
-    - 1200
-    - 1500
-    - 2000
-    - 3000
   train.lr:
     array:
     - 0.1
   train.train_batch_size:
     array:
     - 32
   dataset.parameters.n:
     array:
-    - 30
     - 40
-  model.parameters.layers.fc1:
-    array:
-    - 10
-    - 12
-    - 14
-    - 16
-    - 18
-    - 20
-    - 100
 experiment_oinfo_title: null

 synergymask: false
 sparsity_sampling: 10
 scheduler: null
+device: cuda
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
   layer: fc2_post
   njobs: 16
   layers:
+  - fc3_post
   train: true
   features_type:
   - train
+  max_batch_exhaustive: 10
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
+  max_epochs: 1400
   max_steps: 1000000
 regularization:
   weight_decay:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  plot_dir: ./plots/gridsearch_100
+  plot_dir_all: ./plots/gridsearch_100/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  run_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs
   work_dir: ${hydra:runtime.cwd}
+experiment_name: gridsearch_100
 seeds:
 - 0
 - 1
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
+train_seeds_parallel: false
 grid_search:
   dataset.train_samples:
     array:
+    - 500
+    - 600
     - 800
+    - 900
     - 1000
+    - 1100
+    name: train_samples
   train.lr:
     array:
+    - 0.05
     - 0.1
+    name: lr
   train.train_batch_size:
     array:
     - 32
+    - 64
+    - 128
+    name: train_bs
   dataset.parameters.n:
     array:
     - 40
+    - 50
+    name: 'n'
+plots:
+  training_heatmaps:
+    plot_1:
+    - dataset.train_samples
+    - train.train_batch_size
 experiment_oinfo_title: null

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_2/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ huggingface:
 synergymask: false
 sparsity_sampling: 10
 scheduler: null
-device: cpu
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
@@ -25,11 +25,11 @@ oinformation:
   layer: fc2_post
   njobs: 16
   layers:
-  - fc1_post
   train: true
   features_type:
   - train
-  max_batch_exhaustive: 3
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
@@ -37,7 +37,7 @@ train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
-  max_epochs: 900
   max_steps: 1000000
 regularization:
   weight_decay:
@@ -98,10 +98,11 @@ paths:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
-  plot_dir: ./plots/gridsearch
-  plot_dir_all: ./plots/gridsearch/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
   work_dir: ${hydra:runtime.cwd}
-experiment_name: gridsearch
 seeds:
 - 0
 - 1
@@ -110,45 +111,36 @@ seeds:
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
-train_seeds_parallel: true
-plots:
-  experiment1:
-    title:
-    - train.max_epochs
-    type: heatmap
-    x: dataset.train_samples
-    x_label: dataset size
-    y_label: learning rate
-    'y':
-    - test_acc
-    - synergy
-    - redundancy
 grid_search:
   dataset.train_samples:
     array:
     - 800
     - 1000
-    - 1200
-    - 1500
-    - 2000
-    - 3000
   train.lr:
     array:
     - 0.1
   train.train_batch_size:
     array:
     - 32
   dataset.parameters.n:
     array:
-    - 30
     - 40
-  model.parameters.layers.fc1:
-    array:
-    - 10
-    - 12
-    - 14
-    - 16
-    - 18
-    - 20
-    - 100
 experiment_oinfo_title: null

 synergymask: false
 sparsity_sampling: 10
 scheduler: null
+device: cuda
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
   layer: fc2_post
   njobs: 16
   layers:
+  - fc3_post
   train: true
   features_type:
   - train
+  max_batch_exhaustive: 10
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
+  max_epochs: 1400
   max_steps: 1000000
 regularization:
   weight_decay:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  plot_dir: ./plots/gridsearch_100
+  plot_dir_all: ./plots/gridsearch_100/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  run_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs
   work_dir: ${hydra:runtime.cwd}
+experiment_name: gridsearch_100
 seeds:
 - 0
 - 1
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
+train_seeds_parallel: false
 grid_search:
   dataset.train_samples:
     array:
+    - 500
+    - 600
     - 800
+    - 900
     - 1000
+    - 1100
+    name: train_samples
   train.lr:
     array:
+    - 0.05
     - 0.1
+    name: lr
   train.train_batch_size:
     array:
     - 32
+    - 64
+    - 128
+    name: train_bs
   dataset.parameters.n:
     array:
     - 40
+    - 50
+    name: 'n'
+plots:
+  training_heatmaps:
+    plot_1:
+    - dataset.train_samples
+    - train.train_batch_size
 experiment_oinfo_title: null

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_3/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ huggingface:
 synergymask: false
 sparsity_sampling: 10
 scheduler: null
-device: cpu
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
@@ -25,11 +25,11 @@ oinformation:
   layer: fc2_post
   njobs: 16
   layers:
-  - fc1_post
   train: true
   features_type:
   - train
-  max_batch_exhaustive: 3
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
@@ -37,7 +37,7 @@ train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
-  max_epochs: 900
   max_steps: 1000000
 regularization:
   weight_decay:
@@ -98,10 +98,11 @@ paths:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
-  plot_dir: ./plots/gridsearch
-  plot_dir_all: ./plots/gridsearch/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
   work_dir: ${hydra:runtime.cwd}
-experiment_name: gridsearch
 seeds:
 - 0
 - 1
@@ -110,45 +111,36 @@ seeds:
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
-train_seeds_parallel: true
-plots:
-  experiment1:
-    title:
-    - train.max_epochs
-    type: heatmap
-    x: dataset.train_samples
-    x_label: dataset size
-    y_label: learning rate
-    'y':
-    - test_acc
-    - synergy
-    - redundancy
 grid_search:
   dataset.train_samples:
     array:
     - 800
     - 1000
-    - 1200
-    - 1500
-    - 2000
-    - 3000
   train.lr:
     array:
     - 0.1
   train.train_batch_size:
     array:
     - 32
   dataset.parameters.n:
     array:
-    - 30
     - 40
-  model.parameters.layers.fc1:
-    array:
-    - 10
-    - 12
-    - 14
-    - 16
-    - 18
-    - 20
-    - 100
 experiment_oinfo_title: null

 synergymask: false
 sparsity_sampling: 10
 scheduler: null
+device: cuda
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
   layer: fc2_post
   njobs: 16
   layers:
+  - fc3_post
   train: true
   features_type:
   - train
+  max_batch_exhaustive: 10
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
+  max_epochs: 1400
   max_steps: 1000000
 regularization:
   weight_decay:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  plot_dir: ./plots/gridsearch_100
+  plot_dir_all: ./plots/gridsearch_100/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  run_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs
   work_dir: ${hydra:runtime.cwd}
+experiment_name: gridsearch_100
 seeds:
 - 0
 - 1
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
+train_seeds_parallel: false
 grid_search:
   dataset.train_samples:
     array:
+    - 500
+    - 600
     - 800
+    - 900
     - 1000
+    - 1100
+    name: train_samples
   train.lr:
     array:
+    - 0.05
     - 0.1
+    name: lr
   train.train_batch_size:
     array:
     - 32
+    - 64
+    - 128
+    name: train_bs
   dataset.parameters.n:
     array:
     - 40
+    - 50
+    name: 'n'
+plots:
+  training_heatmaps:
+    plot_1:
+    - dataset.train_samples
+    - train.train_batch_size
 experiment_oinfo_title: null

parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0/seed_97/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ huggingface:
 synergymask: false
 sparsity_sampling: 10
 scheduler: null
-device: cpu
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
@@ -25,11 +25,11 @@ oinformation:
   layer: fc2_post
   njobs: 16
   layers:
-  - fc1_post
   train: true
   features_type:
   - train
-  max_batch_exhaustive: 3
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
@@ -37,7 +37,7 @@ train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
-  max_epochs: 900
   max_steps: 1000000
 regularization:
   weight_decay:
@@ -98,10 +98,11 @@ paths:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
-  plot_dir: ./plots/gridsearch
-  plot_dir_all: ./plots/gridsearch/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
   work_dir: ${hydra:runtime.cwd}
-experiment_name: gridsearch
 seeds:
 - 0
 - 1
@@ -110,45 +111,36 @@ seeds:
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
-train_seeds_parallel: true
-plots:
-  experiment1:
-    title:
-    - train.max_epochs
-    type: heatmap
-    x: dataset.train_samples
-    x_label: dataset size
-    y_label: learning rate
-    'y':
-    - test_acc
-    - synergy
-    - redundancy
 grid_search:
   dataset.train_samples:
     array:
     - 800
     - 1000
-    - 1200
-    - 1500
-    - 2000
-    - 3000
   train.lr:
     array:
     - 0.1
   train.train_batch_size:
     array:
     - 32
   dataset.parameters.n:
     array:
-    - 30
     - 40
-  model.parameters.layers.fc1:
-    array:
-    - 10
-    - 12
-    - 14
-    - 16
-    - 18
-    - 20
-    - 100
 experiment_oinfo_title: null

 synergymask: false
 sparsity_sampling: 10
 scheduler: null
+device: cuda
 test_seed: 123
 evaluate_oinformation: false
 evaluate_sparsity: false
   layer: fc2_post
   njobs: 16
   layers:
+  - fc3_post
   train: true
   features_type:
   - train
+  max_batch_exhaustive: 10
 loss:
   _target_: model.neural_network.MyHingeLoss
 train:
   train_batch_size: 32
   num_workers: 6
   eval_batch_size: 32
+  max_epochs: 1400
   max_steps: 1000000
 regularization:
   weight_decay:
   data_dir: ${paths.root_dir}/data/
   log_dir: ${paths.root_dir}/runs/
   output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_1000_100/fcn_relu_100_0.00_default/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  plot_dir: ./plots/gridsearch_100
+  plot_dir_all: ./plots/gridsearch_100/all/fcn_relu/sgd_bs_32_lr_0.10/wd_0.01_do_0_no_bn_syn_0_no_ln_red_0
+  run_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs
   work_dir: ${hydra:runtime.cwd}
+experiment_name: gridsearch_100
 seeds:
 - 0
 - 1
 - 97
 evaluate_generalizing_models_only: false
 remove_files: true
+train_seeds_parallel: false
 grid_search:
   dataset.train_samples:
     array:
+    - 500
+    - 600
     - 800
+    - 900
     - 1000
+    - 1100
+    name: train_samples
   train.lr:
     array:
+    - 0.05
     - 0.1
+    name: lr
   train.train_batch_size:
     array:
     - 32
+    - 64
+    - 128
+    name: train_bs
   dataset.parameters.n:
     array:
     - 40
+    - 50
+    name: 'n'
+plots:
+  training_heatmaps:
+    plot_1:
+    - dataset.train_samples
+    - train.train_batch_size
 experiment_oinfo_title: null