Upload folder using huggingface_hub

Files changed (6) hide show

parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/checkpoints/checkpoints.zip +3 -0
parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/config.yaml +159 -0
parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/epoch_results_1400_seed_0.pkl +3 -0
parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/oinformation_results_train_1400.pkl +3 -0
parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/optimal_oinformation_results_train_1400.pkl +3 -0
parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/optimal_results_seed_1400_0.pkl +3 -0

parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/checkpoints/checkpoints.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:001efb9d382e2850237c54326bb0514a2a2960a668f4a972840262b899604342
+size 130

parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/config.yaml ADDED Viewed

	@@ -0,0 +1,159 @@

+seed: 0
+runs_folder: /media/god/Second/Runs
+train_type: batch
+huggingface:
+  repo_id: kclauw/grokking-oinformation
+synergymask: false
+sparsity_sampling: 10
+scheduler: null
+device: cpu
+test_seed: 123
+evaluate_oinformation: true
+evaluate_sparsity: false
+evaluate_norms: false
+evaluate_subnetworks: false
+evaluate_lottery_ticket: false
+create_grid_search_file: false
+create_plots: true
+store_local: true
+experiment_type: train_single
+unique_plot_path: fcn_tanh/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0
+store_on_scratch: true
+oinformation:
+  sampling_rate: 1
+  max_batch_greedy: 40
+  layer: fc2_post
+  njobs: 16
+  layers:
+  - fc3_post
+  train: true
+  features_type:
+  - train
+  max_batch_exhaustive: 3
+loss:
+  _target_: model.neural_network.MyHingeLoss
+train:
+  lr: 0.028999999999999998
+  train_batch_size: 32
+  num_workers: 6
+  eval_batch_size: 32
+  max_epochs: 1400
+  max_steps: 1000000
+regularization:
+  weight_decay:
+    name: wd
+    value: 0.0
+    type: null
+  dropout:
+    name: do
+    value: 0
+    type: dropout
+  batchnorm:
+    name: bn
+    value: false
+    type: batchnorm
+  oinfo_syn:
+    name: syn
+    value: 0
+    type: null
+  layernorm:
+    name: ln
+    value: false
+    type: layernorm
+  oinfo_red:
+    name: red
+    value: 0
+wandb:
+  enabled: false
+  project: grokking_replica
+unique_filename: parity_n_40_k_3_N_766_100#fcn_tanh_20_20_20_0.00_default#sgd_bs_32_lr_0.03#wd_0.00_do_0_no_bn_syn_0_no_ln_red_0
+regularization_name: null
+dataset:
+  train_samples: 766
+  test_samples: 100
+  parameters:
+    _target_: dataloaders.sparse_parity.parity
+    'n': 40
+    k: 3
+  name: parity_n_${dataset.parameters.n}_k_${dataset.parameters.k}_N_${dataset.train_samples}_${dataset.test_samples}
+model:
+  parameters:
+    _target_: src.model.neural_network.DynamicFFN
+    activation: tanh
+    initialization: default
+    layers:
+      fc1: 20
+      fc2: 20
+      fc3: 20
+    initialization_scale: 0.0
+    constrained_norm: false
+  name: fcn_${model.parameters.activation}
+  layer_names:
+  - fc1
+  - fc2
+  - fc3
+optimizer:
+  name: sgd
+  parameters:
+    _target_: torch.optim.SGD
+    weight_decay: ${regularization.weight_decay.value}
+paths:
+  root_dir: .
+  data_dir: ${paths.root_dir}/data/
+  log_dir: ${paths.root_dir}/runs/
+  output_dir: /kyukon/scratch/gent/433/vsc43397/oinformation-grokking/runs/parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0
+  plot_dir: ./plots/1_baseline_datasize_vs_lr_small_100_neurons_longer_activation
+  plot_dir_all: ./plots/1_baseline_datasize_vs_lr_small_100_neurons_longer_activation/all/fcn_tanh/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0
+  work_dir: ${hydra:runtime.cwd}
+experiment_name: 1_baseline_datasize_vs_lr_small_100_neurons_longer_activation
+seeds:
+- 0
+- 1
+- 2
+- 3
+- 97
+evaluate_generalizing_models_only: false
+remove_files: true
+plots:
+  experiment1:
+    title:
+    - train.max_epochs
+    type: heatmap
+    x: dataset.train_samples
+    x_label: dataset size
+    y_label: learning rate
+    'y':
+    - test_acc
+    - synergy
+    - redundancy
+grid_search:
+  model.parameters.activation:
+    array:
+    - hardswish
+    - relu
+    - elu
+    - prelu
+    - selu
+    - gelu
+    - celu
+    - hardshrink
+    - leaky
+    - rrelu
+    - tanhshrink
+    - hardsigmoid
+    - hardtanh
+    - tanh
+    - sigmoid
+    - softmax
+  train.lr:
+    min: 0.01
+    max: 0.2
+    num: 11
+    type: uniform
+  dataset.train_samples:
+    array:
+    - 766
+    - 877
+    - 988
+    - 1100
+experiment_oinfo_title: null

parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/epoch_results_1400_seed_0.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecbb3387759453910a52089ebd3240d8e976e642f6fbd92b3d7be60e633db95d
+size 124114

parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/oinformation_results_train_1400.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7227625abc8492146cf8f7b0044c8b9c8fad26c20cc57db765f4e29096d707ab
+size 6659004

parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/optimal_oinformation_results_train_1400.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c453f4c97f63a5dee119d89b80a2c9ae459f878313a2229492aa1b06831d3067
+size 707885

parity_n_40_k_3_N_766_100/fcn_tanh_20_20_20_0.00_default/sgd_bs_32_lr_0.03/wd_0.00_do_0_no_bn_syn_0_no_ln_red_0/seed_0/optimal_results_seed_1400_0.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e18f4dd1addb38b119023fb0a7edcd87538be8031a578b2e898d73dd9caa3da
+size 39