noanabeshima
/

tiny_model

Model card Files Files and versions Community

noanabeshima commited on Jul 9

Commit

b6cb583

•

1 Parent(s): 1bd4dad

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

transcoder/T0_S-1_R1_P0.pt +3 -0
transcoder/T0_S-1_R1_P0_config.json +38 -0
transcoder/T0_S-2_R1_P0.pt +3 -0
transcoder/T0_S-2_R1_P0_config.json +38 -0
transcoder/T0_S-3_R1_P0.pt +3 -0
transcoder/T0_S-3_R1_P0_config.json +38 -0
transcoder/T0_S-4_R1_P0.pt +3 -0
transcoder/T0_S-4_R1_P0_config.json +38 -0
transcoder/T0_S-5_R1_P0.pt +3 -0
transcoder/T0_S-5_R1_P0_config.json +38 -0
transcoder/T0_S-6_R1_P0.pt +3 -0
transcoder/T0_S-6_R1_P0_config.json +38 -0
transcoder/T0_S-8_R1_P0.pt +3 -0
transcoder/T0_S-8_R1_P0_config.json +38 -0
transcoder/T0_S0_R1_P0.pt +3 -0
transcoder/T0_S0_R1_P0_config.json +38 -0
transcoder/T1_S-1_R1_P0.pt +3 -0
transcoder/T1_S-1_R1_P0_config.json +38 -0
transcoder/T1_S-2_R1_P0.pt +3 -0
transcoder/T1_S-2_R1_P0_config.json +38 -0
transcoder/T1_S-3_R1_P0.pt +3 -0
transcoder/T1_S-3_R1_P0_config.json +38 -0
transcoder/T1_S-4_R1_P0.pt +3 -0
transcoder/T1_S-4_R1_P0_config.json +38 -0
transcoder/T1_S-5_R1_P0.pt +3 -0
transcoder/T1_S-5_R1_P0_config.json +38 -0
transcoder/T1_S-6_R1_P0.pt +3 -0
transcoder/T1_S-6_R1_P0_config.json +38 -0
transcoder/T1_S0_R1_P0.pt +3 -0
transcoder/T1_S0_R1_P0_config.json +38 -0
transcoder/T2_S-1_R1_P0.pt +3 -0
transcoder/T2_S-1_R1_P0_config.json +38 -0
transcoder/T2_S-2_R1_P0.pt +3 -0
transcoder/T2_S-2_R1_P0_config.json +38 -0
transcoder/T2_S-3_R1_P0.pt +3 -0
transcoder/T2_S-3_R1_P0_config.json +38 -0
transcoder/T2_S-4_R1_P0.pt +3 -0
transcoder/T2_S-4_R1_P0_config.json +38 -0
transcoder/T2_S-5_R1_P0.pt +3 -0
transcoder/T2_S-5_R1_P0_config.json +38 -0
transcoder/T2_S-6_R1_P0.pt +3 -0
transcoder/T2_S-6_R1_P0_config.json +38 -0
transcoder/T2_S-8_R1_P0.pt +3 -0
transcoder/T2_S-8_R1_P0_config.json +38 -0
transcoder/T2_S0_R1_P0.pt +3 -0
transcoder/T2_S0_R1_P0_config.json +38 -0
transcoder/T3_S-1_R1_P0.pt +3 -0
transcoder/T3_S-1_R1_P0_config.json +38 -0
transcoder/T3_S-2_R1_P0.pt +3 -0
transcoder/T3_S-2_R1_P0_config.json +38 -0

transcoder/T0_S-1_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66858ff63daec87bea9857e71c92e8c6d9552ce9c6731757a1c0a1d3ea70998d
+size 153705080

transcoder/T0_S-1_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -1,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M0_S-1_R1_P0"
+}

transcoder/T0_S-2_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0dfedcf4be35d1b44c3dbac89466a2c9dbec2f1b7cdbbbc297c975d57073fd6
+size 153705080

transcoder/T0_S-2_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -2,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M0_S-2_R1_P0"
+}

transcoder/T0_S-3_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:195a6971c8889da0912b9997f783a789e5ce87984dac0d2a7cb2d7b35ac8047e
+size 153705080

transcoder/T0_S-3_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -3,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M0_S-3_R1_P0"
+}

transcoder/T0_S-4_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9efbe08eb25cd2666f7207822974318176fe4ccd2fbdd9e5319adfc17519f496
+size 153705080

transcoder/T0_S-4_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -4,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M0_S-4_R1_P0"
+}

transcoder/T0_S-5_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8efa46999986a8ed7a561c74ca0acdc6019b73963a1795823d7869264f07964d
+size 153705080

transcoder/T0_S-5_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -5,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M0_S-5_R1_P0"
+}

transcoder/T0_S-6_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a763ed8e7d9728d6bf2ba5f48c677663eda1aee0ca1175d3d493d3db689b5f6
+size 153705080

transcoder/T0_S-6_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -6,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M0_S-6_R1_P0"
+}

transcoder/T0_S-8_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ea3673ef5475aaa29ebfbe4ffc567a0e4e02210e57f54c8c533c8a58f2aba34
+size 153705080

transcoder/T0_S-8_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -8,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M0_S-8_R1_P0"
+}

transcoder/T0_S0_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96de880e9cdb53b3a3e906cb7668b4919c3e9f7aca8b70e73f4f2c47b1a1bb60
+size 153705072

transcoder/T0_S0_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": 0,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M0_S0_R1_P0"
+}

transcoder/T1_S-1_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:923f248312ed5dbda72f0fa8f04a849a6e53aa3f5d0fa1d1ceda644f1a7c4717
+size 153705080

transcoder/T1_S-1_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -1,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M1_S-1_R1_P0"
+}

transcoder/T1_S-2_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0497a41e4b896bd13be23befb53789323358189c10a3e342147f9a82e7a94ca9
+size 153705080

transcoder/T1_S-2_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -2,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M1_S-2_R1_P0"
+}

transcoder/T1_S-3_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52798c267acaf04f8ee4346cdd7865e178614cb43cd3d062d549949f47bd0f3e
+size 153705080

transcoder/T1_S-3_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -3,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M1_S-3_R1_P0"
+}

transcoder/T1_S-4_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ca8d3112dc82cdca7fdc2ce5d058afc22e1cec117c0de3ec061e100b2afa8da
+size 153705080

transcoder/T1_S-4_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -4,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M1_S-4_R1_P0"
+}

transcoder/T1_S-5_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93500ea0409d5b3d6dd5bc03e3cc812c136a87516ea3e9a16058454ba0c0e88f
+size 153705080

transcoder/T1_S-5_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -5,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M1_S-5_R1_P0"
+}

transcoder/T1_S-6_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:729c1ee01a36e69f7aaad847837e7134b157188f882529ffdbbd2486c6438b2f
+size 153705080

transcoder/T1_S-6_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -6,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M1_S-6_R1_P0"
+}

transcoder/T1_S0_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1f097e45bd999c7199911199e40be6f954d29bd25a94d4437bb555ab04b4561
+size 153705072

transcoder/T1_S0_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": 0,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M1_S0_R1_P0"
+}

transcoder/T2_S-1_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:770c41ccb13f03301332d27b886975e4d92d5e2bb1599d0aa8325f0a16c17905
+size 153705080

transcoder/T2_S-1_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -1,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M2_S-1_R1_P0"
+}

transcoder/T2_S-2_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c739e3b372bc2d7eeec1d136c43324e79836bd87b5ae72b83adba6faec0a363
+size 153705080

transcoder/T2_S-2_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -2,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M2_S-2_R1_P0"
+}

transcoder/T2_S-3_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea6f86cb420033cdfbdfd8ec33518305fa7b415b89fa7c0f9b5c6a04891caf44
+size 153705080

transcoder/T2_S-3_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -3,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M2_S-3_R1_P0"
+}

transcoder/T2_S-4_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d718ab852d85f1e221ed43d7f0859307cb8c3ef1ac9d334f677b8d7f7bf7f233
+size 153705080

transcoder/T2_S-4_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -4,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M2_S-4_R1_P0"
+}

transcoder/T2_S-5_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbea78a42e417b7bbc6571641dab05735c6be4ed588c17e369f6462040d11d3b
+size 153705080

transcoder/T2_S-5_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -5,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M2_S-5_R1_P0"
+}

transcoder/T2_S-6_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77229011a320dd8f990ce1bcd81b2a3227287f78f250c2c89b2e2dafbe9ca249
+size 153705080

transcoder/T2_S-6_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -6,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M2_S-6_R1_P0"
+}

transcoder/T2_S-8_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76d8158a249dedcc50b2e714edf48d2372cb91a4c79be6fa726c5f2d793e5d5a
+size 153705080

transcoder/T2_S-8_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -8,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M2_S-8_R1_P0"
+}

transcoder/T2_S0_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39bd095230c89baac55502b0aa0c95d1d89432a20c58c847387bf08536b363c7
+size 153705072

transcoder/T2_S0_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": 0,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M2_S0_R1_P0"
+}

transcoder/T3_S-1_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e40312c27b9e817fa4881f542d0e2545df0768df4fab1e27803713d61e78d5df
+size 153705080

transcoder/T3_S-1_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 3,
+  "l1_exp": -1,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M3_S-1_R1_P0"
+}

transcoder/T3_S-2_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15b24e29464fd7da37c9ecccbd611e07a5233f01402a7f643bc5012885cce70a
+size 153705080

transcoder/T3_S-2_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "mlp_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 3,
+  "l1_exp": -2,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "y",
+  "sparse_adam": false,
+  "run_template": "M{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "mlp_map_test",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "mlp_map",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "M3_S-2_R1_P0"
+}