colerobertson commited on Mar 3

Commit

d89240d

•

1 Parent(s): 3369a48

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-0/checkpoint-144/config.json +80 -0
run-0/checkpoint-144/model.safetensors +3 -0
run-0/checkpoint-144/optimizer.pt +3 -0
run-0/checkpoint-144/preprocessor_config.json +9 -0
run-0/checkpoint-144/rng_state.pth +3 -0
run-0/checkpoint-144/scheduler.pt +3 -0
run-0/checkpoint-144/trainer_state.json +247 -0
run-0/checkpoint-144/training_args.bin +3 -0
run-0/checkpoint-192/config.json +80 -0
run-0/checkpoint-192/model.safetensors +3 -0
run-0/checkpoint-192/optimizer.pt +3 -0
run-0/checkpoint-192/preprocessor_config.json +9 -0
run-0/checkpoint-192/rng_state.pth +3 -0
run-0/checkpoint-192/scheduler.pt +3 -0
run-0/checkpoint-192/trainer_state.json +326 -0
run-0/checkpoint-192/training_args.bin +3 -0
run-0/checkpoint-240/config.json +80 -0
run-0/checkpoint-240/model.safetensors +3 -0
run-0/checkpoint-240/optimizer.pt +3 -0
run-0/checkpoint-240/preprocessor_config.json +9 -0
run-0/checkpoint-240/rng_state.pth +3 -0
run-0/checkpoint-240/scheduler.pt +3 -0
run-0/checkpoint-240/trainer_state.json +405 -0
run-0/checkpoint-240/training_args.bin +3 -0
run-0/checkpoint-288/config.json +80 -0
run-0/checkpoint-288/model.safetensors +3 -0
run-0/checkpoint-288/optimizer.pt +3 -0
run-0/checkpoint-288/preprocessor_config.json +9 -0
run-0/checkpoint-288/rng_state.pth +3 -0
run-0/checkpoint-288/scheduler.pt +3 -0
run-0/checkpoint-288/trainer_state.json +477 -0
run-0/checkpoint-288/training_args.bin +3 -0
run-0/checkpoint-336/config.json +80 -0
run-0/checkpoint-336/model.safetensors +3 -0
run-0/checkpoint-336/optimizer.pt +3 -0
run-0/checkpoint-336/preprocessor_config.json +9 -0
run-0/checkpoint-336/rng_state.pth +3 -0
run-0/checkpoint-336/scheduler.pt +3 -0
run-0/checkpoint-336/trainer_state.json +556 -0
run-0/checkpoint-336/training_args.bin +3 -0
run-0/checkpoint-384/config.json +80 -0
run-0/checkpoint-384/model.safetensors +3 -0
run-0/checkpoint-384/optimizer.pt +3 -0
run-0/checkpoint-384/preprocessor_config.json +9 -0
run-0/checkpoint-384/rng_state.pth +3 -0
run-0/checkpoint-384/scheduler.pt +3 -0
run-0/checkpoint-384/trainer_state.json +628 -0
run-0/checkpoint-384/training_args.bin +3 -0
run-0/checkpoint-432/config.json +80 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:217f7edb6688a569bb52663d265ca3a8d89c0ec31c358861da469fe433c133a9
 size 94763496

 version https://git-lfs.github.com/spec/v1
+oid sha256:42d09eafd2930cae4b789dc9b1dd21dab399f3369a7f7dab6297bd28e15031d7
 size 94763496

run-0/checkpoint-144/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-144/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbd249682f247d9175e94df5795ecb65a897def6f9bff4b424a8e531ea8cf115
+size 94763496

run-0/checkpoint-144/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c6c6835b482b755ceac7aadfc71bf8e03ec03e36687c526b6537d3b7c5682d2
+size 189552570

run-0/checkpoint-144/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-144/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87b8bdd7b4355fd23f0b8256efb0158e4240e11263e992a13d50944c37692500
+size 14244

run-0/checkpoint-144/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f90516656a2816df31c7f558bfa8502c55f64cbf50846da7ef147552dd20ea1
+size 1064

run-0/checkpoint-144/trainer_state.json ADDED Viewed

	@@ -0,0 +1,247 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-48",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 144,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2701194286346436,
+      "learning_rate": 1.7573936619349767e-06,
+      "loss": 0.7024,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.218135952949524,
+      "learning_rate": 3.5147873238699533e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.5910921096801758,
+      "learning_rate": 5.2721809858049295e-06,
+      "loss": 0.6916,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.0592715740203857,
+      "learning_rate": 7.029574647739907e-06,
+      "loss": 0.6854,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.132177472114563,
+      "learning_rate": 8.786968309674883e-06,
+      "loss": 0.6719,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.9851714372634888,
+      "learning_rate": 1.0544361971609859e-05,
+      "loss": 0.6633,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.5592440366744995,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.6288,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.8793619871139526,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.6561,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.987308382987976,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.6343,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6868629455566406,
+      "eval_runtime": 1.3443,
+      "eval_samples_per_second": 47.609,
+      "eval_steps_per_second": 5.951,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 3.1652989387512207,
+      "learning_rate": 1.6792872769600888e-05,
+      "loss": 0.6712,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.9990371465682983,
+      "learning_rate": 1.6597606807163667e-05,
+      "loss": 0.6657,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.8210965394973755,
+      "learning_rate": 1.640234084472645e-05,
+      "loss": 0.476,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.5364782810211182,
+      "learning_rate": 1.6207074882289228e-05,
+      "loss": 0.5768,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.6772537231445312,
+      "learning_rate": 1.6011808919852007e-05,
+      "loss": 0.5039,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.0453933477401733,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.7182,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.621067762374878,
+      "learning_rate": 1.562127699497757e-05,
+      "loss": 0.6178,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 1.7878597974777222,
+      "learning_rate": 1.542601103254035e-05,
+      "loss": 0.6192,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6824157238006592,
+      "learning_rate": 1.5230745070103131e-05,
+      "loss": 0.6109,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 0.7989784479141235,
+      "learning_rate": 1.5035479107665912e-05,
+      "loss": 0.6367,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7258987426757812,
+      "eval_runtime": 1.3947,
+      "eval_samples_per_second": 45.888,
+      "eval_steps_per_second": 5.736,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.6805263757705688,
+      "learning_rate": 1.484021314522869e-05,
+      "loss": 0.6271,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 0.6469630002975464,
+      "learning_rate": 1.4644947182791471e-05,
+      "loss": 0.5085,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9272030591964722,
+      "learning_rate": 1.4449681220354252e-05,
+      "loss": 0.6377,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7515610456466675,
+      "learning_rate": 1.4254415257917033e-05,
+      "loss": 0.655,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1927835941314697,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.5797,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.0289098024368286,
+      "learning_rate": 1.3863883333042594e-05,
+      "loss": 0.5291,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.7173566818237305,
+      "learning_rate": 1.3668617370605374e-05,
+      "loss": 0.6829,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.8574482202529907,
+      "learning_rate": 1.3473351408168155e-05,
+      "loss": 0.4509,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1971725225448608,
+      "learning_rate": 1.3278085445730936e-05,
+      "loss": 0.4369,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7368831634521484,
+      "eval_runtime": 1.4074,
+      "eval_samples_per_second": 45.475,
+      "eval_steps_per_second": 5.684,
+      "step": 144
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2121874430755872.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6870979154575775e-05,
+    "per_device_train_batch_size": 4
+  }
+}

run-0/checkpoint-144/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd3adcce4c12e301b4690ffc59bfab1ebdfc4aeec76c20952369aa2f6c1a91a7
+size 4920

run-0/checkpoint-192/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-192/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:494e7b76fd86f833ac7eb4b7796007e351e6e6040f334df059c0418338596b5a
+size 94763496

run-0/checkpoint-192/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a5599fafb75801fd64d03f7ab6e4a17c3ab76bd34b2b6b0afbe62f56d37cdd1
+size 189552570

run-0/checkpoint-192/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-192/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5aef020ca2df517540ac9ff4e195e1c41a7b85939e93195d118078f119bc949
+size 14244

run-0/checkpoint-192/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3507798446b60ba34521f29ffbf6b83b03e0559fc04f5721956c76f3783718af
+size 1064

run-0/checkpoint-192/trainer_state.json ADDED Viewed

	@@ -0,0 +1,326 @@

+{
+  "best_metric": 0.74,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-192",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 192,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2701194286346436,
+      "learning_rate": 1.7573936619349767e-06,
+      "loss": 0.7024,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.218135952949524,
+      "learning_rate": 3.5147873238699533e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.5910921096801758,
+      "learning_rate": 5.2721809858049295e-06,
+      "loss": 0.6916,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.0592715740203857,
+      "learning_rate": 7.029574647739907e-06,
+      "loss": 0.6854,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.132177472114563,
+      "learning_rate": 8.786968309674883e-06,
+      "loss": 0.6719,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.9851714372634888,
+      "learning_rate": 1.0544361971609859e-05,
+      "loss": 0.6633,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.5592440366744995,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.6288,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.8793619871139526,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.6561,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.987308382987976,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.6343,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6868629455566406,
+      "eval_runtime": 1.3443,
+      "eval_samples_per_second": 47.609,
+      "eval_steps_per_second": 5.951,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 3.1652989387512207,
+      "learning_rate": 1.6792872769600888e-05,
+      "loss": 0.6712,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.9990371465682983,
+      "learning_rate": 1.6597606807163667e-05,
+      "loss": 0.6657,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.8210965394973755,
+      "learning_rate": 1.640234084472645e-05,
+      "loss": 0.476,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.5364782810211182,
+      "learning_rate": 1.6207074882289228e-05,
+      "loss": 0.5768,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.6772537231445312,
+      "learning_rate": 1.6011808919852007e-05,
+      "loss": 0.5039,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.0453933477401733,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.7182,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.621067762374878,
+      "learning_rate": 1.562127699497757e-05,
+      "loss": 0.6178,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 1.7878597974777222,
+      "learning_rate": 1.542601103254035e-05,
+      "loss": 0.6192,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6824157238006592,
+      "learning_rate": 1.5230745070103131e-05,
+      "loss": 0.6109,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 0.7989784479141235,
+      "learning_rate": 1.5035479107665912e-05,
+      "loss": 0.6367,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7258987426757812,
+      "eval_runtime": 1.3947,
+      "eval_samples_per_second": 45.888,
+      "eval_steps_per_second": 5.736,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.6805263757705688,
+      "learning_rate": 1.484021314522869e-05,
+      "loss": 0.6271,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 0.6469630002975464,
+      "learning_rate": 1.4644947182791471e-05,
+      "loss": 0.5085,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9272030591964722,
+      "learning_rate": 1.4449681220354252e-05,
+      "loss": 0.6377,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7515610456466675,
+      "learning_rate": 1.4254415257917033e-05,
+      "loss": 0.655,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1927835941314697,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.5797,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.0289098024368286,
+      "learning_rate": 1.3863883333042594e-05,
+      "loss": 0.5291,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.7173566818237305,
+      "learning_rate": 1.3668617370605374e-05,
+      "loss": 0.6829,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.8574482202529907,
+      "learning_rate": 1.3473351408168155e-05,
+      "loss": 0.4509,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1971725225448608,
+      "learning_rate": 1.3278085445730936e-05,
+      "loss": 0.4369,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7368831634521484,
+      "eval_runtime": 1.4074,
+      "eval_samples_per_second": 45.475,
+      "eval_steps_per_second": 5.684,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 2.6530747413635254,
+      "learning_rate": 1.3082819483293713e-05,
+      "loss": 0.6167,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 2.0653493404388428,
+      "learning_rate": 1.2887553520856493e-05,
+      "loss": 0.5266,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 1.5351653099060059,
+      "learning_rate": 1.2692287558419274e-05,
+      "loss": 0.5224,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 1.5351920127868652,
+      "learning_rate": 1.2497021595982055e-05,
+      "loss": 0.622,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 1.5447399616241455,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.4725,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 4.063059329986572,
+      "learning_rate": 1.2106489671107616e-05,
+      "loss": 0.4089,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 2.517096519470215,
+      "learning_rate": 1.1911223708670397e-05,
+      "loss": 0.579,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 2.847086191177368,
+      "learning_rate": 1.1755010938720622e-05,
+      "loss": 0.4687,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 1.7841814756393433,
+      "learning_rate": 1.1559744976283403e-05,
+      "loss": 0.4846,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 3.5284550189971924,
+      "learning_rate": 1.1364479013846184e-05,
+      "loss": 0.5628,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.74,
+      "eval_loss": 0.6948537826538086,
+      "eval_runtime": 1.3673,
+      "eval_samples_per_second": 46.807,
+      "eval_steps_per_second": 5.851,
+      "step": 192
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2891755054954176.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6870979154575775e-05,
+    "per_device_train_batch_size": 4
+  }
+}

run-0/checkpoint-192/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd3adcce4c12e301b4690ffc59bfab1ebdfc4aeec76c20952369aa2f6c1a91a7
+size 4920

run-0/checkpoint-240/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-240/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2f5a0d44ac15e10163d55c6da6d4c66a9d4d22cf684b03b50ef9957fc6bf783
+size 94763496

run-0/checkpoint-240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a31269492b9e77b7194c4eaa9c9069709ebad096d6bb21d7b64952397ffabbe
+size 189552570

run-0/checkpoint-240/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8eb071c49709b6f4047e7f48105f0dd51daaf73e0a11fd742255aa4c3526f42
+size 14244

run-0/checkpoint-240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45c27d79369faa613fdab2b285fce73b5cc1b4f5e1086859a8482102877cc85d
+size 1064

run-0/checkpoint-240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,405 @@

+{
+  "best_metric": 0.7551020408163265,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-240",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 240,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2701194286346436,
+      "learning_rate": 1.7573936619349767e-06,
+      "loss": 0.7024,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.218135952949524,
+      "learning_rate": 3.5147873238699533e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.5910921096801758,
+      "learning_rate": 5.2721809858049295e-06,
+      "loss": 0.6916,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.0592715740203857,
+      "learning_rate": 7.029574647739907e-06,
+      "loss": 0.6854,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.132177472114563,
+      "learning_rate": 8.786968309674883e-06,
+      "loss": 0.6719,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.9851714372634888,
+      "learning_rate": 1.0544361971609859e-05,
+      "loss": 0.6633,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.5592440366744995,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.6288,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.8793619871139526,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.6561,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.987308382987976,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.6343,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6868629455566406,
+      "eval_runtime": 1.3443,
+      "eval_samples_per_second": 47.609,
+      "eval_steps_per_second": 5.951,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 3.1652989387512207,
+      "learning_rate": 1.6792872769600888e-05,
+      "loss": 0.6712,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.9990371465682983,
+      "learning_rate": 1.6597606807163667e-05,
+      "loss": 0.6657,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.8210965394973755,
+      "learning_rate": 1.640234084472645e-05,
+      "loss": 0.476,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.5364782810211182,
+      "learning_rate": 1.6207074882289228e-05,
+      "loss": 0.5768,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.6772537231445312,
+      "learning_rate": 1.6011808919852007e-05,
+      "loss": 0.5039,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.0453933477401733,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.7182,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.621067762374878,
+      "learning_rate": 1.562127699497757e-05,
+      "loss": 0.6178,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 1.7878597974777222,
+      "learning_rate": 1.542601103254035e-05,
+      "loss": 0.6192,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6824157238006592,
+      "learning_rate": 1.5230745070103131e-05,
+      "loss": 0.6109,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 0.7989784479141235,
+      "learning_rate": 1.5035479107665912e-05,
+      "loss": 0.6367,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7258987426757812,
+      "eval_runtime": 1.3947,
+      "eval_samples_per_second": 45.888,
+      "eval_steps_per_second": 5.736,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.6805263757705688,
+      "learning_rate": 1.484021314522869e-05,
+      "loss": 0.6271,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 0.6469630002975464,
+      "learning_rate": 1.4644947182791471e-05,
+      "loss": 0.5085,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9272030591964722,
+      "learning_rate": 1.4449681220354252e-05,
+      "loss": 0.6377,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7515610456466675,
+      "learning_rate": 1.4254415257917033e-05,
+      "loss": 0.655,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1927835941314697,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.5797,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.0289098024368286,
+      "learning_rate": 1.3863883333042594e-05,
+      "loss": 0.5291,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.7173566818237305,
+      "learning_rate": 1.3668617370605374e-05,
+      "loss": 0.6829,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.8574482202529907,
+      "learning_rate": 1.3473351408168155e-05,
+      "loss": 0.4509,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1971725225448608,
+      "learning_rate": 1.3278085445730936e-05,
+      "loss": 0.4369,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7368831634521484,
+      "eval_runtime": 1.4074,
+      "eval_samples_per_second": 45.475,
+      "eval_steps_per_second": 5.684,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 2.6530747413635254,
+      "learning_rate": 1.3082819483293713e-05,
+      "loss": 0.6167,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 2.0653493404388428,
+      "learning_rate": 1.2887553520856493e-05,
+      "loss": 0.5266,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 1.5351653099060059,
+      "learning_rate": 1.2692287558419274e-05,
+      "loss": 0.5224,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 1.5351920127868652,
+      "learning_rate": 1.2497021595982055e-05,
+      "loss": 0.622,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 1.5447399616241455,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.4725,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 4.063059329986572,
+      "learning_rate": 1.2106489671107616e-05,
+      "loss": 0.4089,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 2.517096519470215,
+      "learning_rate": 1.1911223708670397e-05,
+      "loss": 0.579,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 2.847086191177368,
+      "learning_rate": 1.1755010938720622e-05,
+      "loss": 0.4687,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 1.7841814756393433,
+      "learning_rate": 1.1559744976283403e-05,
+      "loss": 0.4846,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 3.5284550189971924,
+      "learning_rate": 1.1364479013846184e-05,
+      "loss": 0.5628,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.74,
+      "eval_loss": 0.6948537826538086,
+      "eval_runtime": 1.3673,
+      "eval_samples_per_second": 46.807,
+      "eval_steps_per_second": 5.851,
+      "step": 192
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 1.6642357110977173,
+      "learning_rate": 1.1169213051408962e-05,
+      "loss": 0.5529,
+      "step": 195
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 3.0695078372955322,
+      "learning_rate": 1.0973947088971741e-05,
+      "loss": 0.3534,
+      "step": 200
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 2.5939130783081055,
+      "learning_rate": 1.0778681126534522e-05,
+      "loss": 0.4534,
+      "step": 205
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 9.777613639831543,
+      "learning_rate": 1.0583415164097303e-05,
+      "loss": 0.5345,
+      "step": 210
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 4.490750312805176,
+      "learning_rate": 1.0388149201660083e-05,
+      "loss": 0.4854,
+      "step": 215
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 3.7475597858428955,
+      "learning_rate": 1.0192883239222864e-05,
+      "loss": 0.4174,
+      "step": 220
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 1.7532075643539429,
+      "learning_rate": 9.997617276785644e-06,
+      "loss": 0.4379,
+      "step": 225
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.4538604021072388,
+      "learning_rate": 9.802351314348425e-06,
+      "loss": 0.3269,
+      "step": 230
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 3.058314085006714,
+      "learning_rate": 9.607085351911206e-06,
+      "loss": 0.3553,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 5.367821216583252,
+      "learning_rate": 9.45087258196143e-06,
+      "loss": 0.4753,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7551020408163265,
+      "eval_loss": 0.7308206558227539,
+      "eval_runtime": 1.3546,
+      "eval_samples_per_second": 47.246,
+      "eval_steps_per_second": 5.906,
+      "step": 240
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 3654362860415712.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6870979154575775e-05,
+    "per_device_train_batch_size": 4
+  }
+}

run-0/checkpoint-240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd3adcce4c12e301b4690ffc59bfab1ebdfc4aeec76c20952369aa2f6c1a91a7
+size 4920

run-0/checkpoint-288/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-288/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd92ffe27fe5c27bb997309c72b306c63a4a60fce68074ddc6c24650c0091ebc
+size 94763496

run-0/checkpoint-288/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adc9d8d06d58ee532c0027ebafbd4db55eceece415615ab965aad2b7bfd72538
+size 189552570

run-0/checkpoint-288/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-288/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9903236b654011babeaee26ea70e1c6278fa670549b900c6df1d64732428a642
+size 14244

run-0/checkpoint-288/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32c65caf188260d9f32d1c3709b7f2af991b3129c506772b942a9fa90c297ddb
+size 1064

run-0/checkpoint-288/trainer_state.json ADDED Viewed

	@@ -0,0 +1,477 @@

+{
+  "best_metric": 0.7551020408163265,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-240",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 288,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2701194286346436,
+      "learning_rate": 1.7573936619349767e-06,
+      "loss": 0.7024,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.218135952949524,
+      "learning_rate": 3.5147873238699533e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.5910921096801758,
+      "learning_rate": 5.2721809858049295e-06,
+      "loss": 0.6916,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.0592715740203857,
+      "learning_rate": 7.029574647739907e-06,
+      "loss": 0.6854,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.132177472114563,
+      "learning_rate": 8.786968309674883e-06,
+      "loss": 0.6719,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.9851714372634888,
+      "learning_rate": 1.0544361971609859e-05,
+      "loss": 0.6633,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.5592440366744995,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.6288,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.8793619871139526,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.6561,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.987308382987976,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.6343,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6868629455566406,
+      "eval_runtime": 1.3443,
+      "eval_samples_per_second": 47.609,
+      "eval_steps_per_second": 5.951,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 3.1652989387512207,
+      "learning_rate": 1.6792872769600888e-05,
+      "loss": 0.6712,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.9990371465682983,
+      "learning_rate": 1.6597606807163667e-05,
+      "loss": 0.6657,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.8210965394973755,
+      "learning_rate": 1.640234084472645e-05,
+      "loss": 0.476,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.5364782810211182,
+      "learning_rate": 1.6207074882289228e-05,
+      "loss": 0.5768,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.6772537231445312,
+      "learning_rate": 1.6011808919852007e-05,
+      "loss": 0.5039,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.0453933477401733,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.7182,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.621067762374878,
+      "learning_rate": 1.562127699497757e-05,
+      "loss": 0.6178,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 1.7878597974777222,
+      "learning_rate": 1.542601103254035e-05,
+      "loss": 0.6192,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6824157238006592,
+      "learning_rate": 1.5230745070103131e-05,
+      "loss": 0.6109,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 0.7989784479141235,
+      "learning_rate": 1.5035479107665912e-05,
+      "loss": 0.6367,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7258987426757812,
+      "eval_runtime": 1.3947,
+      "eval_samples_per_second": 45.888,
+      "eval_steps_per_second": 5.736,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.6805263757705688,
+      "learning_rate": 1.484021314522869e-05,
+      "loss": 0.6271,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 0.6469630002975464,
+      "learning_rate": 1.4644947182791471e-05,
+      "loss": 0.5085,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9272030591964722,
+      "learning_rate": 1.4449681220354252e-05,
+      "loss": 0.6377,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7515610456466675,
+      "learning_rate": 1.4254415257917033e-05,
+      "loss": 0.655,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1927835941314697,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.5797,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.0289098024368286,
+      "learning_rate": 1.3863883333042594e-05,
+      "loss": 0.5291,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.7173566818237305,
+      "learning_rate": 1.3668617370605374e-05,
+      "loss": 0.6829,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.8574482202529907,
+      "learning_rate": 1.3473351408168155e-05,
+      "loss": 0.4509,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1971725225448608,
+      "learning_rate": 1.3278085445730936e-05,
+      "loss": 0.4369,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7368831634521484,
+      "eval_runtime": 1.4074,
+      "eval_samples_per_second": 45.475,
+      "eval_steps_per_second": 5.684,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 2.6530747413635254,
+      "learning_rate": 1.3082819483293713e-05,
+      "loss": 0.6167,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 2.0653493404388428,
+      "learning_rate": 1.2887553520856493e-05,
+      "loss": 0.5266,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 1.5351653099060059,
+      "learning_rate": 1.2692287558419274e-05,
+      "loss": 0.5224,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 1.5351920127868652,
+      "learning_rate": 1.2497021595982055e-05,
+      "loss": 0.622,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 1.5447399616241455,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.4725,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 4.063059329986572,
+      "learning_rate": 1.2106489671107616e-05,
+      "loss": 0.4089,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 2.517096519470215,
+      "learning_rate": 1.1911223708670397e-05,
+      "loss": 0.579,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 2.847086191177368,
+      "learning_rate": 1.1755010938720622e-05,
+      "loss": 0.4687,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 1.7841814756393433,
+      "learning_rate": 1.1559744976283403e-05,
+      "loss": 0.4846,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 3.5284550189971924,
+      "learning_rate": 1.1364479013846184e-05,
+      "loss": 0.5628,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.74,
+      "eval_loss": 0.6948537826538086,
+      "eval_runtime": 1.3673,
+      "eval_samples_per_second": 46.807,
+      "eval_steps_per_second": 5.851,
+      "step": 192
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 1.6642357110977173,
+      "learning_rate": 1.1169213051408962e-05,
+      "loss": 0.5529,
+      "step": 195
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 3.0695078372955322,
+      "learning_rate": 1.0973947088971741e-05,
+      "loss": 0.3534,
+      "step": 200
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 2.5939130783081055,
+      "learning_rate": 1.0778681126534522e-05,
+      "loss": 0.4534,
+      "step": 205
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 9.777613639831543,
+      "learning_rate": 1.0583415164097303e-05,
+      "loss": 0.5345,
+      "step": 210
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 4.490750312805176,
+      "learning_rate": 1.0388149201660083e-05,
+      "loss": 0.4854,
+      "step": 215
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 3.7475597858428955,
+      "learning_rate": 1.0192883239222864e-05,
+      "loss": 0.4174,
+      "step": 220
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 1.7532075643539429,
+      "learning_rate": 9.997617276785644e-06,
+      "loss": 0.4379,
+      "step": 225
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.4538604021072388,
+      "learning_rate": 9.802351314348425e-06,
+      "loss": 0.3269,
+      "step": 230
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 3.058314085006714,
+      "learning_rate": 9.607085351911206e-06,
+      "loss": 0.3553,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 5.367821216583252,
+      "learning_rate": 9.45087258196143e-06,
+      "loss": 0.4753,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7551020408163265,
+      "eval_loss": 0.7308206558227539,
+      "eval_runtime": 1.3546,
+      "eval_samples_per_second": 47.246,
+      "eval_steps_per_second": 5.906,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 1.079416275024414,
+      "learning_rate": 9.25560661952421e-06,
+      "loss": 0.2547,
+      "step": 245
+    },
+    {
+      "epoch": 5.21,
+      "grad_norm": 6.890663146972656,
+      "learning_rate": 9.060340657086991e-06,
+      "loss": 0.3043,
+      "step": 250
+    },
+    {
+      "epoch": 5.31,
+      "grad_norm": 5.391942977905273,
+      "learning_rate": 8.86507469464977e-06,
+      "loss": 0.4958,
+      "step": 255
+    },
+    {
+      "epoch": 5.42,
+      "grad_norm": Infinity,
+      "learning_rate": 8.708861924699996e-06,
+      "loss": 0.4157,
+      "step": 260
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 2.2877392768859863,
+      "learning_rate": 8.513595962262776e-06,
+      "loss": 0.289,
+      "step": 265
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 6.283646106719971,
+      "learning_rate": 8.318329999825557e-06,
+      "loss": 0.4315,
+      "step": 270
+    },
+    {
+      "epoch": 5.73,
+      "grad_norm": 8.02907657623291,
+      "learning_rate": 8.123064037388336e-06,
+      "loss": 0.3901,
+      "step": 275
+    },
+    {
+      "epoch": 5.83,
+      "grad_norm": 5.0022664070129395,
+      "learning_rate": 7.927798074951117e-06,
+      "loss": 0.3458,
+      "step": 280
+    },
+    {
+      "epoch": 5.94,
+      "grad_norm": 9.924915313720703,
+      "learning_rate": 7.732532112513897e-06,
+      "loss": 0.3239,
+      "step": 285
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7526881720430108,
+      "eval_loss": 0.734130859375,
+      "eval_runtime": 1.3629,
+      "eval_samples_per_second": 46.958,
+      "eval_steps_per_second": 5.87,
+      "step": 288
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 4356539523260784.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6870979154575775e-05,
+    "per_device_train_batch_size": 4
+  }
+}

run-0/checkpoint-288/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd3adcce4c12e301b4690ffc59bfab1ebdfc4aeec76c20952369aa2f6c1a91a7
+size 4920

run-0/checkpoint-336/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-336/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95f98888d1c53d8cb63ff0487309ac7c8ace158d50b36a052facc806c08fc38e
+size 94763496

run-0/checkpoint-336/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de78168bf4c4d94b7f32b614e818d24e08905a32a56475b3ae5f951fd6d5c4e2
+size 189552570

run-0/checkpoint-336/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-336/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d12884ae20f0c926a355fda8650edc055a398d4c7c42545ccdb7d60bd202452
+size 14244

run-0/checkpoint-336/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a93e746e734dd25bfab62ebb5e7354881f43d8c5f1c834242798dfd2074bc2ce
+size 1064

run-0/checkpoint-336/trainer_state.json ADDED Viewed

	@@ -0,0 +1,556 @@

+{
+  "best_metric": 0.7551020408163265,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-240",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 336,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2701194286346436,
+      "learning_rate": 1.7573936619349767e-06,
+      "loss": 0.7024,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.218135952949524,
+      "learning_rate": 3.5147873238699533e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.5910921096801758,
+      "learning_rate": 5.2721809858049295e-06,
+      "loss": 0.6916,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.0592715740203857,
+      "learning_rate": 7.029574647739907e-06,
+      "loss": 0.6854,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.132177472114563,
+      "learning_rate": 8.786968309674883e-06,
+      "loss": 0.6719,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.9851714372634888,
+      "learning_rate": 1.0544361971609859e-05,
+      "loss": 0.6633,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.5592440366744995,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.6288,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.8793619871139526,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.6561,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.987308382987976,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.6343,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6868629455566406,
+      "eval_runtime": 1.3443,
+      "eval_samples_per_second": 47.609,
+      "eval_steps_per_second": 5.951,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 3.1652989387512207,
+      "learning_rate": 1.6792872769600888e-05,
+      "loss": 0.6712,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.9990371465682983,
+      "learning_rate": 1.6597606807163667e-05,
+      "loss": 0.6657,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.8210965394973755,
+      "learning_rate": 1.640234084472645e-05,
+      "loss": 0.476,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.5364782810211182,
+      "learning_rate": 1.6207074882289228e-05,
+      "loss": 0.5768,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.6772537231445312,
+      "learning_rate": 1.6011808919852007e-05,
+      "loss": 0.5039,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.0453933477401733,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.7182,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.621067762374878,
+      "learning_rate": 1.562127699497757e-05,
+      "loss": 0.6178,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 1.7878597974777222,
+      "learning_rate": 1.542601103254035e-05,
+      "loss": 0.6192,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6824157238006592,
+      "learning_rate": 1.5230745070103131e-05,
+      "loss": 0.6109,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 0.7989784479141235,
+      "learning_rate": 1.5035479107665912e-05,
+      "loss": 0.6367,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7258987426757812,
+      "eval_runtime": 1.3947,
+      "eval_samples_per_second": 45.888,
+      "eval_steps_per_second": 5.736,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.6805263757705688,
+      "learning_rate": 1.484021314522869e-05,
+      "loss": 0.6271,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 0.6469630002975464,
+      "learning_rate": 1.4644947182791471e-05,
+      "loss": 0.5085,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9272030591964722,
+      "learning_rate": 1.4449681220354252e-05,
+      "loss": 0.6377,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7515610456466675,
+      "learning_rate": 1.4254415257917033e-05,
+      "loss": 0.655,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1927835941314697,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.5797,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.0289098024368286,
+      "learning_rate": 1.3863883333042594e-05,
+      "loss": 0.5291,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.7173566818237305,
+      "learning_rate": 1.3668617370605374e-05,
+      "loss": 0.6829,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.8574482202529907,
+      "learning_rate": 1.3473351408168155e-05,
+      "loss": 0.4509,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1971725225448608,
+      "learning_rate": 1.3278085445730936e-05,
+      "loss": 0.4369,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7368831634521484,
+      "eval_runtime": 1.4074,
+      "eval_samples_per_second": 45.475,
+      "eval_steps_per_second": 5.684,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 2.6530747413635254,
+      "learning_rate": 1.3082819483293713e-05,
+      "loss": 0.6167,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 2.0653493404388428,
+      "learning_rate": 1.2887553520856493e-05,
+      "loss": 0.5266,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 1.5351653099060059,
+      "learning_rate": 1.2692287558419274e-05,
+      "loss": 0.5224,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 1.5351920127868652,
+      "learning_rate": 1.2497021595982055e-05,
+      "loss": 0.622,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 1.5447399616241455,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.4725,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 4.063059329986572,
+      "learning_rate": 1.2106489671107616e-05,
+      "loss": 0.4089,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 2.517096519470215,
+      "learning_rate": 1.1911223708670397e-05,
+      "loss": 0.579,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 2.847086191177368,
+      "learning_rate": 1.1755010938720622e-05,
+      "loss": 0.4687,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 1.7841814756393433,
+      "learning_rate": 1.1559744976283403e-05,
+      "loss": 0.4846,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 3.5284550189971924,
+      "learning_rate": 1.1364479013846184e-05,
+      "loss": 0.5628,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.74,
+      "eval_loss": 0.6948537826538086,
+      "eval_runtime": 1.3673,
+      "eval_samples_per_second": 46.807,
+      "eval_steps_per_second": 5.851,
+      "step": 192
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 1.6642357110977173,
+      "learning_rate": 1.1169213051408962e-05,
+      "loss": 0.5529,
+      "step": 195
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 3.0695078372955322,
+      "learning_rate": 1.0973947088971741e-05,
+      "loss": 0.3534,
+      "step": 200
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 2.5939130783081055,
+      "learning_rate": 1.0778681126534522e-05,
+      "loss": 0.4534,
+      "step": 205
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 9.777613639831543,
+      "learning_rate": 1.0583415164097303e-05,
+      "loss": 0.5345,
+      "step": 210
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 4.490750312805176,
+      "learning_rate": 1.0388149201660083e-05,
+      "loss": 0.4854,
+      "step": 215
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 3.7475597858428955,
+      "learning_rate": 1.0192883239222864e-05,
+      "loss": 0.4174,
+      "step": 220
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 1.7532075643539429,
+      "learning_rate": 9.997617276785644e-06,
+      "loss": 0.4379,
+      "step": 225
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.4538604021072388,
+      "learning_rate": 9.802351314348425e-06,
+      "loss": 0.3269,
+      "step": 230
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 3.058314085006714,
+      "learning_rate": 9.607085351911206e-06,
+      "loss": 0.3553,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 5.367821216583252,
+      "learning_rate": 9.45087258196143e-06,
+      "loss": 0.4753,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7551020408163265,
+      "eval_loss": 0.7308206558227539,
+      "eval_runtime": 1.3546,
+      "eval_samples_per_second": 47.246,
+      "eval_steps_per_second": 5.906,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 1.079416275024414,
+      "learning_rate": 9.25560661952421e-06,
+      "loss": 0.2547,
+      "step": 245
+    },
+    {
+      "epoch": 5.21,
+      "grad_norm": 6.890663146972656,
+      "learning_rate": 9.060340657086991e-06,
+      "loss": 0.3043,
+      "step": 250
+    },
+    {
+      "epoch": 5.31,
+      "grad_norm": 5.391942977905273,
+      "learning_rate": 8.86507469464977e-06,
+      "loss": 0.4958,
+      "step": 255
+    },
+    {
+      "epoch": 5.42,
+      "grad_norm": Infinity,
+      "learning_rate": 8.708861924699996e-06,
+      "loss": 0.4157,
+      "step": 260
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 2.2877392768859863,
+      "learning_rate": 8.513595962262776e-06,
+      "loss": 0.289,
+      "step": 265
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 6.283646106719971,
+      "learning_rate": 8.318329999825557e-06,
+      "loss": 0.4315,
+      "step": 270
+    },
+    {
+      "epoch": 5.73,
+      "grad_norm": 8.02907657623291,
+      "learning_rate": 8.123064037388336e-06,
+      "loss": 0.3901,
+      "step": 275
+    },
+    {
+      "epoch": 5.83,
+      "grad_norm": 5.0022664070129395,
+      "learning_rate": 7.927798074951117e-06,
+      "loss": 0.3458,
+      "step": 280
+    },
+    {
+      "epoch": 5.94,
+      "grad_norm": 9.924915313720703,
+      "learning_rate": 7.732532112513897e-06,
+      "loss": 0.3239,
+      "step": 285
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7526881720430108,
+      "eval_loss": 0.734130859375,
+      "eval_runtime": 1.3629,
+      "eval_samples_per_second": 46.958,
+      "eval_steps_per_second": 5.87,
+      "step": 288
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 6.063592910766602,
+      "learning_rate": 7.537266150076677e-06,
+      "loss": 0.4556,
+      "step": 290
+    },
+    {
+      "epoch": 6.15,
+      "grad_norm": 5.061245441436768,
+      "learning_rate": 7.3420001876394575e-06,
+      "loss": 0.2344,
+      "step": 295
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 1.229814052581787,
+      "learning_rate": 7.146734225202238e-06,
+      "loss": 0.2622,
+      "step": 300
+    },
+    {
+      "epoch": 6.35,
+      "grad_norm": 10.423860549926758,
+      "learning_rate": 6.951468262765019e-06,
+      "loss": 0.3694,
+      "step": 305
+    },
+    {
+      "epoch": 6.46,
+      "grad_norm": 9.655594825744629,
+      "learning_rate": 6.756202300327799e-06,
+      "loss": 0.3442,
+      "step": 310
+    },
+    {
+      "epoch": 6.56,
+      "grad_norm": 3.6673190593719482,
+      "learning_rate": 6.560936337890579e-06,
+      "loss": 0.3164,
+      "step": 315
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 11.887277603149414,
+      "learning_rate": 6.36567037545336e-06,
+      "loss": 0.2361,
+      "step": 320
+    },
+    {
+      "epoch": 6.77,
+      "grad_norm": 12.80982780456543,
+      "learning_rate": 6.17040441301614e-06,
+      "loss": 0.3502,
+      "step": 325
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 14.678775787353516,
+      "learning_rate": 5.975138450578921e-06,
+      "loss": 0.2829,
+      "step": 330
+    },
+    {
+      "epoch": 6.98,
+      "grad_norm": 2.002340078353882,
+      "learning_rate": 5.7798724881417015e-06,
+      "loss": 0.3153,
+      "step": 335
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.7368421052631577,
+      "eval_loss": 0.8391213417053223,
+      "eval_runtime": 1.3632,
+      "eval_samples_per_second": 46.947,
+      "eval_steps_per_second": 5.868,
+      "step": 336
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5116387614670704.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6870979154575775e-05,
+    "per_device_train_batch_size": 4
+  }
+}

run-0/checkpoint-336/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd3adcce4c12e301b4690ffc59bfab1ebdfc4aeec76c20952369aa2f6c1a91a7
+size 4920

run-0/checkpoint-384/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-384/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2916687feb7cc17d32b2a31e17ad5512424a6fa2fa8da91f15e461c8e89af87
+size 94763496

run-0/checkpoint-384/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:755f0f8d2a05c523eb52bc9e0ef5b6eaa7b698f71fb4db6e2e264bc9014c1b6f
+size 189552570

run-0/checkpoint-384/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-384/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5326b9611b4fb9dc5dc0b29580e7e48abf50913e44071592799c052bebfbacd7
+size 14244

run-0/checkpoint-384/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c4157f3302c981a6f9ee8b08a83b0b6bf226da9e9c00e1267ffa9b3b1d1e447
+size 1064

run-0/checkpoint-384/trainer_state.json ADDED Viewed

	@@ -0,0 +1,628 @@

+{
+  "best_metric": 0.7551020408163265,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-240",
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 384,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2701194286346436,
+      "learning_rate": 1.7573936619349767e-06,
+      "loss": 0.7024,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.218135952949524,
+      "learning_rate": 3.5147873238699533e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.5910921096801758,
+      "learning_rate": 5.2721809858049295e-06,
+      "loss": 0.6916,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.0592715740203857,
+      "learning_rate": 7.029574647739907e-06,
+      "loss": 0.6854,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.132177472114563,
+      "learning_rate": 8.786968309674883e-06,
+      "loss": 0.6719,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.9851714372634888,
+      "learning_rate": 1.0544361971609859e-05,
+      "loss": 0.6633,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.5592440366744995,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.6288,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.8793619871139526,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.6561,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.987308382987976,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.6343,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6868629455566406,
+      "eval_runtime": 1.3443,
+      "eval_samples_per_second": 47.609,
+      "eval_steps_per_second": 5.951,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 3.1652989387512207,
+      "learning_rate": 1.6792872769600888e-05,
+      "loss": 0.6712,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.9990371465682983,
+      "learning_rate": 1.6597606807163667e-05,
+      "loss": 0.6657,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.8210965394973755,
+      "learning_rate": 1.640234084472645e-05,
+      "loss": 0.476,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.5364782810211182,
+      "learning_rate": 1.6207074882289228e-05,
+      "loss": 0.5768,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.6772537231445312,
+      "learning_rate": 1.6011808919852007e-05,
+      "loss": 0.5039,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.0453933477401733,
+      "learning_rate": 1.581654295741479e-05,
+      "loss": 0.7182,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 1.621067762374878,
+      "learning_rate": 1.562127699497757e-05,
+      "loss": 0.6178,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 1.7878597974777222,
+      "learning_rate": 1.542601103254035e-05,
+      "loss": 0.6192,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6824157238006592,
+      "learning_rate": 1.5230745070103131e-05,
+      "loss": 0.6109,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 0.7989784479141235,
+      "learning_rate": 1.5035479107665912e-05,
+      "loss": 0.6367,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7258987426757812,
+      "eval_runtime": 1.3947,
+      "eval_samples_per_second": 45.888,
+      "eval_steps_per_second": 5.736,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.6805263757705688,
+      "learning_rate": 1.484021314522869e-05,
+      "loss": 0.6271,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 0.6469630002975464,
+      "learning_rate": 1.4644947182791471e-05,
+      "loss": 0.5085,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9272030591964722,
+      "learning_rate": 1.4449681220354252e-05,
+      "loss": 0.6377,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7515610456466675,
+      "learning_rate": 1.4254415257917033e-05,
+      "loss": 0.655,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1927835941314697,
+      "learning_rate": 1.4059149295479813e-05,
+      "loss": 0.5797,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.0289098024368286,
+      "learning_rate": 1.3863883333042594e-05,
+      "loss": 0.5291,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.7173566818237305,
+      "learning_rate": 1.3668617370605374e-05,
+      "loss": 0.6829,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.8574482202529907,
+      "learning_rate": 1.3473351408168155e-05,
+      "loss": 0.4509,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1971725225448608,
+      "learning_rate": 1.3278085445730936e-05,
+      "loss": 0.4369,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7368831634521484,
+      "eval_runtime": 1.4074,
+      "eval_samples_per_second": 45.475,
+      "eval_steps_per_second": 5.684,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 2.6530747413635254,
+      "learning_rate": 1.3082819483293713e-05,
+      "loss": 0.6167,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 2.0653493404388428,
+      "learning_rate": 1.2887553520856493e-05,
+      "loss": 0.5266,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 1.5351653099060059,
+      "learning_rate": 1.2692287558419274e-05,
+      "loss": 0.5224,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 1.5351920127868652,
+      "learning_rate": 1.2497021595982055e-05,
+      "loss": 0.622,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 1.5447399616241455,
+      "learning_rate": 1.2301755633544835e-05,
+      "loss": 0.4725,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 4.063059329986572,
+      "learning_rate": 1.2106489671107616e-05,
+      "loss": 0.4089,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 2.517096519470215,
+      "learning_rate": 1.1911223708670397e-05,
+      "loss": 0.579,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 2.847086191177368,
+      "learning_rate": 1.1755010938720622e-05,
+      "loss": 0.4687,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 1.7841814756393433,
+      "learning_rate": 1.1559744976283403e-05,
+      "loss": 0.4846,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 3.5284550189971924,
+      "learning_rate": 1.1364479013846184e-05,
+      "loss": 0.5628,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.74,
+      "eval_loss": 0.6948537826538086,
+      "eval_runtime": 1.3673,
+      "eval_samples_per_second": 46.807,
+      "eval_steps_per_second": 5.851,
+      "step": 192
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 1.6642357110977173,
+      "learning_rate": 1.1169213051408962e-05,
+      "loss": 0.5529,
+      "step": 195
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 3.0695078372955322,
+      "learning_rate": 1.0973947088971741e-05,
+      "loss": 0.3534,
+      "step": 200
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 2.5939130783081055,
+      "learning_rate": 1.0778681126534522e-05,
+      "loss": 0.4534,
+      "step": 205
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 9.777613639831543,
+      "learning_rate": 1.0583415164097303e-05,
+      "loss": 0.5345,
+      "step": 210
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 4.490750312805176,
+      "learning_rate": 1.0388149201660083e-05,
+      "loss": 0.4854,
+      "step": 215
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 3.7475597858428955,
+      "learning_rate": 1.0192883239222864e-05,
+      "loss": 0.4174,
+      "step": 220
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 1.7532075643539429,
+      "learning_rate": 9.997617276785644e-06,
+      "loss": 0.4379,
+      "step": 225
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.4538604021072388,
+      "learning_rate": 9.802351314348425e-06,
+      "loss": 0.3269,
+      "step": 230
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 3.058314085006714,
+      "learning_rate": 9.607085351911206e-06,
+      "loss": 0.3553,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 5.367821216583252,
+      "learning_rate": 9.45087258196143e-06,
+      "loss": 0.4753,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7551020408163265,
+      "eval_loss": 0.7308206558227539,
+      "eval_runtime": 1.3546,
+      "eval_samples_per_second": 47.246,
+      "eval_steps_per_second": 5.906,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 1.079416275024414,
+      "learning_rate": 9.25560661952421e-06,
+      "loss": 0.2547,
+      "step": 245
+    },
+    {
+      "epoch": 5.21,
+      "grad_norm": 6.890663146972656,
+      "learning_rate": 9.060340657086991e-06,
+      "loss": 0.3043,
+      "step": 250
+    },
+    {
+      "epoch": 5.31,
+      "grad_norm": 5.391942977905273,
+      "learning_rate": 8.86507469464977e-06,
+      "loss": 0.4958,
+      "step": 255
+    },
+    {
+      "epoch": 5.42,
+      "grad_norm": Infinity,
+      "learning_rate": 8.708861924699996e-06,
+      "loss": 0.4157,
+      "step": 260
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 2.2877392768859863,
+      "learning_rate": 8.513595962262776e-06,
+      "loss": 0.289,
+      "step": 265
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 6.283646106719971,
+      "learning_rate": 8.318329999825557e-06,
+      "loss": 0.4315,
+      "step": 270
+    },
+    {
+      "epoch": 5.73,
+      "grad_norm": 8.02907657623291,
+      "learning_rate": 8.123064037388336e-06,
+      "loss": 0.3901,
+      "step": 275
+    },
+    {
+      "epoch": 5.83,
+      "grad_norm": 5.0022664070129395,
+      "learning_rate": 7.927798074951117e-06,
+      "loss": 0.3458,
+      "step": 280
+    },
+    {
+      "epoch": 5.94,
+      "grad_norm": 9.924915313720703,
+      "learning_rate": 7.732532112513897e-06,
+      "loss": 0.3239,
+      "step": 285
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7526881720430108,
+      "eval_loss": 0.734130859375,
+      "eval_runtime": 1.3629,
+      "eval_samples_per_second": 46.958,
+      "eval_steps_per_second": 5.87,
+      "step": 288
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 6.063592910766602,
+      "learning_rate": 7.537266150076677e-06,
+      "loss": 0.4556,
+      "step": 290
+    },
+    {
+      "epoch": 6.15,
+      "grad_norm": 5.061245441436768,
+      "learning_rate": 7.3420001876394575e-06,
+      "loss": 0.2344,
+      "step": 295
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 1.229814052581787,
+      "learning_rate": 7.146734225202238e-06,
+      "loss": 0.2622,
+      "step": 300
+    },
+    {
+      "epoch": 6.35,
+      "grad_norm": 10.423860549926758,
+      "learning_rate": 6.951468262765019e-06,
+      "loss": 0.3694,
+      "step": 305
+    },
+    {
+      "epoch": 6.46,
+      "grad_norm": 9.655594825744629,
+      "learning_rate": 6.756202300327799e-06,
+      "loss": 0.3442,
+      "step": 310
+    },
+    {
+      "epoch": 6.56,
+      "grad_norm": 3.6673190593719482,
+      "learning_rate": 6.560936337890579e-06,
+      "loss": 0.3164,
+      "step": 315
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 11.887277603149414,
+      "learning_rate": 6.36567037545336e-06,
+      "loss": 0.2361,
+      "step": 320
+    },
+    {
+      "epoch": 6.77,
+      "grad_norm": 12.80982780456543,
+      "learning_rate": 6.17040441301614e-06,
+      "loss": 0.3502,
+      "step": 325
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 14.678775787353516,
+      "learning_rate": 5.975138450578921e-06,
+      "loss": 0.2829,
+      "step": 330
+    },
+    {
+      "epoch": 6.98,
+      "grad_norm": 2.002340078353882,
+      "learning_rate": 5.7798724881417015e-06,
+      "loss": 0.3153,
+      "step": 335
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.7368421052631577,
+      "eval_loss": 0.8391213417053223,
+      "eval_runtime": 1.3632,
+      "eval_samples_per_second": 46.947,
+      "eval_steps_per_second": 5.868,
+      "step": 336
+    },
+    {
+      "epoch": 7.08,
+      "grad_norm": 14.519176483154297,
+      "learning_rate": 5.584606525704481e-06,
+      "loss": 0.1675,
+      "step": 340
+    },
+    {
+      "epoch": 7.19,
+      "grad_norm": 1.7075341939926147,
+      "learning_rate": 5.389340563267261e-06,
+      "loss": 0.3502,
+      "step": 345
+    },
+    {
+      "epoch": 7.29,
+      "grad_norm": 1.1975409984588623,
+      "learning_rate": 5.194074600830042e-06,
+      "loss": 0.1761,
+      "step": 350
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 24.773109436035156,
+      "learning_rate": 4.998808638392822e-06,
+      "loss": 0.2723,
+      "step": 355
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 1.3228851556777954,
+      "learning_rate": 4.803542675955603e-06,
+      "loss": 0.2997,
+      "step": 360
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 11.504044532775879,
+      "learning_rate": 4.608276713518383e-06,
+      "loss": 0.167,
+      "step": 365
+    },
+    {
+      "epoch": 7.71,
+      "grad_norm": 4.855327129364014,
+      "learning_rate": 4.413010751081163e-06,
+      "loss": 0.1576,
+      "step": 370
+    },
+    {
+      "epoch": 7.81,
+      "grad_norm": 3.231921434402466,
+      "learning_rate": 4.217744788643944e-06,
+      "loss": 0.3102,
+      "step": 375
+    },
+    {
+      "epoch": 7.92,
+      "grad_norm": 11.368690490722656,
+      "learning_rate": 4.022478826206724e-06,
+      "loss": 0.3451,
+      "step": 380
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.7333333333333333,
+      "eval_loss": 0.8304653167724609,
+      "eval_runtime": 1.3846,
+      "eval_samples_per_second": 46.222,
+      "eval_steps_per_second": 5.778,
+      "step": 384
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5808783041309760.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6870979154575775e-05,
+    "per_device_train_batch_size": 4
+  }
+}

run-0/checkpoint-384/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd3adcce4c12e301b4690ffc59bfab1ebdfc4aeec76c20952369aa2f6c1a91a7
+size 4920

run-0/checkpoint-432/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}