Training in progress, epoch 2

Browse files

Files changed (8) hide show

logs/events.out.tfevents.1709873901.6c1c016b0e3e.7263.4 +2 -2
model.safetensors +1 -1
run-4/checkpoint-96/model.safetensors +1 -1
run-4/checkpoint-96/optimizer.pt +1 -1
run-4/checkpoint-96/rng_state.pth +1 -1
run-4/checkpoint-96/scheduler.pt +1 -1
run-4/checkpoint-96/trainer_state.json +42 -23
run-4/checkpoint-96/training_args.bin +1 -1

logs/events.out.tfevents.1709873901.6c1c016b0e3e.7263.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97a0e66e33b4d006e92f859d1584598a9a4ec459ea7d03a1903a2e96052ac436
-size 5315

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa03478758dca7f5d682294b4b26342374d8ba160952415e179feeb53e1e9410
+size 5985

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba227b507d263c3235344fafa0ef56d9cc2df1b645639c7fd2ca60dccb81a006
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:03fd9f7efee8c0f2f691ddeaa2514f0d3a7e750cabcf068212eca5745fe919ca
 size 17549312

run-4/checkpoint-96/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48cf003cc2d83efb9a33c368e8ea859aa2c76a29c130a77724c87ea2b605a4f4
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:03fd9f7efee8c0f2f691ddeaa2514f0d3a7e750cabcf068212eca5745fe919ca
 size 17549312

run-4/checkpoint-96/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04e1ae2990cf04c6f162e8ec86fdc8cb3745c3bca894e75064e22185509898ee
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b5e885aea55dc038ba56b1d1df15d43e6a06f137603ec51216e670bb3aab5de
 size 35122746

run-4/checkpoint-96/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24aa86019b8aea1c551cc1adaf38c4db2fc01de75a22af312230f6b592e0fd81
 size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bc13e09b59a62b6fb29cad756bfeefcce6f512c71a9054cc39e336db0b532a5
 size 14054

run-4/checkpoint-96/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c605d5f5c6e1aaba4a4104abbfe7360b6bc2968ed7924599d9c04c6a8c953dd1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d11807bda42acc64a1933e2f174b9739a116b6fd76032532b4c5e869e5fa4c3f
 size 1064

run-4/checkpoint-96/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.7446183953033269,
-  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-4/checkpoint-96",
-  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
@@ -10,36 +10,55 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.90240478515625,
-      "learning_rate": 0.0008040462940429662,
-      "loss": 0.4563,
-      "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7446183953033269,
-      "eval_f1": 0.7473378509196515,
-      "eval_loss": 0.415781170129776,
-      "eval_precision": 0.7394636015325671,
-      "eval_recall": 0.7553816046966731,
-      "eval_runtime": 25.3619,
-      "eval_samples_per_second": 40.297,
-      "eval_steps_per_second": 1.262,
       "step": 96
     }
   ],
   "logging_steps": 500,
-  "max_steps": 960,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 235695197280.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6601531096042508,
-    "learning_rate": 0.0008933847711588513,
-    "num_train_epochs": 10,
-    "temperature": 4
   }
 }

 {
+  "best_metric": 0.5636007827788649,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-4/checkpoint-48",
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.5694383382797241,
+      "learning_rate": 0.00021480966845398845,
+      "loss": 0.2391,
+      "step": 48
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5636007827788649,
+      "eval_f1": 0.2829581993569132,
+      "eval_loss": 0.21417579054832458,
+      "eval_precision": 0.7927927927927928,
+      "eval_recall": 0.17221135029354206,
+      "eval_runtime": 31.6316,
+      "eval_samples_per_second": 32.309,
+      "eval_steps_per_second": 0.506,
+      "step": 48
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.45431241393089294,
+      "learning_rate": 0.00016110725134049132,
+      "loss": 0.2131,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5547945205479452,
+      "eval_f1": 0.26016260162601623,
+      "eval_loss": 0.20607483386993408,
+      "eval_precision": 0.7692307692307693,
+      "eval_recall": 0.15655577299412915,
+      "eval_runtime": 29.4377,
+      "eval_samples_per_second": 34.717,
+      "eval_steps_per_second": 0.544,
       "step": 96
     }
   ],
   "logging_steps": 500,
+  "max_steps": 240,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 471390394560.0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.27492253593123683,
+    "learning_rate": 0.00026851208556748554,
+    "num_train_epochs": 5,
+    "temperature": 7
   }
 }

run-4/checkpoint-96/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05a27237c59bc1684c5bc675b662fc3c971fc4d8663bd9fafef0f646ea921a93
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:88ec7ec7f38e7c2427d32adb2581912875f666fa47e4e936bf0bd24c36192ea0
 size 4920