Training in progress, epoch 2

Browse files

Files changed (13) hide show

logs/events.out.tfevents.1709703029.adc675a344d5.5455.2 +2 -2
model.safetensors +1 -1
run-1/checkpoint-192/model.safetensors +1 -1
run-1/checkpoint-192/optimizer.pt +1 -1
run-1/checkpoint-192/scheduler.pt +1 -1
run-1/checkpoint-192/trainer_state.json +30 -30
run-1/checkpoint-192/training_args.bin +1 -1
run-1/checkpoint-96/model.safetensors +1 -1
run-1/checkpoint-96/optimizer.pt +1 -1
run-1/checkpoint-96/scheduler.pt +1 -1
run-1/checkpoint-96/trainer_state.json +18 -18
run-1/checkpoint-96/training_args.bin +1 -1
training_args.bin +1 -1

logs/events.out.tfevents.1709703029.adc675a344d5.5455.2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15d21e2ea51e168f1ee72eb0b17139fc3af6168bb5edd0528c764eb32895e7f9
-size 5314

 version https://git-lfs.github.com/spec/v1
+oid sha256:88417bf6aa67a14edd1329118b7ae725f33b884f1e1d83a6a5c7812c33e7e3c0
+size 5997

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e25ee0cb7b2449845032b3dfcc16415f929b4ab92039e01f8b92a8f2b222457e
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:564f1f46932544fd89608b22974dc27996ca6dfb380e01ea2b6299c6c592a2bf
 size 17549312

run-1/checkpoint-192/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbcbc86cdfc7bd8113eaa3674da81ce354ec307c43c3ce893eb593b0aafbb38b
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:564f1f46932544fd89608b22974dc27996ca6dfb380e01ea2b6299c6c592a2bf
 size 17549312

run-1/checkpoint-192/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97252d15791d4ce2db158d11bc4a70e3d353c2c79cc3e5eb78f369faf21e4482
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ee512f92ffc9dd07acbff560ce3a2fdb296640d0c6d82249296365ed13153f8
 size 35122746

run-1/checkpoint-192/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40e0af9b35a6bc967118be47cf9ea466444403850711fc6c80a3a2582d3e70b9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dbb0fba5b183172f8d39b2f13bd929411213cf1ad515fc75a81d08268624f8d
 size 1064

run-1/checkpoint-192/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.5,
-  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-96",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 192,
@@ -10,55 +10,55 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.4667714238166809,
-      "learning_rate": 7.759069356217338e-06,
-      "loss": 0.317,
       "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5,
-      "eval_f1": 0.0,
-      "eval_loss": 0.26975956559181213,
-      "eval_precision": 0.0,
-      "eval_recall": 0.0,
-      "eval_runtime": 28.3197,
-      "eval_samples_per_second": 36.088,
-      "eval_steps_per_second": 1.13,
       "step": 96
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.5722590088844299,
-      "learning_rate": 5.1727129041448925e-06,
-      "loss": 0.267,
       "step": 192
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5,
-      "eval_f1": 0.0,
-      "eval_loss": 0.2646586298942566,
-      "eval_precision": 0.0,
-      "eval_recall": 0.0,
-      "eval_runtime": 29.2799,
-      "eval_samples_per_second": 34.905,
-      "eval_steps_per_second": 1.093,
       "step": 192
     }
   ],
   "logging_steps": 500,
-  "max_steps": 384,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "total_flos": 471390394560.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.2995113868248127,
-    "learning_rate": 1.0345425808289785e-05,
-    "num_train_epochs": 4,
-    "temperature": 18
   }
 }

 {
+  "best_metric": 0.8082191780821918,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-192",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 192,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 2.6617980003356934,
+      "learning_rate": 0.0006635023570917325,
+      "loss": 0.5037,
       "step": 96
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7661448140900196,
+      "eval_f1": 0.792714657415438,
+      "eval_loss": 0.4430159628391266,
+      "eval_precision": 0.7118380062305296,
+      "eval_recall": 0.8943248532289628,
+      "eval_runtime": 28.6854,
+      "eval_samples_per_second": 35.628,
+      "eval_steps_per_second": 1.116,
       "step": 96
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.12320077419281,
+      "learning_rate": 0.0004976267678187994,
+      "loss": 0.4391,
       "step": 192
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8082191780821918,
+      "eval_f1": 0.8227848101265822,
+      "eval_loss": 0.41584911942481995,
+      "eval_precision": 0.7647058823529411,
+      "eval_recall": 0.8904109589041096,
+      "eval_runtime": 28.5215,
+      "eval_samples_per_second": 35.833,
+      "eval_steps_per_second": 1.122,
       "step": 192
     }
   ],
   "logging_steps": 500,
+  "max_steps": 480,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 471390394560.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7818460169984094,
+    "learning_rate": 0.0008293779463646656,
+    "num_train_epochs": 5,
+    "temperature": 3
   }
 }

run-1/checkpoint-192/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f7a7027861ec8f0a120b010edf2e889059268bbeac3a62f529a79661a3cf64f
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ab2cfe4c2ab241510bc23e9ec5727876e620ab477a4e5ad72a937b25e09df23
 size 4920

run-1/checkpoint-96/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65f3dae738929185d1e20f41e7bcf6ea1a73d176be72cfab23bb6503fcf370a1
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:d88b78d29ffacae504916ff9826e9a4fd404d9cb381fd25e2e8cc7e7ac3a360b
 size 17549312

run-1/checkpoint-96/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5326787fcf5c172156d5e04cae26b95cb125ac94f1539f5594be70c38588eb7d
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:a71f0829ccad1e615e8dc9739e8dd9ab2f6416a41935856d3df570f98d5f2dfe
 size 35122746

run-1/checkpoint-96/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:034a02c034574a59465ffaa25a28c8e0454ff7549227e81b8c6665e0b383867a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb304cd08666fb88677de9b419b0e96e439e7a92921a497fac84001d1c921c20
 size 1064

run-1/checkpoint-96/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.5,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-96",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,36 +10,36 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.4667714238166809,
-      "learning_rate": 7.759069356217338e-06,
-      "loss": 0.317,
       "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5,
-      "eval_f1": 0.0,
-      "eval_loss": 0.26975956559181213,
-      "eval_precision": 0.0,
-      "eval_recall": 0.0,
-      "eval_runtime": 28.3197,
-      "eval_samples_per_second": 36.088,
-      "eval_steps_per_second": 1.13,
       "step": 96
     }
   ],
   "logging_steps": 500,
-  "max_steps": 384,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "total_flos": 235695197280.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.2995113868248127,
-    "learning_rate": 1.0345425808289785e-05,
-    "num_train_epochs": 4,
-    "temperature": 18
   }
 }

 {
+  "best_metric": 0.7661448140900196,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-96",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 2.6617980003356934,
+      "learning_rate": 0.0006635023570917325,
+      "loss": 0.5037,
       "step": 96
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7661448140900196,
+      "eval_f1": 0.792714657415438,
+      "eval_loss": 0.4430159628391266,
+      "eval_precision": 0.7118380062305296,
+      "eval_recall": 0.8943248532289628,
+      "eval_runtime": 28.6854,
+      "eval_samples_per_second": 35.628,
+      "eval_steps_per_second": 1.116,
       "step": 96
     }
   ],
   "logging_steps": 500,
+  "max_steps": 480,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 235695197280.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7818460169984094,
+    "learning_rate": 0.0008293779463646656,
+    "num_train_epochs": 5,
+    "temperature": 3
   }
 }

run-1/checkpoint-96/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f7a7027861ec8f0a120b010edf2e889059268bbeac3a62f529a79661a3cf64f
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ab2cfe4c2ab241510bc23e9ec5727876e620ab477a4e5ad72a937b25e09df23
 size 4920

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99da68eb3e23d3e605d1e77f3904ae2ee7244687e6e5e8018e151049999ab73d
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ab2cfe4c2ab241510bc23e9ec5727876e620ab477a4e5ad72a937b25e09df23
 size 4920