Training in progress, step 1500

Browse files

Files changed (12) hide show

model.safetensors +1 -1
run-1/checkpoint-1000/model.safetensors +1 -1
run-1/checkpoint-1000/optimizer.pt +1 -1
run-1/checkpoint-1000/scheduler.pt +1 -1
run-1/checkpoint-1000/training_args.bin +1 -1
run-1/checkpoint-1500/model.safetensors +1 -1
run-1/checkpoint-1500/optimizer.pt +1 -1
run-1/checkpoint-1500/scheduler.pt +1 -1
run-1/checkpoint-1500/trainer_state.json +34 -34
run-1/checkpoint-1500/training_args.bin +1 -1
run-1/checkpoint-2000/trainer_state.json +47 -47
runs/Nov25_08-56-26_a78cb449300a/events.out.tfevents.1732528693.a78cb449300a.701.6 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07161090aa695b836b3109e56422c48659d0ff109ddde1739e80c7dbac69dcee
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:20677a90a3902cf3ed56f86f8b03f6bea9f7c430589a4a8bb04004321c23daab
 size 268290900

run-1/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8abcd494efe65f3a888ecb298174b1444ea6f4684c6a416e225e29774afed680
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a0357cd904f7ee6a0e5aa8bb877ddfb88ffd83a4e0a5a1cd26ac165c9fbae4e
 size 268290900

run-1/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:792be3d99b1fc211ae9907acfab2dbf1a7d48c9af7942cada974eddbddad0c93
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:427929bd040feb5c383356aece48a2710aaba828ec3d98ccd9076d181c81f58f
 size 536643898

run-1/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed9da1cbe846856af516cf037dd225e7f48e2737ef84c42a9bee0753b8c140ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c794bc4c67ef18245dd516031ce405ab557e4d551d225d8dd1e1abc0f2be8e33
 size 1064

run-1/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c50be35dabf57488910ecef52dcf0c3f00eb115989d551ba66b159364e8ee11
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:235bcd30eb5caaf6d85f48a7cbef42afd59119224ef62ab684da9f5c869126f8
 size 5368

run-1/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfb49d2df99087024b83b1ae4cbe9065c78608d60387119470bddd60fcf6017a
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:20677a90a3902cf3ed56f86f8b03f6bea9f7c430589a4a8bb04004321c23daab
 size 268290900

run-1/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adb334a206d95bf76e0c57755b7faa7d832972346490f8b2ac27e616ba04082c
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a6e68fb838dcb38c784a301a0375db383fec934b2fc7eb29e19c8782ec724f2
 size 536643898

run-1/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad4d7d251acf36e559c362893a1fb310c9f46b20e8a330025a14b6829ce4ab07
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:71453465aad25f4c5a0a948496c64b1f74df850abda497954afe3695c00756ee
 size 1064

run-1/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,66 +10,66 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6364516129032258,
-      "eval_loss": 0.2942647337913513,
-      "eval_runtime": 5.7495,
-      "eval_samples_per_second": 539.181,
-      "eval_steps_per_second": 11.305,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.6808456778526306,
-      "learning_rate": 1.550763701707098e-05,
-      "loss": 0.4631,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.837741935483871,
-      "eval_loss": 0.12298235297203064,
-      "eval_runtime": 5.982,
-      "eval_samples_per_second": 518.218,
-      "eval_steps_per_second": 10.866,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.886774193548387,
-      "eval_loss": 0.07365494966506958,
-      "eval_runtime": 5.4854,
-      "eval_samples_per_second": 565.141,
-      "eval_steps_per_second": 11.85,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.7211179137229919,
-      "learning_rate": 1.101527403414196e-05,
-      "loss": 0.144,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9006451612903226,
-      "eval_loss": 0.05463062971830368,
-      "eval_runtime": 5.5595,
-      "eval_samples_per_second": 557.599,
-      "eval_steps_per_second": 11.692,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.4047314524650574,
-      "learning_rate": 6.522911051212939e-06,
-      "loss": 0.0842,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2226,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -87,8 +87,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.27523519283703446,
-    "num_train_epochs": 7,
-    "temperature": 3
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6106451612903225,
+      "eval_loss": 0.2180573046207428,
+      "eval_runtime": 5.4534,
+      "eval_samples_per_second": 568.452,
+      "eval_steps_per_second": 11.919,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5000836253166199,
+      "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3508,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8367741935483871,
+      "eval_loss": 0.10006564110517502,
+      "eval_runtime": 5.8746,
+      "eval_samples_per_second": 527.697,
+      "eval_steps_per_second": 11.065,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8880645161290323,
+      "eval_loss": 0.06387896835803986,
+      "eval_runtime": 5.5911,
+      "eval_samples_per_second": 554.452,
+      "eval_steps_per_second": 11.626,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5663716197013855,
+      "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1169,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.04769841209053993,
+      "eval_runtime": 5.4183,
+      "eval_samples_per_second": 572.139,
+      "eval_steps_per_second": 11.996,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3216884136199951,
+      "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0714,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3180,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9382110737628452,
+    "num_train_epochs": 10,
+    "temperature": 6
   }
 }

run-1/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c50be35dabf57488910ecef52dcf0c3f00eb115989d551ba66b159364e8ee11
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:235bcd30eb5caaf6d85f48a7cbef42afd59119224ef62ab684da9f5c869126f8
 size 5368

run-1/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,91 +10,91 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6364516129032258,
-      "eval_loss": 0.2942647337913513,
-      "eval_runtime": 5.7495,
-      "eval_samples_per_second": 539.181,
-      "eval_steps_per_second": 11.305,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.6808456778526306,
-      "learning_rate": 1.550763701707098e-05,
-      "loss": 0.4631,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.837741935483871,
-      "eval_loss": 0.12298235297203064,
-      "eval_runtime": 5.982,
-      "eval_samples_per_second": 518.218,
-      "eval_steps_per_second": 10.866,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.886774193548387,
-      "eval_loss": 0.07365494966506958,
-      "eval_runtime": 5.4854,
-      "eval_samples_per_second": 565.141,
-      "eval_steps_per_second": 11.85,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.7211179137229919,
-      "learning_rate": 1.101527403414196e-05,
-      "loss": 0.144,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9006451612903226,
-      "eval_loss": 0.05463062971830368,
-      "eval_runtime": 5.5595,
-      "eval_samples_per_second": 557.599,
-      "eval_steps_per_second": 11.692,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.4047314524650574,
-      "learning_rate": 6.522911051212939e-06,
-      "loss": 0.0842,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.917741935483871,
-      "eval_loss": 0.044852741062641144,
-      "eval_runtime": 5.832,
-      "eval_samples_per_second": 531.549,
-      "eval_steps_per_second": 11.145,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9193548387096774,
-      "eval_loss": 0.04065420478582382,
-      "eval_runtime": 5.4964,
-      "eval_samples_per_second": 564.004,
-      "eval_steps_per_second": 11.826,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.3561893105506897,
-      "learning_rate": 2.0305480682839176e-06,
-      "loss": 0.0669,
       "step": 2000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2226,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -112,8 +112,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.27523519283703446,
-    "num_train_epochs": 7,
-    "temperature": 3
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6106451612903225,
+      "eval_loss": 0.2180573046207428,
+      "eval_runtime": 5.4534,
+      "eval_samples_per_second": 568.452,
+      "eval_steps_per_second": 11.919,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5000836253166199,
+      "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3508,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8367741935483871,
+      "eval_loss": 0.10006564110517502,
+      "eval_runtime": 5.8746,
+      "eval_samples_per_second": 527.697,
+      "eval_steps_per_second": 11.065,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8880645161290323,
+      "eval_loss": 0.06387896835803986,
+      "eval_runtime": 5.5911,
+      "eval_samples_per_second": 554.452,
+      "eval_steps_per_second": 11.626,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5663716197013855,
+      "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1169,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.04769841209053993,
+      "eval_runtime": 5.4183,
+      "eval_samples_per_second": 572.139,
+      "eval_steps_per_second": 11.996,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3216884136199951,
+      "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0714,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9170967741935484,
+      "eval_loss": 0.0384916327893734,
+      "eval_runtime": 5.8913,
+      "eval_samples_per_second": 526.203,
+      "eval_steps_per_second": 11.033,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9183870967741935,
+      "eval_loss": 0.0333557203412056,
+      "eval_runtime": 5.8238,
+      "eval_samples_per_second": 532.3,
+      "eval_steps_per_second": 11.161,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.24820531904697418,
+      "learning_rate": 7.421383647798742e-06,
+      "loss": 0.055,
       "step": 2000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3180,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9382110737628452,
+    "num_train_epochs": 10,
+    "temperature": 6
   }
 }

runs/Nov25_08-56-26_a78cb449300a/events.out.tfevents.1732528693.a78cb449300a.701.6 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93bec0e1d68ce0be5270f2972e875d4a42e30ff869a6d555bc000776fbd7d027
-size 13952

 version https://git-lfs.github.com/spec/v1
+oid sha256:7906d6cf1de7de14c1aebacfcffb4f68767bccf50ff7cd1b992e35c178ecd5a8
+size 15343