Training in progress, step 2500

Browse files

Files changed (11) hide show

model.safetensors +1 -1
run-0/checkpoint-2000/model.safetensors +1 -1
run-0/checkpoint-2000/optimizer.pt +1 -1
run-0/checkpoint-2000/training_args.bin +1 -1
run-0/checkpoint-2500/model.safetensors +1 -1
run-0/checkpoint-2500/optimizer.pt +1 -1
run-0/checkpoint-2500/trainer_state.json +48 -48
run-0/checkpoint-2500/training_args.bin +1 -1
run-0/checkpoint-3000/trainer_state.json +60 -60
run-0/checkpoint-3180/trainer_state.json +60 -60
runs/Nov25_08-56-26_a78cb449300a/events.out.tfevents.1732527563.a78cb449300a.701.5 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20677a90a3902cf3ed56f86f8b03f6bea9f7c430589a4a8bb04004321c23daab
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:483d35db5a9e0274d13ceb4de46f67de2ae9de87d1c21da4b62e40ba3bbc1f19
 size 268290900

run-0/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:810e8876309e6d15ec5e71c08ce62cf51942173ed66e3332d73d89182138b579
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3d640f9bf98101fcc034503bc61321b86543de3a0036482b49086c4f7da396b
 size 268290900

run-0/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:722f488eaad699d0c12b887a8c7947a6a9c826ce769623df0f7c576f69ccd0e1
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:610924d4ae41c92e1ad4bd4f7c4e02c16664d9aebde0a8bdd446077ed8454b61
 size 536643898

run-0/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5d96ed9889a2a02e4c7dbb49c09c58f3c154dfd2cb3d0452d915d37d9ed5e34
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:235bcd30eb5caaf6d85f48a7cbef42afd59119224ef62ab684da9f5c869126f8
 size 5368

run-0/checkpoint-2500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a246e5230d38af6cf9f93cee2665907d5e74a83c1a33d7b5c442ec611b802e59
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:483d35db5a9e0274d13ceb4de46f67de2ae9de87d1c21da4b62e40ba3bbc1f19
 size 268290900

run-0/checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d979e8c2f1b7dba595846d46141e59fc1aa4942a71fbda98924d26079cf7b75
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:3014391ab26e9b29773098600d9ab8455dbbaa9458a51dee7201d109b305abd4
 size 536643898

run-0/checkpoint-2500/trainer_state.json CHANGED Viewed

@@ -10,100 +10,100 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5903225806451613,
-      "eval_loss": 0.19605161249637604,
-      "eval_runtime": 5.6751,
-      "eval_samples_per_second": 546.248,
-      "eval_steps_per_second": 11.454,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.4525008201599121,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3162,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.827741935483871,
-      "eval_loss": 0.09383596479892731,
-      "eval_runtime": 5.6161,
-      "eval_samples_per_second": 551.986,
-      "eval_steps_per_second": 11.574,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8870967741935484,
-      "eval_loss": 0.06216968968510628,
-      "eval_runtime": 5.3402,
-      "eval_samples_per_second": 580.504,
-      "eval_steps_per_second": 12.172,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.5138508081436157,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1093,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8974193548387097,
-      "eval_loss": 0.04743651673197746,
-      "eval_runtime": 5.4223,
-      "eval_samples_per_second": 571.718,
-      "eval_steps_per_second": 11.988,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3047187328338623,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0688,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9132258064516129,
-      "eval_loss": 0.03883032500743866,
-      "eval_runtime": 5.5799,
-      "eval_samples_per_second": 555.57,
-      "eval_steps_per_second": 11.649,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.917741935483871,
-      "eval_loss": 0.03374071046710014,
-      "eval_runtime": 5.3892,
-      "eval_samples_per_second": 575.22,
-      "eval_steps_per_second": 12.061,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.22965875267982483,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0537,
       "step": 2000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9209677419354839,
-      "eval_loss": 0.03097311407327652,
-      "eval_runtime": 5.5045,
-      "eval_samples_per_second": 563.176,
-      "eval_steps_per_second": 11.809,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
-      "grad_norm": 0.2030441015958786,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0464,
       "step": 2500
     }
   ],
@@ -124,12 +124,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 651155886807636.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.435694601680663,
     "num_train_epochs": 10,
-    "temperature": 12
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6106451612903225,
+      "eval_loss": 0.2180573046207428,
+      "eval_runtime": 5.4236,
+      "eval_samples_per_second": 571.576,
+      "eval_steps_per_second": 11.985,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5000836253166199,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3508,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8367741935483871,
+      "eval_loss": 0.10006564110517502,
+      "eval_runtime": 5.9594,
+      "eval_samples_per_second": 520.188,
+      "eval_steps_per_second": 10.907,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8880645161290323,
+      "eval_loss": 0.06387896835803986,
+      "eval_runtime": 5.4554,
+      "eval_samples_per_second": 568.241,
+      "eval_steps_per_second": 11.915,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5663716197013855,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1169,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.04769841209053993,
+      "eval_runtime": 5.432,
+      "eval_samples_per_second": 570.695,
+      "eval_steps_per_second": 11.966,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3216884136199951,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0714,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9170967741935484,
+      "eval_loss": 0.0384916327893734,
+      "eval_runtime": 5.6786,
+      "eval_samples_per_second": 545.913,
+      "eval_steps_per_second": 11.447,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9183870967741935,
+      "eval_loss": 0.0333557203412056,
+      "eval_runtime": 5.4625,
+      "eval_samples_per_second": 567.504,
+      "eval_steps_per_second": 11.899,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.24820531904697418,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.055,
       "step": 2000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9245161290322581,
+      "eval_loss": 0.030584245920181274,
+      "eval_runtime": 5.5639,
+      "eval_samples_per_second": 557.166,
+      "eval_steps_per_second": 11.683,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
+      "grad_norm": 0.21355891227722168,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0474,
       "step": 2500
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 756659102663436.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.14463960620576077,
     "num_train_epochs": 10,
+    "temperature": 6
   }
 }

run-0/checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5d96ed9889a2a02e4c7dbb49c09c58f3c154dfd2cb3d0452d915d37d9ed5e34
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:235bcd30eb5caaf6d85f48a7cbef42afd59119224ef62ab684da9f5c869126f8
 size 5368

run-0/checkpoint-3000/trainer_state.json CHANGED Viewed

@@ -10,125 +10,125 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5903225806451613,
-      "eval_loss": 0.19605161249637604,
-      "eval_runtime": 5.6751,
-      "eval_samples_per_second": 546.248,
-      "eval_steps_per_second": 11.454,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.4525008201599121,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3162,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.827741935483871,
-      "eval_loss": 0.09383596479892731,
-      "eval_runtime": 5.6161,
-      "eval_samples_per_second": 551.986,
-      "eval_steps_per_second": 11.574,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8870967741935484,
-      "eval_loss": 0.06216968968510628,
-      "eval_runtime": 5.3402,
-      "eval_samples_per_second": 580.504,
-      "eval_steps_per_second": 12.172,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.5138508081436157,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1093,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8974193548387097,
-      "eval_loss": 0.04743651673197746,
-      "eval_runtime": 5.4223,
-      "eval_samples_per_second": 571.718,
-      "eval_steps_per_second": 11.988,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3047187328338623,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0688,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9132258064516129,
-      "eval_loss": 0.03883032500743866,
-      "eval_runtime": 5.5799,
-      "eval_samples_per_second": 555.57,
-      "eval_steps_per_second": 11.649,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.917741935483871,
-      "eval_loss": 0.03374071046710014,
-      "eval_runtime": 5.3892,
-      "eval_samples_per_second": 575.22,
-      "eval_steps_per_second": 12.061,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.22965875267982483,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0537,
       "step": 2000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9209677419354839,
-      "eval_loss": 0.03097311407327652,
-      "eval_runtime": 5.5045,
-      "eval_samples_per_second": 563.176,
-      "eval_steps_per_second": 11.809,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
-      "grad_norm": 0.2030441015958786,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0464,
       "step": 2500
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9238709677419354,
-      "eval_loss": 0.028694752603769302,
-      "eval_runtime": 5.6886,
-      "eval_samples_per_second": 544.953,
-      "eval_steps_per_second": 11.426,
       "step": 2544
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.927741935483871,
-      "eval_loss": 0.02778397873044014,
-      "eval_runtime": 5.3317,
-      "eval_samples_per_second": 581.426,
-      "eval_steps_per_second": 12.191,
       "step": 2862
     },
     {
       "epoch": 9.433962264150944,
-      "grad_norm": 0.21865826845169067,
       "learning_rate": 1.1320754716981133e-06,
-      "loss": 0.043,
       "step": 3000
     }
   ],
@@ -149,12 +149,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 780738843279612.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.435694601680663,
     "num_train_epochs": 10,
-    "temperature": 12
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6106451612903225,
+      "eval_loss": 0.2180573046207428,
+      "eval_runtime": 5.4236,
+      "eval_samples_per_second": 571.576,
+      "eval_steps_per_second": 11.985,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5000836253166199,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3508,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8367741935483871,
+      "eval_loss": 0.10006564110517502,
+      "eval_runtime": 5.9594,
+      "eval_samples_per_second": 520.188,
+      "eval_steps_per_second": 10.907,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8880645161290323,
+      "eval_loss": 0.06387896835803986,
+      "eval_runtime": 5.4554,
+      "eval_samples_per_second": 568.241,
+      "eval_steps_per_second": 11.915,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5663716197013855,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1169,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.04769841209053993,
+      "eval_runtime": 5.432,
+      "eval_samples_per_second": 570.695,
+      "eval_steps_per_second": 11.966,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3216884136199951,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0714,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9170967741935484,
+      "eval_loss": 0.0384916327893734,
+      "eval_runtime": 5.6786,
+      "eval_samples_per_second": 545.913,
+      "eval_steps_per_second": 11.447,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9183870967741935,
+      "eval_loss": 0.0333557203412056,
+      "eval_runtime": 5.4625,
+      "eval_samples_per_second": 567.504,
+      "eval_steps_per_second": 11.899,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.24820531904697418,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.055,
       "step": 2000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9245161290322581,
+      "eval_loss": 0.030584245920181274,
+      "eval_runtime": 5.5639,
+      "eval_samples_per_second": 557.166,
+      "eval_steps_per_second": 11.683,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
+      "grad_norm": 0.21355891227722168,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0474,
       "step": 2500
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9251612903225807,
+      "eval_loss": 0.028302712365984917,
+      "eval_runtime": 5.6339,
+      "eval_samples_per_second": 550.241,
+      "eval_steps_per_second": 11.537,
       "step": 2544
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9270967741935484,
+      "eval_loss": 0.027429578825831413,
+      "eval_runtime": 5.6922,
+      "eval_samples_per_second": 544.6,
+      "eval_steps_per_second": 11.419,
       "step": 2862
     },
     {
       "epoch": 9.433962264150944,
+      "grad_norm": 0.22619187831878662,
       "learning_rate": 1.1320754716981133e-06,
+      "loss": 0.0438,
       "step": 3000
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 886242059135412.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.14463960620576077,
     "num_train_epochs": 10,
+    "temperature": 6
   }
 }

run-0/checkpoint-3180/trainer_state.json CHANGED Viewed

@@ -10,125 +10,125 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5903225806451613,
-      "eval_loss": 0.19605161249637604,
-      "eval_runtime": 5.6751,
-      "eval_samples_per_second": 546.248,
-      "eval_steps_per_second": 11.454,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.4525008201599121,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3162,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.827741935483871,
-      "eval_loss": 0.09383596479892731,
-      "eval_runtime": 5.6161,
-      "eval_samples_per_second": 551.986,
-      "eval_steps_per_second": 11.574,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8870967741935484,
-      "eval_loss": 0.06216968968510628,
-      "eval_runtime": 5.3402,
-      "eval_samples_per_second": 580.504,
-      "eval_steps_per_second": 12.172,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.5138508081436157,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1093,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8974193548387097,
-      "eval_loss": 0.04743651673197746,
-      "eval_runtime": 5.4223,
-      "eval_samples_per_second": 571.718,
-      "eval_steps_per_second": 11.988,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3047187328338623,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0688,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9132258064516129,
-      "eval_loss": 0.03883032500743866,
-      "eval_runtime": 5.5799,
-      "eval_samples_per_second": 555.57,
-      "eval_steps_per_second": 11.649,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.917741935483871,
-      "eval_loss": 0.03374071046710014,
-      "eval_runtime": 5.3892,
-      "eval_samples_per_second": 575.22,
-      "eval_steps_per_second": 12.061,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.22965875267982483,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0537,
       "step": 2000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9209677419354839,
-      "eval_loss": 0.03097311407327652,
-      "eval_runtime": 5.5045,
-      "eval_samples_per_second": 563.176,
-      "eval_steps_per_second": 11.809,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
-      "grad_norm": 0.2030441015958786,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0464,
       "step": 2500
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9238709677419354,
-      "eval_loss": 0.028694752603769302,
-      "eval_runtime": 5.6886,
-      "eval_samples_per_second": 544.953,
-      "eval_steps_per_second": 11.426,
       "step": 2544
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.927741935483871,
-      "eval_loss": 0.02778397873044014,
-      "eval_runtime": 5.3317,
-      "eval_samples_per_second": 581.426,
-      "eval_steps_per_second": 12.191,
       "step": 2862
     },
     {
       "epoch": 9.433962264150944,
-      "grad_norm": 0.21865826845169067,
       "learning_rate": 1.1320754716981133e-06,
-      "loss": 0.043,
       "step": 3000
     }
   ],
@@ -149,12 +149,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 780738843279612.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.435694601680663,
     "num_train_epochs": 10,
-    "temperature": 12
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6106451612903225,
+      "eval_loss": 0.2180573046207428,
+      "eval_runtime": 5.4236,
+      "eval_samples_per_second": 571.576,
+      "eval_steps_per_second": 11.985,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5000836253166199,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3508,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8367741935483871,
+      "eval_loss": 0.10006564110517502,
+      "eval_runtime": 5.9594,
+      "eval_samples_per_second": 520.188,
+      "eval_steps_per_second": 10.907,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8880645161290323,
+      "eval_loss": 0.06387896835803986,
+      "eval_runtime": 5.4554,
+      "eval_samples_per_second": 568.241,
+      "eval_steps_per_second": 11.915,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.5663716197013855,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.1169,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.04769841209053993,
+      "eval_runtime": 5.432,
+      "eval_samples_per_second": 570.695,
+      "eval_steps_per_second": 11.966,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3216884136199951,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0714,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9170967741935484,
+      "eval_loss": 0.0384916327893734,
+      "eval_runtime": 5.6786,
+      "eval_samples_per_second": 545.913,
+      "eval_steps_per_second": 11.447,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9183870967741935,
+      "eval_loss": 0.0333557203412056,
+      "eval_runtime": 5.4625,
+      "eval_samples_per_second": 567.504,
+      "eval_steps_per_second": 11.899,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.24820531904697418,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.055,
       "step": 2000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9245161290322581,
+      "eval_loss": 0.030584245920181274,
+      "eval_runtime": 5.5639,
+      "eval_samples_per_second": 557.166,
+      "eval_steps_per_second": 11.683,
       "step": 2226
     },
     {
       "epoch": 7.861635220125786,
+      "grad_norm": 0.21355891227722168,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0474,
       "step": 2500
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9251612903225807,
+      "eval_loss": 0.028302712365984917,
+      "eval_runtime": 5.6339,
+      "eval_samples_per_second": 550.241,
+      "eval_steps_per_second": 11.537,
       "step": 2544
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9270967741935484,
+      "eval_loss": 0.027429578825831413,
+      "eval_runtime": 5.6922,
+      "eval_samples_per_second": 544.6,
+      "eval_steps_per_second": 11.419,
       "step": 2862
     },
     {
       "epoch": 9.433962264150944,
+      "grad_norm": 0.22619187831878662,
       "learning_rate": 1.1320754716981133e-06,
+      "loss": 0.0438,
       "step": 3000
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 886242059135412.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.14463960620576077,
     "num_train_epochs": 10,
+    "temperature": 6
   }
 }

runs/Nov25_08-56-26_a78cb449300a/events.out.tfevents.1732527563.a78cb449300a.701.5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a64f52802c4a29ad4d65081f04203af0eb1930054d2699f505e96c9636e8de97
-size 30063

 version https://git-lfs.github.com/spec/v1
+oid sha256:06181206223d415c8f4cacccfdbc0686a5356fd2f9d84b91484ded39cd6be4fa
+size 31454