cezeozue commited on Jan 25

Commit

a4967b9

•

1 Parent(s): f904c3e

Training in progress, step 2500

Browse files

Files changed (18) hide show

model.safetensors +1 -1
run-10/checkpoint-1000/model.safetensors +1 -1
run-10/checkpoint-1000/optimizer.pt +1 -1
run-10/checkpoint-1000/trainer_state.json +20 -20
run-10/checkpoint-1000/training_args.bin +1 -1
run-10/checkpoint-1500/model.safetensors +1 -1
run-10/checkpoint-1500/optimizer.pt +1 -1
run-10/checkpoint-1500/trainer_state.json +26 -26
run-10/checkpoint-1500/training_args.bin +1 -1
run-10/checkpoint-2000/model.safetensors +1 -1
run-10/checkpoint-2000/optimizer.pt +1 -1
run-10/checkpoint-2000/trainer_state.json +36 -36
run-10/checkpoint-2000/training_args.bin +1 -1
run-10/checkpoint-2500/model.safetensors +1 -1
run-10/checkpoint-2500/optimizer.pt +1 -1
run-10/checkpoint-2500/trainer_state.json +42 -42
run-10/checkpoint-2500/training_args.bin +1 -1
runs/Jan25_17-40-54_c146da53f02f/events.out.tfevents.1706209036.c146da53f02f.3236.11 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:909721e820f8a7858935155bda1e62e574820c37a5d64131f47d2f24a9cfcacb
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:eac1cce5e5410e57d71489c02c27b3b2af6e3aa248217249170091e83a0f6878
 size 268290900

run-10/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d6932a93af79c9e4747e455fda2d1176497efb879c59250b1e1b7bc52f350b2
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5488b1fd75bc225f0465e85708beee9d03dca3da18beab40db0b6de9131562a
 size 268290900

run-10/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d911fd34d2f3cb8dae21ef6011cf533414404b6592194a7926ffb47a5337b492
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:c617ec75c21f636b743e5354494e46c9458f994d4761b7f3e23fc2931d61a5c8
 size 536643898

run-10/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -10,41 +10,41 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5929032258064516,
-      "eval_loss": 0.19686882197856903,
-      "eval_runtime": 5.3992,
-      "eval_samples_per_second": 574.162,
-      "eval_steps_per_second": 12.039,
       "step": 318
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3149,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8416129032258064,
-      "eval_loss": 0.09490782022476196,
-      "eval_runtime": 5.4571,
-      "eval_samples_per_second": 568.065,
-      "eval_steps_per_second": 11.911,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8938709677419355,
-      "eval_loss": 0.06310474872589111,
-      "eval_runtime": 5.4013,
-      "eval_samples_per_second": 573.935,
-      "eval_steps_per_second": 12.034,
       "step": 954
     },
     {
       "epoch": 3.14,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1093,
       "step": 1000
     }
   ],
@@ -52,11 +52,11 @@
   "max_steps": 3180,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 400953207486132.0,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1451722512397559,
     "num_train_epochs": 10,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6035483870967742,
+      "eval_loss": 0.2065293788909912,
+      "eval_runtime": 5.4973,
+      "eval_samples_per_second": 563.918,
+      "eval_steps_per_second": 11.824,
       "step": 318
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3298,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8422580645161291,
+      "eval_loss": 0.09804486483335495,
+      "eval_runtime": 5.6345,
+      "eval_samples_per_second": 550.179,
+      "eval_steps_per_second": 11.536,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8964516129032258,
+      "eval_loss": 0.06418585777282715,
+      "eval_runtime": 5.5011,
+      "eval_samples_per_second": 563.528,
+      "eval_steps_per_second": 11.816,
       "step": 954
     },
     {
       "epoch": 3.14,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.113,
       "step": 1000
     }
   ],
   "max_steps": 3180,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 259653090321324.0,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.10298372805208489,
     "num_train_epochs": 10,
+    "temperature": 9
   }
 }

run-10/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb35f8dd4016b76d51232ce8b58b91b877adcb6c836af64b8e70048a18fdaae2
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4877bbd4bf8c3b4c2d0a169a9c195b85ebd557cc55dabfa43eadab9c9abe3fd
 size 4664

run-10/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9edbd771b7fb84ea3e8f82fa1685fc0dba5eb395241a0e289c3e2609479c330
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:d046f7f0f9f1d524adf8bb4905dc8a86f7aaf45fe0e66d01efad26ccd78eb218
 size 268290900

run-10/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c761dc90c89d08084f78b18c4915c010a87b9d0ccba04efecd2c4cd05990a73
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:89353e37fe4fbc594afa43fd3e441c6e8c6ad935dc6a149d555cef603eaded63
 size 536643898

run-10/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,56 +10,56 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5929032258064516,
-      "eval_loss": 0.19686882197856903,
-      "eval_runtime": 5.3992,
-      "eval_samples_per_second": 574.162,
-      "eval_steps_per_second": 12.039,
       "step": 318
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3149,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8416129032258064,
-      "eval_loss": 0.09490782022476196,
-      "eval_runtime": 5.4571,
-      "eval_samples_per_second": 568.065,
-      "eval_steps_per_second": 11.911,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8938709677419355,
-      "eval_loss": 0.06310474872589111,
-      "eval_runtime": 5.4013,
-      "eval_samples_per_second": 573.935,
-      "eval_steps_per_second": 12.034,
       "step": 954
     },
     {
       "epoch": 3.14,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1093,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.04744185879826546,
-      "eval_runtime": 5.4117,
-      "eval_samples_per_second": 572.834,
-      "eval_steps_per_second": 12.011,
       "step": 1272
     },
     {
       "epoch": 4.72,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0689,
       "step": 1500
     }
   ],
@@ -67,11 +67,11 @@
   "max_steps": 3180,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 530779493233920.0,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1451722512397559,
     "num_train_epochs": 10,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6035483870967742,
+      "eval_loss": 0.2065293788909912,
+      "eval_runtime": 5.4973,
+      "eval_samples_per_second": 563.918,
+      "eval_steps_per_second": 11.824,
       "step": 318
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3298,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8422580645161291,
+      "eval_loss": 0.09804486483335495,
+      "eval_runtime": 5.6345,
+      "eval_samples_per_second": 550.179,
+      "eval_steps_per_second": 11.536,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8964516129032258,
+      "eval_loss": 0.06418585777282715,
+      "eval_runtime": 5.5011,
+      "eval_samples_per_second": 563.528,
+      "eval_steps_per_second": 11.816,
       "step": 954
     },
     {
       "epoch": 3.14,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.113,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9045161290322581,
+      "eval_loss": 0.04777143895626068,
+      "eval_runtime": 5.6659,
+      "eval_samples_per_second": 547.133,
+      "eval_steps_per_second": 11.472,
       "step": 1272
     },
     {
       "epoch": 4.72,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0703,
       "step": 1500
     }
   ],
   "max_steps": 3180,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 389479376069112.0,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.10298372805208489,
     "num_train_epochs": 10,
+    "temperature": 9
   }
 }

run-10/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb35f8dd4016b76d51232ce8b58b91b877adcb6c836af64b8e70048a18fdaae2
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4877bbd4bf8c3b4c2d0a169a9c195b85ebd557cc55dabfa43eadab9c9abe3fd
 size 4664

run-10/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb6a9179bf089f9691f3b2e0a3a2c4805af497ea41972721533587fbdf018db
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:44ddd496d9bff9e72be53b8931dae02308ef56156956545f8ff8644c5b1a740f
 size 268290900

run-10/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83f646434e3c8ec08005e09b55b9b25aac55d54a30f38806b03f5bcc8894c064
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:98e239fb88bbadd95b3ff46d1d2f73a66c219259e916926dc745b45ffbb9ef9b
 size 536643898

run-10/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,80 +10,80 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5929032258064516,
-      "eval_loss": 0.19686882197856903,
-      "eval_runtime": 5.3992,
-      "eval_samples_per_second": 574.162,
-      "eval_steps_per_second": 12.039,
       "step": 318
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3149,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8416129032258064,
-      "eval_loss": 0.09490782022476196,
-      "eval_runtime": 5.4571,
-      "eval_samples_per_second": 568.065,
-      "eval_steps_per_second": 11.911,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8938709677419355,
-      "eval_loss": 0.06310474872589111,
-      "eval_runtime": 5.4013,
-      "eval_samples_per_second": 573.935,
-      "eval_steps_per_second": 12.034,
       "step": 954
     },
     {
       "epoch": 3.14,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1093,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.04744185879826546,
-      "eval_runtime": 5.4117,
-      "eval_samples_per_second": 572.834,
-      "eval_steps_per_second": 12.011,
       "step": 1272
     },
     {
       "epoch": 4.72,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0689,
       "step": 1500
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.9151612903225806,
-      "eval_loss": 0.03924418240785599,
-      "eval_runtime": 5.5557,
-      "eval_samples_per_second": 557.989,
-      "eval_steps_per_second": 11.7,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.917741935483871,
-      "eval_loss": 0.03422646224498749,
-      "eval_runtime": 5.3885,
-      "eval_samples_per_second": 575.3,
-      "eval_steps_per_second": 12.063,
       "step": 1908
     },
     {
       "epoch": 6.29,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0539,
       "step": 2000
     }
   ],
@@ -91,11 +91,11 @@
   "max_steps": 3180,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 661227332227812.0,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1451722512397559,
     "num_train_epochs": 10,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6035483870967742,
+      "eval_loss": 0.2065293788909912,
+      "eval_runtime": 5.4973,
+      "eval_samples_per_second": 563.918,
+      "eval_steps_per_second": 11.824,
       "step": 318
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3298,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8422580645161291,
+      "eval_loss": 0.09804486483335495,
+      "eval_runtime": 5.6345,
+      "eval_samples_per_second": 550.179,
+      "eval_steps_per_second": 11.536,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8964516129032258,
+      "eval_loss": 0.06418585777282715,
+      "eval_runtime": 5.5011,
+      "eval_samples_per_second": 563.528,
+      "eval_steps_per_second": 11.816,
       "step": 954
     },
     {
       "epoch": 3.14,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.113,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9045161290322581,
+      "eval_loss": 0.04777143895626068,
+      "eval_runtime": 5.6659,
+      "eval_samples_per_second": 547.133,
+      "eval_steps_per_second": 11.472,
       "step": 1272
     },
     {
       "epoch": 4.72,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0703,
       "step": 1500
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.9151612903225806,
+      "eval_loss": 0.03928793966770172,
+      "eval_runtime": 5.7374,
+      "eval_samples_per_second": 540.317,
+      "eval_steps_per_second": 11.329,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9193548387096774,
+      "eval_loss": 0.034144770354032516,
+      "eval_runtime": 5.8666,
+      "eval_samples_per_second": 528.418,
+      "eval_steps_per_second": 11.08,
       "step": 1908
     },
     {
       "epoch": 6.29,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.0547,
       "step": 2000
     }
   ],
   "max_steps": 3180,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 519927215063004.0,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.10298372805208489,
     "num_train_epochs": 10,
+    "temperature": 9
   }
 }

run-10/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb35f8dd4016b76d51232ce8b58b91b877adcb6c836af64b8e70048a18fdaae2
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4877bbd4bf8c3b4c2d0a169a9c195b85ebd557cc55dabfa43eadab9c9abe3fd
 size 4664

run-10/checkpoint-2500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ab1f84f99c7cb98ccf398ad727c0c1d12c8e55abca84f5e6391fa74c651a840
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:eac1cce5e5410e57d71489c02c27b3b2af6e3aa248217249170091e83a0f6878
 size 268290900

run-10/checkpoint-2500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70db23d4ed939a132446846331253447731390e3efec0825d1d709a0000e134f
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a948e2d7f8b7e0f8a1978c8146934316446d1c6d9823f7ea2c8496e3f39d3af
 size 536643898

run-10/checkpoint-2500/trainer_state.json CHANGED Viewed

@@ -10,95 +10,95 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5929032258064516,
-      "eval_loss": 0.19686882197856903,
-      "eval_runtime": 5.3992,
-      "eval_samples_per_second": 574.162,
-      "eval_steps_per_second": 12.039,
       "step": 318
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3149,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8416129032258064,
-      "eval_loss": 0.09490782022476196,
-      "eval_runtime": 5.4571,
-      "eval_samples_per_second": 568.065,
-      "eval_steps_per_second": 11.911,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8938709677419355,
-      "eval_loss": 0.06310474872589111,
-      "eval_runtime": 5.4013,
-      "eval_samples_per_second": 573.935,
-      "eval_steps_per_second": 12.034,
       "step": 954
     },
     {
       "epoch": 3.14,
       "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1093,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9032258064516129,
-      "eval_loss": 0.04744185879826546,
-      "eval_runtime": 5.4117,
-      "eval_samples_per_second": 572.834,
-      "eval_steps_per_second": 12.011,
       "step": 1272
     },
     {
       "epoch": 4.72,
       "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.0689,
       "step": 1500
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.9151612903225806,
-      "eval_loss": 0.03924418240785599,
-      "eval_runtime": 5.5557,
-      "eval_samples_per_second": 557.989,
-      "eval_steps_per_second": 11.7,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.917741935483871,
-      "eval_loss": 0.03422646224498749,
-      "eval_runtime": 5.3885,
-      "eval_samples_per_second": 575.3,
-      "eval_steps_per_second": 12.063,
       "step": 1908
     },
     {
       "epoch": 6.29,
       "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0539,
       "step": 2000
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9190322580645162,
-      "eval_loss": 0.03100522980093956,
-      "eval_runtime": 5.4997,
-      "eval_samples_per_second": 563.666,
-      "eval_steps_per_second": 11.819,
       "step": 2226
     },
     {
       "epoch": 7.86,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0466,
       "step": 2500
     }
   ],
@@ -106,11 +106,11 @@
   "max_steps": 3180,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 790936363356552.0,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1451722512397559,
     "num_train_epochs": 10,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6035483870967742,
+      "eval_loss": 0.2065293788909912,
+      "eval_runtime": 5.4973,
+      "eval_samples_per_second": 563.918,
+      "eval_steps_per_second": 11.824,
       "step": 318
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.685534591194969e-05,
+      "loss": 0.3298,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8422580645161291,
+      "eval_loss": 0.09804486483335495,
+      "eval_runtime": 5.6345,
+      "eval_samples_per_second": 550.179,
+      "eval_steps_per_second": 11.536,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8964516129032258,
+      "eval_loss": 0.06418585777282715,
+      "eval_runtime": 5.5011,
+      "eval_samples_per_second": 563.528,
+      "eval_steps_per_second": 11.816,
       "step": 954
     },
     {
       "epoch": 3.14,
       "learning_rate": 1.371069182389937e-05,
+      "loss": 0.113,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9045161290322581,
+      "eval_loss": 0.04777143895626068,
+      "eval_runtime": 5.6659,
+      "eval_samples_per_second": 547.133,
+      "eval_steps_per_second": 11.472,
       "step": 1272
     },
     {
       "epoch": 4.72,
       "learning_rate": 1.0566037735849058e-05,
+      "loss": 0.0703,
       "step": 1500
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.9151612903225806,
+      "eval_loss": 0.03928793966770172,
+      "eval_runtime": 5.7374,
+      "eval_samples_per_second": 540.317,
+      "eval_steps_per_second": 11.329,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9193548387096774,
+      "eval_loss": 0.034144770354032516,
+      "eval_runtime": 5.8666,
+      "eval_samples_per_second": 528.418,
+      "eval_steps_per_second": 11.08,
       "step": 1908
     },
     {
       "epoch": 6.29,
       "learning_rate": 7.421383647798742e-06,
+      "loss": 0.0547,
       "step": 2000
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9216129032258065,
+      "eval_loss": 0.03088981844484806,
+      "eval_runtime": 5.6168,
+      "eval_samples_per_second": 551.918,
+      "eval_steps_per_second": 11.572,
       "step": 2226
     },
     {
       "epoch": 7.86,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0471,
       "step": 2500
     }
   ],
   "max_steps": 3180,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 649636246191744.0,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.10298372805208489,
     "num_train_epochs": 10,
+    "temperature": 9
   }
 }

run-10/checkpoint-2500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb35f8dd4016b76d51232ce8b58b91b877adcb6c836af64b8e70048a18fdaae2
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4877bbd4bf8c3b4c2d0a169a9c195b85ebd557cc55dabfa43eadab9c9abe3fd
 size 4664

runs/Jan25_17-40-54_c146da53f02f/events.out.tfevents.1706209036.c146da53f02f.3236.11 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed0d8dd27bd2283017b5c43cdab1144abd6bf2335b06ba83f58b18d215f3414b
-size 14408

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f3cea5f9b1c5f185363e75ce60869c1b39ff69e09529fa18dc3434494e04700
+size 15534