Training in progress, epoch 1

Browse files

Files changed (6) hide show

all_results.json +4 -4
model.safetensors +1 -1
runs/May04_08-04-48_4f22111e1b44/events.out.tfevents.1714809902.4f22111e1b44.9006.7 +3 -0
train_results.json +4 -4
trainer_state.json +34 -34
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -6,8 +6,8 @@
     "eval_samples_per_second": 76.103,
     "eval_steps_per_second": 2.393,
     "total_flos": 1.477984078577664e+17,
-    "train_loss": 0.0,
-    "train_runtime": 167.7096,
-    "train_samples_per_second": 44.243,
-    "train_steps_per_second": 0.328
 }

     "eval_samples_per_second": 76.103,
     "eval_steps_per_second": 2.393,
     "total_flos": 1.477984078577664e+17,
+    "train_loss": 3.320157440986396e+22,
+    "train_runtime": 166.0473,
+    "train_samples_per_second": 44.686,
+    "train_steps_per_second": 0.331
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83218fc677ef895342b4874306a47dd0b316a563b91ba4c24f45fc17c74d9e8e
 size 94302952

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a4224349105ff6362d0f6292f347ad3360f20520fe3d5180e17dcc776df27ef
 size 94302952

runs/May04_08-04-48_4f22111e1b44/events.out.tfevents.1714809902.4f22111e1b44.9006.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f596106547d26c1d43480a7d5aac25f624c2ab7b1f1cb30b4d77065256c725cb
+size 5991

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.680851063829787,
     "total_flos": 1.477984078577664e+17,
-    "train_loss": 0.0,
-    "train_runtime": 167.7096,
-    "train_samples_per_second": 44.243,
-    "train_steps_per_second": 0.328
 }

 {
     "epoch": 4.680851063829787,
     "total_flos": 1.477984078577664e+17,
+    "train_loss": 3.320157440986396e+22,
+    "train_runtime": 166.0473,
+    "train_samples_per_second": 44.686,
+    "train_steps_per_second": 0.331
 }

trainer_state.json CHANGED Viewed

@@ -10,92 +10,92 @@
   "log_history": [
     {
       "epoch": 0.851063829787234,
-      "grad_norm": NaN,
       "learning_rate": 4.591836734693878e-05,
-      "loss": 0.0,
       "step": 10
     },
     {
       "epoch": 0.9361702127659575,
       "eval_accuracy": 0.4889937106918239,
-      "eval_loss": NaN,
-      "eval_runtime": 8.3443,
-      "eval_samples_per_second": 76.22,
-      "eval_steps_per_second": 2.397,
       "step": 11
     },
     {
       "epoch": 1.702127659574468,
-      "grad_norm": NaN,
       "learning_rate": 3.571428571428572e-05,
-      "loss": 0.0,
       "step": 20
     },
     {
       "epoch": 1.9574468085106385,
       "eval_accuracy": 0.4889937106918239,
-      "eval_loss": NaN,
-      "eval_runtime": 7.5463,
-      "eval_samples_per_second": 84.28,
-      "eval_steps_per_second": 2.65,
       "step": 23
     },
     {
       "epoch": 2.5531914893617023,
-      "grad_norm": NaN,
       "learning_rate": 2.5510204081632654e-05,
-      "loss": 0.0,
       "step": 30
     },
     {
       "epoch": 2.978723404255319,
       "eval_accuracy": 0.4889937106918239,
-      "eval_loss": NaN,
-      "eval_runtime": 8.3005,
-      "eval_samples_per_second": 76.621,
-      "eval_steps_per_second": 2.409,
       "step": 35
     },
     {
       "epoch": 3.404255319148936,
-      "grad_norm": NaN,
       "learning_rate": 1.5306122448979594e-05,
-      "loss": 0.0,
       "step": 40
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.4889937106918239,
-      "eval_loss": NaN,
-      "eval_runtime": 14.6795,
-      "eval_samples_per_second": 43.326,
-      "eval_steps_per_second": 1.362,
       "step": 47
     },
     {
       "epoch": 4.25531914893617,
-      "grad_norm": NaN,
       "learning_rate": 5.102040816326531e-06,
-      "loss": 0.0,
       "step": 50
     },
     {
       "epoch": 4.680851063829787,
       "eval_accuracy": 0.4889937106918239,
-      "eval_loss": NaN,
-      "eval_runtime": 7.5742,
-      "eval_samples_per_second": 83.969,
-      "eval_steps_per_second": 2.641,
       "step": 55
     },
     {
       "epoch": 4.680851063829787,
       "step": 55,
       "total_flos": 1.477984078577664e+17,
-      "train_loss": 0.0,
-      "train_runtime": 167.7096,
-      "train_samples_per_second": 44.243,
-      "train_steps_per_second": 0.328
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.851063829787234,
+      "grad_norm": 492.8765869140625,
       "learning_rate": 4.591836734693878e-05,
+      "loss": 3.371893679888266e+22,
       "step": 10
     },
     {
       "epoch": 0.9361702127659575,
       "eval_accuracy": 0.4889937106918239,
+      "eval_loss": 3.489738920977707e+22,
+      "eval_runtime": 7.7509,
+      "eval_samples_per_second": 82.055,
+      "eval_steps_per_second": 2.58,
       "step": 11
     },
     {
       "epoch": 1.702127659574468,
+      "grad_norm": 954.1488647460938,
       "learning_rate": 3.571428571428572e-05,
+      "loss": 3.243846974994898e+22,
       "step": 20
     },
     {
       "epoch": 1.9574468085106385,
       "eval_accuracy": 0.4889937106918239,
+      "eval_loss": 3.489738920977707e+22,
+      "eval_runtime": 8.4777,
+      "eval_samples_per_second": 75.021,
+      "eval_steps_per_second": 2.359,
       "step": 23
     },
     {
       "epoch": 2.5531914893617023,
+      "grad_norm": 704.236083984375,
       "learning_rate": 2.5510204081632654e-05,
+      "loss": 3.336324610319264e+22,
       "step": 30
     },
     {
       "epoch": 2.978723404255319,
       "eval_accuracy": 0.4889937106918239,
+      "eval_loss": 3.489738920977707e+22,
+      "eval_runtime": 8.3616,
+      "eval_samples_per_second": 76.062,
+      "eval_steps_per_second": 2.392,
       "step": 35
     },
     {
       "epoch": 3.404255319148936,
+      "grad_norm": 400.68768310546875,
       "learning_rate": 1.5306122448979594e-05,
+      "loss": 3.295420756775664e+22,
       "step": 40
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.4889937106918239,
+      "eval_loss": 3.489738920977707e+22,
+      "eval_runtime": 8.378,
+      "eval_samples_per_second": 75.913,
+      "eval_steps_per_second": 2.387,
       "step": 47
     },
     {
       "epoch": 4.25531914893617,
+      "grad_norm": 1062.6368408203125,
       "learning_rate": 5.102040816326531e-06,
+      "loss": 3.2794156842759295e+22,
       "step": 50
     },
     {
       "epoch": 4.680851063829787,
       "eval_accuracy": 0.4889937106918239,
+      "eval_loss": 3.489738920977707e+22,
+      "eval_runtime": 8.4114,
+      "eval_samples_per_second": 75.612,
+      "eval_steps_per_second": 2.378,
       "step": 55
     },
     {
       "epoch": 4.680851063829787,
       "step": 55,
       "total_flos": 1.477984078577664e+17,
+      "train_loss": 3.320157440986396e+22,
+      "train_runtime": 166.0473,
+      "train_samples_per_second": 44.686,
+      "train_steps_per_second": 0.331
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2f07845e5a4f177d4d37279be2bdadd143d53be652dea45ac33053323beb4cc
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:24cfd8939d4759655d81188e8fcac714580650779c22533dfb13372c7b5c8ad0
 size 5048