Model save

Browse files

Files changed (6) hide show

all_results.json +9 -4
eval_results.json +8 -0
runs/May25_13-55-16_br1t43-s3-25/events.out.tfevents.1716673878.br1t43-s3-25.187086.1 +3 -0
runs/May26_01-54-52_br1t43-s3-25/events.out.tfevents.1716688506.br1t43-s3-25.190932.0 +3 -0
train_results.json +4 -4
trainer_state.json +21 -21

all_results.json CHANGED Viewed

@@ -1,9 +1,14 @@
 {
     "epoch": 1.0,
     "total_flos": 1.5751056572484157e+19,
-    "train_loss": 0.09284130807192821,
-    "train_runtime": 20560.1048,
     "train_samples": 1055292,
-    "train_samples_per_second": 15.837,
-    "train_steps_per_second": 0.247
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.7983009815216064,
+    "eval_runtime": 7985.9663,
+    "eval_samples": 263823,
+    "eval_samples_per_second": 10.19,
+    "eval_steps_per_second": 0.159,
     "total_flos": 1.5751056572484157e+19,
+    "train_loss": 0.013955340304839536,
+    "train_runtime": 11108.4839,
     "train_samples": 1055292,
+    "train_samples_per_second": 29.312,
+    "train_steps_per_second": 0.458
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 0.7983009815216064,
+    "eval_runtime": 7985.9663,
+    "eval_samples": 263823,
+    "eval_samples_per_second": 10.19,
+    "eval_steps_per_second": 0.159
+}

runs/May25_13-55-16_br1t43-s3-25/events.out.tfevents.1716673878.br1t43-s3-25.187086.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9aaa7f8fbb9f75e566fcde30f482fcb7a5578a9d37b3382a6d356ad6e0743613
+size 359

runs/May26_01-54-52_br1t43-s3-25/events.out.tfevents.1716688506.br1t43-s3-25.190932.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:729d2f0c91d57354efb497f12dfb73a29e4347765a3bbc83beab8a36bdf1c070
+size 9665

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0,
     "total_flos": 1.5751056572484157e+19,
-    "train_loss": 0.09284130807192821,
-    "train_runtime": 20560.1048,
     "train_samples": 1055292,
-    "train_samples_per_second": 15.837,
-    "train_steps_per_second": 0.247
 }

 {
     "epoch": 1.0,
     "total_flos": 1.5751056572484157e+19,
+    "train_loss": 0.013955340304839536,
+    "train_runtime": 11108.4839,
     "train_samples": 1055292,
+    "train_samples_per_second": 29.312,
+    "train_steps_per_second": 0.458
 }

trainer_state.json CHANGED Viewed

@@ -7031,9 +7031,9 @@
     },
     {
       "epoch": 0.9856525157232704,
-      "grad_norm": 0.31640625,
       "learning_rate": 1.2539591749821666e-07,
-      "loss": 0.7973,
       "step": 5015
     },
     {
@@ -7047,14 +7047,14 @@
       "epoch": 0.9876179245283019,
       "grad_norm": 0.31640625,
       "learning_rate": 9.339893961548551e-08,
-      "loss": 0.8152,
       "step": 5025
     },
     {
       "epoch": 0.9886006289308176,
       "grad_norm": 0.310546875,
       "learning_rate": 7.916389256541479e-08,
-      "loss": 0.8147,
       "step": 5030
     },
     {
@@ -7082,21 +7082,21 @@
       "epoch": 0.9925314465408805,
       "grad_norm": 0.310546875,
       "learning_rate": 3.3983730900377655e-08,
-      "loss": 0.8009,
       "step": 5050
     },
     {
       "epoch": 0.9935141509433962,
-      "grad_norm": 0.30078125,
       "learning_rate": 2.5629361711809742e-08,
-      "loss": 0.8025,
       "step": 5055
     },
     {
       "epoch": 0.9944968553459119,
       "grad_norm": 0.30078125,
       "learning_rate": 1.8451478405223653e-08,
-      "loss": 0.7953,
       "step": 5060
     },
     {
@@ -7108,48 +7108,48 @@
     },
     {
       "epoch": 0.9964622641509434,
-      "grad_norm": 0.3046875,
       "learning_rate": 7.62549346601249e-09,
-      "loss": 0.8113,
       "step": 5070
     },
     {
       "epoch": 0.9974449685534591,
       "grad_norm": 0.302734375,
       "learning_rate": 3.977519232223337e-09,
-      "loss": 0.8174,
       "step": 5075
     },
     {
       "epoch": 0.9984276729559748,
       "grad_norm": 0.302734375,
       "learning_rate": 1.5062856765779565e-09,
-      "loss": 0.8089,
       "step": 5080
     },
     {
       "epoch": 0.9994103773584906,
-      "grad_norm": 0.3125,
       "learning_rate": 2.118218802582561e-10,
       "loss": 0.8288,
       "step": 5085
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.7983009815216064,
-      "eval_runtime": 7962.7938,
-      "eval_samples_per_second": 10.22,
-      "eval_steps_per_second": 0.16,
       "step": 5088
     },
     {
       "epoch": 1.0,
       "step": 5088,
       "total_flos": 1.5751056572484157e+19,
-      "train_loss": 0.09284130807192821,
-      "train_runtime": 20560.1048,
-      "train_samples_per_second": 15.837,
-      "train_steps_per_second": 0.247
     }
   ],
   "logging_steps": 5,

     },
     {
       "epoch": 0.9856525157232704,
+      "grad_norm": 0.318359375,
       "learning_rate": 1.2539591749821666e-07,
+      "loss": 0.7974,
       "step": 5015
     },
     {
       "epoch": 0.9876179245283019,
       "grad_norm": 0.31640625,
       "learning_rate": 9.339893961548551e-08,
+      "loss": 0.8153,
       "step": 5025
     },
     {
       "epoch": 0.9886006289308176,
       "grad_norm": 0.310546875,
       "learning_rate": 7.916389256541479e-08,
+      "loss": 0.8146,
       "step": 5030
     },
     {
       "epoch": 0.9925314465408805,
       "grad_norm": 0.310546875,
       "learning_rate": 3.3983730900377655e-08,
+      "loss": 0.8008,
       "step": 5050
     },
     {
       "epoch": 0.9935141509433962,
+      "grad_norm": 0.302734375,
       "learning_rate": 2.5629361711809742e-08,
+      "loss": 0.8024,
       "step": 5055
     },
     {
       "epoch": 0.9944968553459119,
       "grad_norm": 0.30078125,
       "learning_rate": 1.8451478405223653e-08,
+      "loss": 0.7952,
       "step": 5060
     },
     {
     },
     {
       "epoch": 0.9964622641509434,
+      "grad_norm": 0.306640625,
       "learning_rate": 7.62549346601249e-09,
+      "loss": 0.8112,
       "step": 5070
     },
     {
       "epoch": 0.9974449685534591,
       "grad_norm": 0.302734375,
       "learning_rate": 3.977519232223337e-09,
+      "loss": 0.8175,
       "step": 5075
     },
     {
       "epoch": 0.9984276729559748,
       "grad_norm": 0.302734375,
       "learning_rate": 1.5062856765779565e-09,
+      "loss": 0.8088,
       "step": 5080
     },
     {
       "epoch": 0.9994103773584906,
+      "grad_norm": 0.310546875,
       "learning_rate": 2.118218802582561e-10,
       "loss": 0.8288,
       "step": 5085
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.7983007431030273,
+      "eval_runtime": 9224.1097,
+      "eval_samples_per_second": 8.823,
+      "eval_steps_per_second": 0.138,
       "step": 5088
     },
     {
       "epoch": 1.0,
       "step": 5088,
       "total_flos": 1.5751056572484157e+19,
+      "train_loss": 0.013955340304839536,
+      "train_runtime": 11108.4839,
+      "train_samples_per_second": 29.312,
+      "train_steps_per_second": 0.458
     }
   ],
   "logging_steps": 5,