RikkiXu
/

zephyr-7b-sft-full

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
-    "total_flos": 2365990109184000.0,
-    "train_loss": 0.3740393664457102,
-    "train_runtime": 65777.1761,
     "train_samples": 83372,
-    "train_samples_per_second": 5.497,
-    "train_steps_per_second": 0.043
 }

 {
     "epoch": 5.0,
+    "total_flos": 2420428819660800.0,
+    "train_loss": 0.44474206024387714,
+    "train_runtime": 64422.034,
     "train_samples": 83372,
+    "train_samples_per_second": 5.737,
+    "train_steps_per_second": 0.045
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
-    "total_flos": 2365990109184000.0,
-    "train_loss": 0.3740393664457102,
-    "train_runtime": 65777.1761,
     "train_samples": 83372,
-    "train_samples_per_second": 5.497,
-    "train_steps_per_second": 0.043
 }

 {
     "epoch": 5.0,
+    "total_flos": 2420428819660800.0,
+    "train_loss": 0.44474206024387714,
+    "train_runtime": 64422.034,
     "train_samples": 83372,
+    "train_samples_per_second": 5.737,
+    "train_steps_per_second": 0.045
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff