End of training

Browse files

Files changed (5) hide show

README.md +0 -2
adapter_model.safetensors +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +20 -20

README.md CHANGED Viewed

@@ -16,8 +16,6 @@ should probably proofread and complete it, then remove this comment. -->
 # Phi-3-mini-4k-instruct-finetuned
 This model was trained from scratch on the None dataset.
-It achieves the following results on the evaluation set:
-- Loss: 12.3823
 ## Model description

 # Phi-3-mini-4k-instruct-finetuned
 This model was trained from scratch on the None dataset.
 ## Model description

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc9abd601ea3eed093e3d6e130e4949fdcd10a5b2d3d7c67bd46540dbc988775
 size 25183064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce0e58ae3d344005aa6b6ae4344ecc7d3f4c1359c6bce7db18bcdf22b8837db1
 size 25183064

all_results.json CHANGED Viewed

@@ -5,9 +5,9 @@
     "eval_samples": 145,
     "eval_samples_per_second": 39.318,
     "eval_steps_per_second": 19.795,
-    "total_flos": 1968746702340096.0,
-    "train_loss": 12.81857436607624,
-    "train_runtime": 41.5298,
-    "train_samples_per_second": 13.942,
-    "train_steps_per_second": 6.983
 }

     "eval_samples": 145,
     "eval_samples_per_second": 39.318,
     "eval_steps_per_second": 19.795,
+    "total_flos": 8592765192732672.0,
+    "train_loss": 10.40311779153758,
+    "train_runtime": 167.4524,
+    "train_samples_per_second": 3.458,
+    "train_steps_per_second": 1.732
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "total_flos": 1968746702340096.0,
-    "train_loss": 12.81857436607624,
-    "train_runtime": 41.5298,
-    "train_samples_per_second": 13.942,
-    "train_steps_per_second": 6.983
 }

 {
     "epoch": 1.0,
+    "total_flos": 8592765192732672.0,
+    "train_loss": 10.40311779153758,
+    "train_runtime": 167.4524,
+    "train_samples_per_second": 3.458,
+    "train_steps_per_second": 1.732
 }

trainer_state.json CHANGED Viewed

@@ -11,95 +11,95 @@
     {
       "epoch": 0.07,
       "learning_rate": 1.724137931034483e-06,
-      "loss": 13.6309,
       "step": 20
     },
     {
       "epoch": 0.14,
       "learning_rate": 3.448275862068966e-06,
-      "loss": 13.5642,
       "step": 40
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.999083215558211e-06,
-      "loss": 13.3984,
       "step": 60
     },
     {
       "epoch": 0.28,
       "learning_rate": 4.88988035667903e-06,
-      "loss": 13.3684,
       "step": 80
     },
     {
       "epoch": 0.34,
       "learning_rate": 4.606455184041623e-06,
-      "loss": 12.9849,
       "step": 100
     },
     {
       "epoch": 0.41,
       "learning_rate": 4.169469396971739e-06,
-      "loss": 12.9424,
       "step": 120
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.6107792658847597e-06,
-      "loss": 12.7222,
       "step": 140
     },
     {
       "epoch": 0.55,
       "learning_rate": 2.971113309695796e-06,
-      "loss": 12.615,
       "step": 160
     },
     {
       "epoch": 0.62,
       "learning_rate": 2.2971031861814225e-06,
-      "loss": 12.4667,
       "step": 180
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.6378842434300746e-06,
-      "loss": 12.3938,
       "step": 200
     },
     {
       "epoch": 0.76,
       "learning_rate": 1.041513552231265e-06,
-      "loss": 12.3768,
       "step": 220
     },
     {
       "epoch": 0.83,
       "learning_rate": 5.51466544896021e-07,
-      "loss": 12.3142,
       "step": 240
     },
     {
       "epoch": 0.9,
       "learning_rate": 2.0346765559094566e-07,
-      "loss": 12.4309,
       "step": 260
     },
     {
       "epoch": 0.97,
       "learning_rate": 2.2886008552983064e-08,
-      "loss": 12.4571,
       "step": 280
     },
     {
       "epoch": 1.0,
       "step": 290,
-      "total_flos": 1968746702340096.0,
-      "train_loss": 12.81857436607624,
-      "train_runtime": 41.5298,
-      "train_samples_per_second": 13.942,
-      "train_steps_per_second": 6.983
     }
   ],
   "logging_steps": 20,
@@ -107,7 +107,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 1968746702340096.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 0.07,
       "learning_rate": 1.724137931034483e-06,
+      "loss": 13.7082,
       "step": 20
     },
     {
       "epoch": 0.14,
       "learning_rate": 3.448275862068966e-06,
+      "loss": 13.6049,
       "step": 40
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.999083215558211e-06,
+      "loss": 13.2358,
       "step": 60
     },
     {
       "epoch": 0.28,
       "learning_rate": 4.88988035667903e-06,
+      "loss": 12.582,
       "step": 80
     },
     {
       "epoch": 0.34,
       "learning_rate": 4.606455184041623e-06,
+      "loss": 11.3961,
       "step": 100
     },
     {
       "epoch": 0.41,
       "learning_rate": 4.169469396971739e-06,
+      "loss": 10.3617,
       "step": 120
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.6107792658847597e-06,
+      "loss": 9.6083,
       "step": 140
     },
     {
       "epoch": 0.55,
       "learning_rate": 2.971113309695796e-06,
+      "loss": 9.3376,
       "step": 160
     },
     {
       "epoch": 0.62,
       "learning_rate": 2.2971031861814225e-06,
+      "loss": 8.9473,
       "step": 180
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.6378842434300746e-06,
+      "loss": 8.776,
       "step": 200
     },
     {
       "epoch": 0.76,
       "learning_rate": 1.041513552231265e-06,
+      "loss": 8.6731,
       "step": 220
     },
     {
       "epoch": 0.83,
       "learning_rate": 5.51466544896021e-07,
+      "loss": 8.6288,
       "step": 240
     },
     {
       "epoch": 0.9,
       "learning_rate": 2.0346765559094566e-07,
+      "loss": 8.7519,
       "step": 260
     },
     {
       "epoch": 0.97,
       "learning_rate": 2.2886008552983064e-08,
+      "loss": 8.7899,
       "step": 280
     },
     {
       "epoch": 1.0,
       "step": 290,
+      "total_flos": 8592765192732672.0,
+      "train_loss": 10.40311779153758,
+      "train_runtime": 167.4524,
+      "train_samples_per_second": 3.458,
+      "train_steps_per_second": 1.732
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 8592765192732672.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null