End of training

Files changed (8) hide show

README.md CHANGED Viewed

@@ -56,8 +56,8 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| No log        | 0.5333 | 1    | 1.8346          |
-| No log        | 1.6    | 3    | 1.7085          |
 ### Framework versions

 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.9079        | 0.5333 | 1    | 1.8346          |
+| 1.7235        | 1.6    | 3    | 1.7085          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 1.6,
     "eval_loss": 1.7085474729537964,
-    "eval_runtime": 13.3752,
-    "eval_samples_per_second": 7.551,
-    "eval_steps_per_second": 0.299,
-    "total_flos": 1.9221024474136576e+16,
-    "train_loss": 1.8231021563212078,
-    "train_runtime": 1450.8496,
-    "train_samples_per_second": 3.968,
     "train_steps_per_second": 0.002
 }

 {
     "epoch": 1.6,
     "eval_loss": 1.7085474729537964,
+    "eval_runtime": 13.4258,
+    "eval_samples_per_second": 7.523,
+    "eval_steps_per_second": 0.298,
+    "total_flos": 1.922102501100749e+16,
+    "train_loss": 1.818156321843465,
+    "train_runtime": 1285.2745,
+    "train_samples_per_second": 4.479,
     "train_steps_per_second": 0.002
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.6,
     "eval_loss": 1.7085474729537964,
-    "eval_runtime": 13.3752,
-    "eval_samples_per_second": 7.551,
-    "eval_steps_per_second": 0.299
 }

 {
     "epoch": 1.6,
     "eval_loss": 1.7085474729537964,
+    "eval_runtime": 13.4258,
+    "eval_samples_per_second": 7.523,
+    "eval_steps_per_second": 0.298
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.6,
-    "total_flos": 1.9221024474136576e+16,
-    "train_loss": 1.8231021563212078,
-    "train_runtime": 1450.8496,
-    "train_samples_per_second": 3.968,
     "train_steps_per_second": 0.002
 }

 {
     "epoch": 1.6,
+    "total_flos": 1.922102501100749e+16,
+    "train_loss": 1.818156321843465,
+    "train_runtime": 1285.2745,
+    "train_samples_per_second": 4.479,
     "train_steps_per_second": 0.002
 }

trainer_log.jsonl CHANGED Viewed

@@ -1,3 +1,6 @@
-{"current_steps": 1, "total_steps": 3, "eval_loss": 1.8345922231674194, "epoch": 0.5333333333333333, "percentage": 33.33, "elapsed_time": "0:14:04", "remaining_time": "0:28:08"}
-{"current_steps": 3, "total_steps": 3, "eval_loss": 1.7085474729537964, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:23:22", "remaining_time": "0:00:00"}
-{"current_steps": 3, "total_steps": 3, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:24:06", "remaining_time": "0:00:00"}

+{"current_steps": 1, "total_steps": 3, "loss": 1.9079, "learning_rate": 5e-06, "epoch": 0.5333333333333333, "percentage": 33.33, "elapsed_time": "0:05:58", "remaining_time": "0:11:56"}
+{"current_steps": 1, "total_steps": 3, "eval_loss": 1.8345922231674194, "epoch": 0.5333333333333333, "percentage": 33.33, "elapsed_time": "0:11:21", "remaining_time": "0:22:42"}
+{"current_steps": 2, "total_steps": 3, "loss": 1.8231, "learning_rate": 5e-06, "epoch": 1.0666666666666667, "percentage": 66.67, "elapsed_time": "0:13:18", "remaining_time": "0:06:39"}
+{"current_steps": 3, "total_steps": 3, "loss": 1.7235, "learning_rate": 5e-06, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:19:12", "remaining_time": "0:00:00"}
+{"current_steps": 3, "total_steps": 3, "eval_loss": 1.7085474729537964, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:20:38", "remaining_time": "0:00:00"}
+{"current_steps": 3, "total_steps": 3, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:21:23", "remaining_time": "0:00:00"}

trainer_state.json CHANGED Viewed

@@ -8,33 +8,54 @@
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.5333333333333333,
       "eval_loss": 1.8345922231674194,
-      "eval_runtime": 13.5492,
-      "eval_samples_per_second": 7.454,
-      "eval_steps_per_second": 0.295,
       "step": 1
     },
     {
       "epoch": 1.6,
       "eval_loss": 1.7085474729537964,
-      "eval_runtime": 13.4084,
-      "eval_samples_per_second": 7.533,
       "eval_steps_per_second": 0.298,
       "step": 3
     },
     {
       "epoch": 1.6,
       "step": 3,
-      "total_flos": 1.9221024474136576e+16,
-      "train_loss": 1.8231021563212078,
-      "train_runtime": 1450.8496,
-      "train_samples_per_second": 3.968,
       "train_steps_per_second": 0.002
     }
   ],
-  "logging_steps": 10,
   "max_steps": 3,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
@@ -51,7 +72,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9221024474136576e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 51.644339588858706,
+      "learning_rate": 5e-06,
+      "loss": 1.9079,
+      "step": 1
+    },
     {
       "epoch": 0.5333333333333333,
       "eval_loss": 1.8345922231674194,
+      "eval_runtime": 13.5887,
+      "eval_samples_per_second": 7.433,
+      "eval_steps_per_second": 0.294,
       "step": 1
     },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 36.69583629812056,
+      "learning_rate": 5e-06,
+      "loss": 1.8231,
+      "step": 2
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 121.54965597378022,
+      "learning_rate": 5e-06,
+      "loss": 1.7235,
+      "step": 3
+    },
     {
       "epoch": 1.6,
       "eval_loss": 1.7085474729537964,
+      "eval_runtime": 13.4334,
+      "eval_samples_per_second": 7.519,
       "eval_steps_per_second": 0.298,
       "step": 3
     },
     {
       "epoch": 1.6,
       "step": 3,
+      "total_flos": 1.922102501100749e+16,
+      "train_loss": 1.818156321843465,
+      "train_runtime": 1285.2745,
+      "train_samples_per_second": 4.479,
       "train_steps_per_second": 0.002
     }
   ],
+  "logging_steps": 1,
   "max_steps": 3,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.922102501100749e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b6bbd7933c9b40eb1823cb2c3687ea40b57253d5960d77ed2a4d8a1912f48c2
 size 7288

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fdcdf4da3fb2173db88db2186c8fdb9c237862dd7136c92e0cae4c0d9ae2279
 size 7288

training_loss.png ADDED Viewed