End of training

Browse files

Files changed (12) hide show

README.md +5 -5
all_results.json +8 -8
eval_results.json +4 -4
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +4 -4
trainer_log.jsonl +3 -3
trainer_state.json +13 -13
training_args.bin +2 -2
training_eval_loss.png +0 -0

README.md CHANGED Viewed

@@ -18,7 +18,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the PrincetonPLI/Instruct-SkillMix-SDD dataset.
 It achieves the following results on the evaluation set:
-- Loss: nan
 ## Model description
@@ -50,19 +50,19 @@ The following hyperparameters were used during training:
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.1
 - lr_scheduler_warmup_steps: 1738
-- num_epochs: 3.0
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| No log        | 0.5333 | 1    | nan             |
-| No log        | 1.6    | 3    | nan             |
 ### Framework versions
 - Transformers 4.45.2
-- Pytorch 2.5.0+cu124
 - Datasets 2.21.0
 - Tokenizers 0.20.1

 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the PrincetonPLI/Instruct-SkillMix-SDD dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.7085
 ## Model description
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.1
 - lr_scheduler_warmup_steps: 1738
+- num_epochs: 3
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| No log        | 0.5333 | 1    | 1.8346          |
+| No log        | 1.6    | 3    | 1.7085          |
 ### Framework versions
 - Transformers 4.45.2
+- Pytorch 2.4.0+cu121
 - Datasets 2.21.0
 - Tokenizers 0.20.1

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 1.6,
-    "eval_loss": NaN,
-    "eval_runtime": 6.0974,
-    "eval_samples_per_second": 16.564,
-    "eval_steps_per_second": 0.656,
-    "total_flos": 2.833014287331492e+17,
-    "train_loss": 1.8229212760925293,
-    "train_runtime": 1331.3604,
-    "train_samples_per_second": 4.324,
     "train_steps_per_second": 0.002
 }

 {
     "epoch": 1.6,
+    "eval_loss": 1.7085474729537964,
+    "eval_runtime": 13.3752,
+    "eval_samples_per_second": 7.551,
+    "eval_steps_per_second": 0.299,
+    "total_flos": 1.9221024474136576e+16,
+    "train_loss": 1.8231021563212078,
+    "train_runtime": 1450.8496,
+    "train_samples_per_second": 3.968,
     "train_steps_per_second": 0.002
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.6,
-    "eval_loss": NaN,
-    "eval_runtime": 6.0974,
-    "eval_samples_per_second": 16.564,
-    "eval_steps_per_second": 0.656
 }

 {
     "epoch": 1.6,
+    "eval_loss": 1.7085474729537964,
+    "eval_runtime": 13.3752,
+    "eval_samples_per_second": 7.551,
+    "eval_steps_per_second": 0.299
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b8e5945bcf4543c098431b902aa427e3042a3067ff101b4b8689b8fdb2b38a5
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa7ddf40a53c01580113b725a0016eec9561e858e589517f9d83205265478d6b
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db08e2035b0684753ab89f8b698726f60cb28a8bc04bf44387c7bdf1d5cbc2b2
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:d362d83c2e9ba973e98cca23893617dd1bf3577389c0af075b784abd7f877f9d
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf41dbf4bab0c61f8eb0803929046f3f10e604469be7b954436a9973591ef185
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:55b0d48a0edc756a4f62d053427ec9337fc67951899617d08adfc913344f0caa
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e0511718225752937266d8f592d84fdc30f8d9208092716568cddcd822d0554
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:b229c76dc68a962cfcf861b4b833add51f486c85f418864f20b6ce72b2e7d061
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.6,
-    "total_flos": 2.833014287331492e+17,
-    "train_loss": 1.8229212760925293,
-    "train_runtime": 1331.3604,
-    "train_samples_per_second": 4.324,
     "train_steps_per_second": 0.002
 }

 {
     "epoch": 1.6,
+    "total_flos": 1.9221024474136576e+16,
+    "train_loss": 1.8231021563212078,
+    "train_runtime": 1450.8496,
+    "train_samples_per_second": 3.968,
     "train_steps_per_second": 0.002
 }

trainer_log.jsonl CHANGED Viewed

@@ -1,3 +1,3 @@
-{"current_steps": 1, "total_steps": 3, "eval_loss": NaN, "epoch": 0.5333333333333333, "percentage": 33.33, "elapsed_time": "0:11:48", "remaining_time": "0:23:37"}
-{"current_steps": 3, "total_steps": 3, "eval_loss": NaN, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:21:23", "remaining_time": "0:00:00"}
-{"current_steps": 3, "total_steps": 3, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:22:10", "remaining_time": "0:00:00"}

+{"current_steps": 1, "total_steps": 3, "eval_loss": 1.8345922231674194, "epoch": 0.5333333333333333, "percentage": 33.33, "elapsed_time": "0:14:04", "remaining_time": "0:28:08"}
+{"current_steps": 3, "total_steps": 3, "eval_loss": 1.7085474729537964, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:23:22", "remaining_time": "0:00:00"}
+{"current_steps": 3, "total_steps": 3, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:24:06", "remaining_time": "0:00:00"}

trainer_state.json CHANGED Viewed

@@ -10,27 +10,27 @@
   "log_history": [
     {
       "epoch": 0.5333333333333333,
-      "eval_loss": NaN,
-      "eval_runtime": 8.0544,
-      "eval_samples_per_second": 12.54,
-      "eval_steps_per_second": 0.497,
       "step": 1
     },
     {
       "epoch": 1.6,
-      "eval_loss": NaN,
-      "eval_runtime": 6.2762,
-      "eval_samples_per_second": 16.093,
-      "eval_steps_per_second": 0.637,
       "step": 3
     },
     {
       "epoch": 1.6,
       "step": 3,
-      "total_flos": 2.833014287331492e+17,
-      "train_loss": 1.8229212760925293,
-      "train_runtime": 1331.3604,
-      "train_samples_per_second": 4.324,
       "train_steps_per_second": 0.002
     }
   ],
@@ -51,7 +51,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.833014287331492e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.5333333333333333,
+      "eval_loss": 1.8345922231674194,
+      "eval_runtime": 13.5492,
+      "eval_samples_per_second": 7.454,
+      "eval_steps_per_second": 0.295,
       "step": 1
     },
     {
       "epoch": 1.6,
+      "eval_loss": 1.7085474729537964,
+      "eval_runtime": 13.4084,
+      "eval_samples_per_second": 7.533,
+      "eval_steps_per_second": 0.298,
       "step": 3
     },
     {
       "epoch": 1.6,
       "step": 3,
+      "total_flos": 1.9221024474136576e+16,
+      "train_loss": 1.8231021563212078,
+      "train_runtime": 1450.8496,
+      "train_samples_per_second": 3.968,
       "train_steps_per_second": 0.002
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.9221024474136576e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72f21c2c722024a29d2dbc541128f138f8698abbed82b6d5962fa2e45771d2fe
-size 7032

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b6bbd7933c9b40eb1823cb2c3687ea40b57253d5960d77ed2a4d8a1912f48c2
+size 7288

training_eval_loss.png CHANGED Viewed