End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -3,11 +3,11 @@ base_model: meta-llama/Llama-3.1-8B
 library_name: peft
 license: llama3.1
 tags:
-- trl
-- sft
 - question-answering
 - QA
 - text-generation
 - generated_from_trainer
 model-index:
 - name: Llama-3-1-8B-medquad-Temp05
@@ -19,7 +19,9 @@ should probably proofread and complete it, then remove this comment. -->
 # Llama-3-1-8B-medquad-Temp05
-This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on the None dataset.
 ## Model description

 library_name: peft
 license: llama3.1
 tags:
 - question-answering
 - QA
 - text-generation
+- trl
+- sft
 - generated_from_trainer
 model-index:
 - name: Llama-3-1-8B-medquad-Temp05
 # Llama-3-1-8B-medquad-Temp05
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on the adamjweintraut/eli5_base_best dataset dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.6541
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 8.638562543192812e-05,
-    "eval_loss": 1.6534913778305054,
-    "eval_runtime": 253.6336,
-    "eval_samples_per_second": 5.705,
-    "eval_steps_per_second": 0.714,
     "total_flos": 18213145804800.0,
     "train_loss": 1.3343483209609985,
-    "train_runtime": 10.3959,
-    "train_samples_per_second": 0.096,
-    "train_steps_per_second": 0.096
 }

 {
     "epoch": 8.638562543192812e-05,
+    "eval_loss": 1.6541019678115845,
+    "eval_runtime": 251.5164,
+    "eval_samples_per_second": 5.753,
+    "eval_steps_per_second": 0.72,
     "total_flos": 18213145804800.0,
     "train_loss": 1.3343483209609985,
+    "train_runtime": 10.1948,
+    "train_samples_per_second": 0.098,
+    "train_steps_per_second": 0.098
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 8.638562543192812e-05,
-    "eval_loss": 1.6534913778305054,
-    "eval_runtime": 253.6336,
-    "eval_samples_per_second": 5.705,
-    "eval_steps_per_second": 0.714
 }

 {
     "epoch": 8.638562543192812e-05,
+    "eval_loss": 1.6541019678115845,
+    "eval_runtime": 251.5164,
+    "eval_samples_per_second": 5.753,
+    "eval_steps_per_second": 0.72
 }

train_results.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "epoch": 8.638562543192812e-05,
     "total_flos": 18213145804800.0,
     "train_loss": 1.3343483209609985,
-    "train_runtime": 10.3959,
-    "train_samples_per_second": 0.096,
-    "train_steps_per_second": 0.096
 }

     "epoch": 8.638562543192812e-05,
     "total_flos": 18213145804800.0,
     "train_loss": 1.3343483209609985,
+    "train_runtime": 10.1948,
+    "train_samples_per_second": 0.098,
+    "train_steps_per_second": 0.098
 }

trainer_state.json CHANGED Viewed

@@ -13,9 +13,9 @@
       "step": 1,
       "total_flos": 18213145804800.0,
       "train_loss": 1.3343483209609985,
-      "train_runtime": 10.3959,
-      "train_samples_per_second": 0.096,
-      "train_steps_per_second": 0.096
     }
   ],
   "logging_steps": 10,

       "step": 1,
       "total_flos": 18213145804800.0,
       "train_loss": 1.3343483209609985,
+      "train_runtime": 10.1948,
+      "train_samples_per_second": 0.098,
+      "train_steps_per_second": 0.098
     }
   ],
   "logging_steps": 10,