End of training

Browse files

Files changed (8) hide show

README.md +3 -1
all_results.json +9 -9
eval_nbest_predictions.json +2 -2
eval_predictions.json +0 -0
eval_results.json +5 -5
runs/Dec13_22-26-50_xgpi3/events.out.tfevents.1734105188.xgpi3.2488284.1 +3 -0
train_results.json +4 -4
trainer_state.json +37 -37

README.md CHANGED Viewed

@@ -4,6 +4,8 @@ license: llama3.2
 base_model: meta-llama/Llama-3.2-1B
 tags:
 - generated_from_trainer
 model-index:
 - name: squad_llama_finetuned
   results: []
@@ -14,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # squad_llama_finetuned
-This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on an unknown dataset.
 ## Model description

 base_model: meta-llama/Llama-3.2-1B
 tags:
 - generated_from_trainer
+datasets:
+- squad
 model-index:
 - name: squad_llama_finetuned
   results: []
 # squad_llama_finetuned
+This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on the squad dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 2.0,
-    "eval_exact_match": 0.40681173131504256,
-    "eval_f1": 4.453179113928262,
-    "eval_runtime": 250.6555,
     "eval_samples": 10787,
-    "eval_samples_per_second": 43.035,
-    "eval_steps_per_second": 5.382,
     "total_flos": 3.971230131335731e+17,
-    "train_loss": 5.428521726861854,
-    "train_runtime": 4331.0324,
     "train_samples": 88559,
-    "train_samples_per_second": 40.895,
-    "train_steps_per_second": 1.278
 }

 {
     "epoch": 2.0,
+    "eval_exact_match": 0.3122043519394513,
+    "eval_f1": 4.956028770172976,
+    "eval_runtime": 247.7335,
     "eval_samples": 10787,
+    "eval_samples_per_second": 43.543,
+    "eval_steps_per_second": 5.445,
     "total_flos": 3.971230131335731e+17,
+    "train_loss": 5.790556044936869,
+    "train_runtime": 4316.8958,
     "train_samples": 88559,
+    "train_samples_per_second": 41.029,
+    "train_steps_per_second": 1.282
 }

eval_nbest_predictions.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:428e4e13e4d8c42b1bdd2b22237d109c38dd26e659db53e70fafd794f061c72a
-size 51596787

 version https://git-lfs.github.com/spec/v1
+oid sha256:7556ea17d1e93ba7ca10aaaba07c10da6224304790052cc0cd444714cb00b8c2
+size 51674491

eval_predictions.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.0,
-    "eval_exact_match": 0.40681173131504256,
-    "eval_f1": 4.453179113928262,
-    "eval_runtime": 250.6555,
     "eval_samples": 10787,
-    "eval_samples_per_second": 43.035,
-    "eval_steps_per_second": 5.382
 }

 {
     "epoch": 2.0,
+    "eval_exact_match": 0.3122043519394513,
+    "eval_f1": 4.956028770172976,
+    "eval_runtime": 247.7335,
     "eval_samples": 10787,
+    "eval_samples_per_second": 43.543,
+    "eval_steps_per_second": 5.445
 }

runs/Dec13_22-26-50_xgpi3/events.out.tfevents.1734105188.xgpi3.2488284.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45e95bb7c06400ab6ef597c40f38cea4851ad7c584379651b27e8ea0fbbb013f
+size 412

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.0,
     "total_flos": 3.971230131335731e+17,
-    "train_loss": 5.428521726861854,
-    "train_runtime": 4331.0324,
     "train_samples": 88559,
-    "train_samples_per_second": 40.895,
-    "train_steps_per_second": 1.278
 }

 {
     "epoch": 2.0,
     "total_flos": 3.971230131335731e+17,
+    "train_loss": 5.790556044936869,
+    "train_runtime": 4316.8958,
     "train_samples": 88559,
+    "train_samples_per_second": 41.029,
+    "train_steps_per_second": 1.282
 }

trainer_state.json CHANGED Viewed

@@ -10,89 +10,89 @@
   "log_history": [
     {
       "epoch": 0.18063583815028902,
-      "grad_norm": 5.121304512023926,
-      "learning_rate": 0.0009096820809248554,
-      "loss": 5.5363,
       "step": 500
     },
     {
       "epoch": 0.36127167630057805,
-      "grad_norm": 4.908692836761475,
-      "learning_rate": 0.000819364161849711,
-      "loss": 5.4577,
       "step": 1000
     },
     {
       "epoch": 0.541907514450867,
-      "grad_norm": 4.932715892791748,
-      "learning_rate": 0.0007290462427745664,
-      "loss": 5.434,
       "step": 1500
     },
     {
       "epoch": 0.7225433526011561,
-      "grad_norm": 4.944921970367432,
-      "learning_rate": 0.0006387283236994221,
-      "loss": 5.4331,
       "step": 2000
     },
     {
       "epoch": 0.903179190751445,
-      "grad_norm": 5.103818893432617,
-      "learning_rate": 0.0005484104046242775,
-      "loss": 5.4312,
       "step": 2500
     },
     {
       "epoch": 1.083815028901734,
-      "grad_norm": 5.026283264160156,
-      "learning_rate": 0.00045809248554913297,
-      "loss": 5.4126,
       "step": 3000
     },
     {
       "epoch": 1.2644508670520231,
-      "grad_norm": 4.974510669708252,
-      "learning_rate": 0.00036777456647398845,
-      "loss": 5.4098,
       "step": 3500
     },
     {
       "epoch": 1.4450867052023122,
-      "grad_norm": 4.894430160522461,
-      "learning_rate": 0.00027745664739884393,
-      "loss": 5.4071,
       "step": 4000
     },
     {
       "epoch": 1.6257225433526012,
-      "grad_norm": 4.973602294921875,
-      "learning_rate": 0.00018713872832369944,
-      "loss": 5.4051,
       "step": 4500
     },
     {
       "epoch": 1.80635838150289,
-      "grad_norm": 4.884088039398193,
-      "learning_rate": 9.682080924855491e-05,
-      "loss": 5.3928,
       "step": 5000
     },
     {
       "epoch": 1.9869942196531793,
-      "grad_norm": 4.870421409606934,
-      "learning_rate": 6.502890173410405e-06,
-      "loss": 5.3965,
       "step": 5500
     },
     {
       "epoch": 2.0,
       "step": 5536,
       "total_flos": 3.971230131335731e+17,
-      "train_loss": 5.428521726861854,
-      "train_runtime": 4331.0324,
-      "train_samples_per_second": 40.895,
-      "train_steps_per_second": 1.278
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 0.18063583815028902,
+      "grad_norm": 5.165233135223389,
+      "learning_rate": 0.009096820809248556,
+      "loss": 6.17,
       "step": 500
     },
     {
       "epoch": 0.36127167630057805,
+      "grad_norm": 5.07661771774292,
+      "learning_rate": 0.00819364161849711,
+      "loss": 6.0936,
       "step": 1000
     },
     {
       "epoch": 0.541907514450867,
+      "grad_norm": 5.147761821746826,
+      "learning_rate": 0.007290462427745665,
+      "loss": 5.9967,
       "step": 1500
     },
     {
       "epoch": 0.7225433526011561,
+      "grad_norm": 5.032444953918457,
+      "learning_rate": 0.00638728323699422,
+      "loss": 5.9309,
       "step": 2000
     },
     {
       "epoch": 0.903179190751445,
+      "grad_norm": 5.182621479034424,
+      "learning_rate": 0.005484104046242775,
+      "loss": 5.862,
       "step": 2500
     },
     {
       "epoch": 1.083815028901734,
+      "grad_norm": 5.072362422943115,
+      "learning_rate": 0.00458092485549133,
+      "loss": 5.7864,
       "step": 3000
     },
     {
       "epoch": 1.2644508670520231,
+      "grad_norm": 5.014511585235596,
+      "learning_rate": 0.0036777456647398843,
+      "loss": 5.7157,
       "step": 3500
     },
     {
       "epoch": 1.4450867052023122,
+      "grad_norm": 4.894152641296387,
+      "learning_rate": 0.0027745664739884392,
+      "loss": 5.641,
       "step": 4000
     },
     {
       "epoch": 1.6257225433526012,
+      "grad_norm": 5.007359027862549,
+      "learning_rate": 0.0018713872832369944,
+      "loss": 5.5787,
       "step": 4500
     },
     {
       "epoch": 1.80635838150289,
+      "grad_norm": 4.906238555908203,
+      "learning_rate": 0.0009682080924855491,
+      "loss": 5.5,
       "step": 5000
     },
     {
       "epoch": 1.9869942196531793,
+      "grad_norm": 4.897428512573242,
+      "learning_rate": 6.502890173410405e-05,
+      "loss": 5.4477,
       "step": 5500
     },
     {
       "epoch": 2.0,
       "step": 5536,
       "total_flos": 3.971230131335731e+17,
+      "train_loss": 5.790556044936869,
+      "train_runtime": 4316.8958,
+      "train_samples_per_second": 41.029,
+      "train_steps_per_second": 1.282
     }
   ],
   "logging_steps": 500,