Training completed

Files changed (4) hide show

README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
 library_name: peft
-license: apache-2.0
-base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
-- base_model:adapter:Qwen/Qwen2.5-7B-Instruct
 - lora
 - transformers
 pipeline_tag: text-generation
@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # qwen_model_testing
-This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) on an unknown dataset.
 ## Model description

 ---
 library_name: peft
+license: llama3.2
+base_model: meta-llama/Llama-3.2-3b-Instruct
 tags:
+- base_model:adapter:meta-llama/Llama-3.2-3b-Instruct
 - lora
 - transformers
 pipeline_tag: text-generation
 # qwen_model_testing
+This model is a fine-tuned version of [meta-llama/Llama-3.2-3b-Instruct](https://huggingface.co/meta-llama/Llama-3.2-3b-Instruct) on an unknown dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0182648401826484,
-    "total_flos": 1.394108846267433e+17,
-    "train_loss": 5.07354736328125,
-    "train_runtime": 154.4303,
-    "train_samples_per_second": 10.361,
-    "train_steps_per_second": 0.065
 }

 {
     "epoch": 0.0182648401826484,
+    "total_flos": 5.565784553370419e+16,
+    "train_loss": 4.055104446411133,
+    "train_runtime": 129.2068,
+    "train_samples_per_second": 12.383,
+    "train_steps_per_second": 0.077
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0182648401826484,
-    "total_flos": 1.394108846267433e+17,
-    "train_loss": 5.07354736328125,
-    "train_runtime": 154.4303,
-    "train_samples_per_second": 10.361,
-    "train_steps_per_second": 0.065
 }

 {
     "epoch": 0.0182648401826484,
+    "total_flos": 5.565784553370419e+16,
+    "train_loss": 4.055104446411133,
+    "train_runtime": 129.2068,
+    "train_samples_per_second": 12.383,
+    "train_steps_per_second": 0.077
 }

trainer_state.json CHANGED Viewed

@@ -11,19 +11,19 @@
   "log_history": [
     {
       "epoch": 0.0182648401826484,
-      "grad_norm": 0.36667829751968384,
       "learning_rate": 0.0001,
-      "loss": 5.0735,
       "step": 10
     },
     {
       "epoch": 0.0182648401826484,
       "step": 10,
-      "total_flos": 1.394108846267433e+17,
-      "train_loss": 5.07354736328125,
-      "train_runtime": 154.4303,
-      "train_samples_per_second": 10.361,
-      "train_steps_per_second": 0.065
     }
   ],
   "logging_steps": 10,
@@ -43,7 +43,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.394108846267433e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.0182648401826484,
+      "grad_norm": 0.5136012434959412,
       "learning_rate": 0.0001,
+      "loss": 4.0551,
       "step": 10
     },
     {
       "epoch": 0.0182648401826484,
       "step": 10,
+      "total_flos": 5.565784553370419e+16,
+      "train_loss": 4.055104446411133,
+      "train_runtime": 129.2068,
+      "train_samples_per_second": 12.383,
+      "train_steps_per_second": 0.077
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.565784553370419e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null