Training completed

Files changed (4) hide show

README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
 license: apache-2.0
 base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
 - generated_from_trainer
-library_name: peft
 model-index:
 - name: qwen_model_testing
   results: []
@@ -42,7 +42,7 @@ The following hyperparameters were used during training:
 - gradient_accumulation_steps: 10
 - total_train_batch_size: 160
 - total_eval_batch_size: 64
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.03
 - training_steps: 10
@@ -54,7 +54,7 @@ The following hyperparameters were used during training:
 ### Framework versions
 - PEFT 0.14.0
-- Transformers 4.43.3
 - Pytorch 2.3.0+cu121
 - Datasets 3.2.0
-- Tokenizers 0.19.1

 ---
+library_name: peft
 license: apache-2.0
 base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
 - generated_from_trainer
 model-index:
 - name: qwen_model_testing
   results: []
 - gradient_accumulation_steps: 10
 - total_train_batch_size: 160
 - total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.03
 - training_steps: 10
 ### Framework versions
 - PEFT 0.14.0
+- Transformers 4.51.3
 - Pytorch 2.3.0+cu121
 - Datasets 3.2.0
+- Tokenizers 0.21.2

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0182648401826484,
     "total_flos": 1.394108846267433e+17,
-    "train_loss": 4.435050201416016,
-    "train_runtime": 166.2301,
-    "train_samples_per_second": 9.625,
     "train_steps_per_second": 0.06
 }

 {
     "epoch": 0.0182648401826484,
     "total_flos": 1.394108846267433e+17,
+    "train_loss": 4.495834732055664,
+    "train_runtime": 166.6924,
+    "train_samples_per_second": 9.599,
     "train_steps_per_second": 0.06
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0182648401826484,
     "total_flos": 1.394108846267433e+17,
-    "train_loss": 4.435050201416016,
-    "train_runtime": 166.2301,
-    "train_samples_per_second": 9.625,
     "train_steps_per_second": 0.06
 }

 {
     "epoch": 0.0182648401826484,
     "total_flos": 1.394108846267433e+17,
+    "train_loss": 4.495834732055664,
+    "train_runtime": 166.6924,
+    "train_samples_per_second": 9.599,
     "train_steps_per_second": 0.06
 }

trainer_state.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.0182648401826484,
@@ -10,18 +11,18 @@
   "log_history": [
     {
       "epoch": 0.0182648401826484,
-      "grad_norm": 0.1791902333498001,
       "learning_rate": 0.0001,
-      "loss": 4.4351,
       "step": 10
     },
     {
       "epoch": 0.0182648401826484,
       "step": 10,
       "total_flos": 1.394108846267433e+17,
-      "train_loss": 4.435050201416016,
-      "train_runtime": 166.2301,
-      "train_samples_per_second": 9.625,
       "train_steps_per_second": 0.06
     }
   ],

 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.0182648401826484,
   "log_history": [
     {
       "epoch": 0.0182648401826484,
+      "grad_norm": 0.2188371866941452,
       "learning_rate": 0.0001,
+      "loss": 4.4958,
       "step": 10
     },
     {
       "epoch": 0.0182648401826484,
       "step": 10,
       "total_flos": 1.394108846267433e+17,
+      "train_loss": 4.495834732055664,
+      "train_runtime": 166.6924,
+      "train_samples_per_second": 9.599,
       "train_steps_per_second": 0.06
     }
   ],