Training in progress, step 100, checkpoint

Files changed (5) hide show

checkpoint-100/README.md CHANGED Viewed

@@ -216,23 +216,4 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
-- PEFT 0.6.0.dev0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: True
-- load_in_4bit: False
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: fp4
-- bnb_4bit_use_double_quant: False
-- bnb_4bit_compute_dtype: float32
-### Framework versions
 - PEFT 0.6.0.dev0

checkpoint-100/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83bc67d84c2e2770e93e7dd5eb955f94295934c16a23ca55e714bba0e414d970
 size 9873829

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d47e218815f606e6ebe353f9b2c582463327a7225a44e266eb7c3001c55a9df
 size 9873829

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2183283d09e449ecb8d1e84db01ccf734116edb2009aace2941c44a12416340c
 size 42724

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c0ae756dedda0958db06224330e4d4efe670ec68b7cbed0c7d6e1258e368c4b
 size 42724

checkpoint-100/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0873ef906878b4c1357d257cb94710733cd24e098664d0b4b1006ecd391a0b46
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f649ff3b7c1c3e2ba75504060c5f895b20a57a154cc2364aa1c230456dc8c528
 size 14244

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.6663276553153992,
   "best_model_checkpoint": "output/checkpoint-100",
-  "epoch": 0.08021658477890303,
   "eval_steps": 50,
   "global_step": 100,
   "is_hyper_param_search": false,
@@ -11,45 +11,45 @@
     {
       "epoch": 0.0,
       "learning_rate": 1.3333333333333332e-06,
-      "loss": 0.785,
       "step": 1
     },
     {
       "epoch": 0.04,
       "learning_rate": 5.9999999999999995e-05,
-      "loss": 0.6547,
       "step": 50
     },
     {
       "epoch": 0.04,
-      "eval_accuracy": 0.6626865671641791,
-      "eval_loss": 0.8300915956497192,
-      "eval_runtime": 61.5689,
-      "eval_samples_per_second": 5.441,
-      "eval_steps_per_second": 1.364,
       "step": 50
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.00012666666666666666,
-      "loss": 0.6654,
       "step": 100
     },
     {
       "epoch": 0.08,
-      "eval_accuracy": 0.6895522388059702,
-      "eval_loss": 0.6663276553153992,
-      "eval_runtime": 56.4633,
-      "eval_samples_per_second": 5.933,
-      "eval_steps_per_second": 1.488,
       "step": 100
     }
   ],
   "logging_steps": 50,
-  "max_steps": 1246,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 3.734879824367616e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.695776641368866,
   "best_model_checkpoint": "output/checkpoint-100",
+  "epoch": 0.08018442417560388,
   "eval_steps": 50,
   "global_step": 100,
   "is_hyper_param_search": false,
     {
       "epoch": 0.0,
       "learning_rate": 1.3333333333333332e-06,
+      "loss": 0.6133,
       "step": 1
     },
     {
       "epoch": 0.04,
       "learning_rate": 5.9999999999999995e-05,
+      "loss": 0.61,
       "step": 50
     },
     {
       "epoch": 0.04,
+      "eval_accuracy": 0.6895522388059702,
+      "eval_loss": 0.6718239784240723,
+      "eval_runtime": 61.4305,
+      "eval_samples_per_second": 5.453,
+      "eval_steps_per_second": 1.367,
       "step": 50
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.00012666666666666666,
+      "loss": 0.6233,
       "step": 100
     },
     {
       "epoch": 0.08,
+      "eval_accuracy": 0.6835820895522388,
+      "eval_loss": 0.695776641368866,
+      "eval_runtime": 61.5801,
+      "eval_samples_per_second": 5.44,
+      "eval_steps_per_second": 1.364,
       "step": 100
     }
   ],
   "logging_steps": 50,
+  "max_steps": 1247,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 3.729294230224896e+16,
   "trial_name": null,
   "trial_params": null
 }