Training in progress, step 50, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/README.md +19 -0
last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step50/mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step50/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/trainer_state.json +92 -92
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -217,4 +217,23 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
 - PEFT 0.6.2

 ### Framework versions
+- PEFT 0.6.2
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: True
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
 - PEFT 0.6.2

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -16,13 +16,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
-    "k_proj",
     "up_proj",
-    "v_proj",
-    "q_proj",
     "down_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "o_proj",
     "up_proj",
     "down_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1d26ae4d91ee5406ecdb04754fcb794c49fdbf6bbb41861d8558309f1105dad
 size 42002136

 version https://git-lfs.github.com/spec/v1
+oid sha256:02b49cafa17099fb3f799866f293f74c7421276b1b678b94cf3e64d676ebf640
 size 42002136

last-checkpoint/global_step50/mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4361fddc8c415ce1454201b361168cd2d48d0c91ea4864257e518f77d84aca18
 size 8182659910

 version https://git-lfs.github.com/spec/v1
+oid sha256:3663cd25d4d871f3f96de9903f8a5a1c5145270aede215a61322c35013b86e01
 size 8182659910

last-checkpoint/global_step50/zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98d7331c6fcdd957f25dbd69d15a4939c741d5692b698f8c99287f9ad6fb941b
 size 251710893

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b891787fb2dd7b75a0aa4236a035d50c8e084175b628f675ac16bc245b5ee71
 size 251710893

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -23,294 +23,294 @@
     {
       "epoch": 0.0,
       "learning_rate": 0.0,
-      "loss": 1.664,
       "step": 3
     },
     {
       "epoch": 0.0,
       "learning_rate": 8.613531161467861e-05,
-      "loss": 1.7923,
       "step": 4
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00013652123889719707,
-      "loss": 1.8119,
       "step": 5
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00017227062322935723,
-      "loss": 1.6156,
       "step": 6
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.4321,
       "step": 7
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0002,
-      "loss": 1.4738,
       "step": 8
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00019789473684210526,
-      "loss": 1.7251,
       "step": 9
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00019578947368421054,
-      "loss": 1.6262,
       "step": 10
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001936842105263158,
-      "loss": 1.4947,
       "step": 11
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00019157894736842104,
-      "loss": 1.8006,
       "step": 12
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00018947368421052632,
-      "loss": 1.6487,
       "step": 13
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001873684210526316,
-      "loss": 1.7926,
       "step": 14
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00018526315789473685,
-      "loss": 1.5979,
       "step": 15
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001831578947368421,
-      "loss": 1.6008,
       "step": 16
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00018105263157894739,
-      "loss": 1.7569,
       "step": 17
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00017894736842105264,
-      "loss": 1.7647,
       "step": 18
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001768421052631579,
-      "loss": 1.7386,
       "step": 19
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00017473684210526317,
-      "loss": 1.5272,
       "step": 20
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00017263157894736842,
-      "loss": 1.8591,
       "step": 21
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001705263157894737,
-      "loss": 1.5613,
       "step": 22
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016842105263157895,
-      "loss": 1.3797,
       "step": 23
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016631578947368423,
-      "loss": 1.3594,
       "step": 24
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016421052631578948,
-      "loss": 1.6027,
       "step": 25
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016210526315789473,
-      "loss": 1.5134,
       "step": 26
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00016,
-      "loss": 1.7149,
       "step": 27
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00015789473684210527,
-      "loss": 1.8614,
       "step": 28
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00015578947368421052,
-      "loss": 1.4819,
       "step": 29
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001536842105263158,
-      "loss": 1.623,
       "step": 30
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00015157894736842108,
-      "loss": 1.7829,
       "step": 31
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00014947368421052633,
-      "loss": 1.4878,
       "step": 32
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00014736842105263158,
-      "loss": 1.7675,
       "step": 33
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00014526315789473686,
-      "loss": 1.6652,
       "step": 34
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001431578947368421,
-      "loss": 1.4829,
       "step": 35
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00014105263157894736,
-      "loss": 1.6084,
       "step": 36
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00013894736842105264,
-      "loss": 1.5299,
       "step": 37
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001368421052631579,
-      "loss": 1.5337,
       "step": 38
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00013473684210526317,
-      "loss": 1.4584,
       "step": 39
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00013263157894736842,
-      "loss": 1.5648,
       "step": 40
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001305263157894737,
-      "loss": 1.6003,
       "step": 41
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00012842105263157895,
-      "loss": 1.5679,
       "step": 42
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001263157894736842,
-      "loss": 1.425,
       "step": 43
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00012421052631578949,
-      "loss": 1.2781,
       "step": 44
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00012210526315789474,
-      "loss": 1.7008,
       "step": 45
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00012,
-      "loss": 1.4367,
       "step": 46
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00011789473684210525,
-      "loss": 1.4628,
       "step": 47
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00011578947368421053,
-      "loss": 1.6098,
       "step": 48
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0001136842105263158,
-      "loss": 1.4618,
       "step": 49
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.00011157894736842105,
-      "loss": 1.3719,
       "step": 50
     }
   ],
   "logging_steps": 1,
-  "max_steps": 100,
   "num_train_epochs": 1,
   "save_steps": 50,
   "total_flos": 3065802843488256.0,

     {
       "epoch": 0.0,
       "learning_rate": 0.0,
+      "loss": 1.6536,
       "step": 3
     },
     {
       "epoch": 0.0,
       "learning_rate": 8.613531161467861e-05,
+      "loss": 1.7934,
       "step": 4
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00013652123889719707,
+      "loss": 1.8117,
       "step": 5
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.00017227062322935723,
+      "loss": 1.618,
       "step": 6
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00017227062322935723,
+      "loss": 1.4355,
       "step": 7
     },
     {
       "epoch": 0.0,
       "learning_rate": 0.0002,
+      "loss": 1.4779,
       "step": 8
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.7512,
       "step": 9
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.6407,
       "step": 10
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001979166666666667,
+      "loss": 1.4995,
       "step": 11
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00019583333333333334,
+      "loss": 1.8377,
       "step": 12
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00019375000000000002,
+      "loss": 1.6649,
       "step": 13
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00019166666666666667,
+      "loss": 1.8315,
       "step": 14
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00018958333333333332,
+      "loss": 1.6504,
       "step": 15
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001875,
+      "loss": 1.6062,
       "step": 16
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00018541666666666668,
+      "loss": 1.7712,
       "step": 17
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00018333333333333334,
+      "loss": 1.7817,
       "step": 18
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00018125000000000001,
+      "loss": 1.7626,
       "step": 19
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001791666666666667,
+      "loss": 1.5501,
       "step": 20
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00017708333333333335,
+      "loss": 1.8781,
       "step": 21
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.000175,
+      "loss": 1.5841,
       "step": 22
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00017291666666666668,
+      "loss": 1.3914,
       "step": 23
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00017083333333333333,
+      "loss": 1.3798,
       "step": 24
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016875,
+      "loss": 1.599,
       "step": 25
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 1.5245,
       "step": 26
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016458333333333334,
+      "loss": 1.719,
       "step": 27
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016250000000000002,
+      "loss": 1.8812,
       "step": 28
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016041666666666667,
+      "loss": 1.4837,
       "step": 29
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00015833333333333332,
+      "loss": 1.6244,
       "step": 30
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00015625,
+      "loss": 1.7895,
       "step": 31
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00015416666666666668,
+      "loss": 1.4903,
       "step": 32
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00015208333333333333,
+      "loss": 1.7662,
       "step": 33
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 1.668,
       "step": 34
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001479166666666667,
+      "loss": 1.4777,
       "step": 35
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00014583333333333335,
+      "loss": 1.6102,
       "step": 36
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00014375,
+      "loss": 1.5228,
       "step": 37
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00014166666666666668,
+      "loss": 1.5251,
       "step": 38
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00013958333333333333,
+      "loss": 1.4569,
       "step": 39
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001375,
+      "loss": 1.5586,
       "step": 40
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001354166666666667,
+      "loss": 1.6027,
       "step": 41
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 1.5661,
       "step": 42
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00013125000000000002,
+      "loss": 1.4163,
       "step": 43
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00012916666666666667,
+      "loss": 1.2751,
       "step": 44
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00012708333333333332,
+      "loss": 1.7024,
       "step": 45
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.000125,
+      "loss": 1.4381,
       "step": 46
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00012291666666666668,
+      "loss": 1.4661,
       "step": 47
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00012083333333333333,
+      "loss": 1.6117,
       "step": 48
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00011875,
+      "loss": 1.4635,
       "step": 49
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00011666666666666668,
+      "loss": 1.3727,
       "step": 50
     }
   ],
   "logging_steps": 1,
+  "max_steps": 101,
   "num_train_epochs": 1,
   "save_steps": 50,
   "total_flos": 3065802843488256.0,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3b4ec3761ef4757a95a527eb558426cc30befdddfb2e65ccd9b15755214e1aa
 size 6328

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7cbf95afd03db05e4a6c60c9e638cc6a5d0f42779b04f46a69a319a2385ecef
 size 6328