Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +4 -4
checkpoint-138/adapter_config.json +4 -4
checkpoint-138/adapter_model.safetensors +1 -1
checkpoint-138/optimizer.pt +1 -1
checkpoint-138/trainer_state.json +26 -26
checkpoint-138/training_args.bin +1 -1
runs/Sep27_13-22-25_018922eca950/events.out.tfevents.1727443416.018922eca950.4782.0 +3 -0
train_results.json +4 -4
trainer_log.jsonl +14 -14
trainer_state.json +30 -30
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "k_proj",
-    "up_proj",
     "q_proj",
     "down_proj",
     "v_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "up_proj",
     "down_proj",
     "v_proj",
+    "k_proj",
+    "o_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e25acd6a18f2aa9df4b20b43a636d55ad48cdae66cf3747e61e3dc6cb563261
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9f1d98b6bd6627d637012c48eb3fd7b4b3d119855dc5037821599bc3b7fd82d
 size 83945296

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.935483870967742,
     "total_flos": 3871080172486656.0,
-    "train_loss": 0.5972379109133845,
-    "train_runtime": 866.5062,
-    "train_samples_per_second": 1.288,
-    "train_steps_per_second": 0.159
 }

 {
     "epoch": 5.935483870967742,
     "total_flos": 3871080172486656.0,
+    "train_loss": 0.597086531744487,
+    "train_runtime": 849.7455,
+    "train_samples_per_second": 1.313,
+    "train_steps_per_second": 0.162
 }

checkpoint-138/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "k_proj",
-    "up_proj",
     "q_proj",
     "down_proj",
     "v_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "up_proj",
     "down_proj",
     "v_proj",
+    "k_proj",
+    "o_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-138/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e25acd6a18f2aa9df4b20b43a636d55ad48cdae66cf3747e61e3dc6cb563261
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9f1d98b6bd6627d637012c48eb3fd7b4b3d119855dc5037821599bc3b7fd82d
 size 83945296

checkpoint-138/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:191f8cca402f31422fb4a85ac833d9d62b98c5a925578c3809836b2e73903492
 size 168149394

 version https://git-lfs.github.com/spec/v1
+oid sha256:7837df7a48210c4fe030cfa59bb94edf4febe94cdbf20b9fda64ef8f61b3a98f
 size 168149394

checkpoint-138/trainer_state.json CHANGED Viewed

@@ -10,93 +10,93 @@
   "log_history": [
     {
       "epoch": 0.43010752688172044,
-      "grad_norm": 2.766061782836914,
       "learning_rate": 1.785714285714286e-05,
-      "loss": 3.3579,
       "step": 10
     },
     {
       "epoch": 0.8602150537634409,
-      "grad_norm": 1.7068594694137573,
       "learning_rate": 3.571428571428572e-05,
-      "loss": 1.5449,
       "step": 20
     },
     {
       "epoch": 1.2903225806451613,
-      "grad_norm": 1.2398000955581665,
       "learning_rate": 4.995922759815339e-05,
-      "loss": 0.896,
       "step": 30
     },
     {
       "epoch": 1.7204301075268817,
-      "grad_norm": 0.8611450791358948,
       "learning_rate": 4.854610909098812e-05,
-      "loss": 0.7327,
       "step": 40
     },
     {
       "epoch": 2.150537634408602,
-      "grad_norm": 0.7871934771537781,
       "learning_rate": 4.522542485937369e-05,
-      "loss": 0.5126,
       "step": 50
     },
     {
       "epoch": 2.5806451612903225,
-      "grad_norm": 1.3395262956619263,
       "learning_rate": 4.0266196990885955e-05,
-      "loss": 0.3244,
       "step": 60
     },
     {
       "epoch": 3.010752688172043,
-      "grad_norm": 0.8698714375495911,
       "learning_rate": 3.4070192633766025e-05,
-      "loss": 0.305,
       "step": 70
     },
     {
       "epoch": 3.4408602150537635,
-      "grad_norm": 0.6530447006225586,
       "learning_rate": 2.7139375211970996e-05,
-      "loss": 0.1564,
       "step": 80
     },
     {
       "epoch": 3.870967741935484,
-      "grad_norm": 0.8609829545021057,
       "learning_rate": 2.003523833385637e-05,
-      "loss": 0.1377,
       "step": 90
     },
     {
       "epoch": 4.301075268817204,
-      "grad_norm": 0.3412129282951355,
       "learning_rate": 1.3333316919358157e-05,
-      "loss": 0.0779,
       "step": 100
     },
     {
       "epoch": 4.731182795698925,
-      "grad_norm": 0.557332456111908,
       "learning_rate": 7.576560783617668e-06,
-      "loss": 0.0658,
       "step": 110
     },
     {
       "epoch": 5.161290322580645,
-      "grad_norm": 1.0119709968566895,
       "learning_rate": 3.2313480720055745e-06,
-      "loss": 0.0629,
       "step": 120
     },
     {
       "epoch": 5.591397849462366,
-      "grad_norm": 0.2670357823371887,
       "learning_rate": 6.497020764416633e-07,
-      "loss": 0.0347,
       "step": 130
     }
   ],

   "log_history": [
     {
       "epoch": 0.43010752688172044,
+      "grad_norm": 2.765007972717285,
       "learning_rate": 1.785714285714286e-05,
+      "loss": 3.3581,
       "step": 10
     },
     {
       "epoch": 0.8602150537634409,
+      "grad_norm": 1.702070713043213,
       "learning_rate": 3.571428571428572e-05,
+      "loss": 1.5448,
       "step": 20
     },
     {
       "epoch": 1.2903225806451613,
+      "grad_norm": 1.2462737560272217,
       "learning_rate": 4.995922759815339e-05,
+      "loss": 0.8959,
       "step": 30
     },
     {
       "epoch": 1.7204301075268817,
+      "grad_norm": 0.8611997365951538,
       "learning_rate": 4.854610909098812e-05,
+      "loss": 0.7328,
       "step": 40
     },
     {
       "epoch": 2.150537634408602,
+      "grad_norm": 0.799420177936554,
       "learning_rate": 4.522542485937369e-05,
+      "loss": 0.5115,
       "step": 50
     },
     {
       "epoch": 2.5806451612903225,
+      "grad_norm": 1.2618942260742188,
       "learning_rate": 4.0266196990885955e-05,
+      "loss": 0.326,
       "step": 60
     },
     {
       "epoch": 3.010752688172043,
+      "grad_norm": 0.8298829197883606,
       "learning_rate": 3.4070192633766025e-05,
+      "loss": 0.3035,
       "step": 70
     },
     {
       "epoch": 3.4408602150537635,
+      "grad_norm": 1.2379834651947021,
       "learning_rate": 2.7139375211970996e-05,
+      "loss": 0.1585,
       "step": 80
     },
     {
       "epoch": 3.870967741935484,
+      "grad_norm": 0.8900007009506226,
       "learning_rate": 2.003523833385637e-05,
+      "loss": 0.1343,
       "step": 90
     },
     {
       "epoch": 4.301075268817204,
+      "grad_norm": 0.3209846019744873,
       "learning_rate": 1.3333316919358157e-05,
+      "loss": 0.0785,
       "step": 100
     },
     {
       "epoch": 4.731182795698925,
+      "grad_norm": 0.6245219111442566,
       "learning_rate": 7.576560783617668e-06,
+      "loss": 0.0657,
       "step": 110
     },
     {
       "epoch": 5.161290322580645,
+      "grad_norm": 0.9348724484443665,
       "learning_rate": 3.2313480720055745e-06,
+      "loss": 0.0631,
       "step": 120
     },
     {
       "epoch": 5.591397849462366,
+      "grad_norm": 0.2755952775478363,
       "learning_rate": 6.497020764416633e-07,
+      "loss": 0.0341,
       "step": 130
     }
   ],

checkpoint-138/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa102a25ed93818f0320b36531776c930373b97ab939677b5a8c91cda048d262
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:8646d4a3d6bbf798daa136fe65071e072f6bfc40e35d3bacc930a5e4cc212740
 size 5368

runs/Sep27_13-22-25_018922eca950/events.out.tfevents.1727443416.018922eca950.4782.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79116f66d4db7413be82f4bb8a1fface37d5c77e3a0c66e020bd794d7c54857e
+size 8737

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.935483870967742,
     "total_flos": 3871080172486656.0,
-    "train_loss": 0.5972379109133845,
-    "train_runtime": 866.5062,
-    "train_samples_per_second": 1.288,
-    "train_steps_per_second": 0.159
 }

 {
     "epoch": 5.935483870967742,
     "total_flos": 3871080172486656.0,
+    "train_loss": 0.597086531744487,
+    "train_runtime": 849.7455,
+    "train_samples_per_second": 1.313,
+    "train_steps_per_second": 0.162
 }

trainer_log.jsonl CHANGED Viewed

@@ -1,14 +1,14 @@
-{"current_steps": 10, "total_steps": 138, "loss": 3.3579, "learning_rate": 1.785714285714286e-05, "epoch": 0.43010752688172044, "percentage": 7.25, "elapsed_time": "0:01:02", "remaining_time": "0:13:21"}
-{"current_steps": 20, "total_steps": 138, "loss": 1.5449, "learning_rate": 3.571428571428572e-05, "epoch": 0.8602150537634409, "percentage": 14.49, "elapsed_time": "0:02:05", "remaining_time": "0:12:23"}
-{"current_steps": 30, "total_steps": 138, "loss": 0.896, "learning_rate": 4.995922759815339e-05, "epoch": 1.2903225806451613, "percentage": 21.74, "elapsed_time": "0:03:08", "remaining_time": "0:11:20"}
-{"current_steps": 40, "total_steps": 138, "loss": 0.7327, "learning_rate": 4.854610909098812e-05, "epoch": 1.7204301075268817, "percentage": 28.99, "elapsed_time": "0:04:10", "remaining_time": "0:10:14"}
-{"current_steps": 50, "total_steps": 138, "loss": 0.5126, "learning_rate": 4.522542485937369e-05, "epoch": 2.150537634408602, "percentage": 36.23, "elapsed_time": "0:05:13", "remaining_time": "0:09:11"}
-{"current_steps": 60, "total_steps": 138, "loss": 0.3244, "learning_rate": 4.0266196990885955e-05, "epoch": 2.5806451612903225, "percentage": 43.48, "elapsed_time": "0:06:16", "remaining_time": "0:08:09"}
-{"current_steps": 70, "total_steps": 138, "loss": 0.305, "learning_rate": 3.4070192633766025e-05, "epoch": 3.010752688172043, "percentage": 50.72, "elapsed_time": "0:07:19", "remaining_time": "0:07:06"}
-{"current_steps": 80, "total_steps": 138, "loss": 0.1564, "learning_rate": 2.7139375211970996e-05, "epoch": 3.4408602150537635, "percentage": 57.97, "elapsed_time": "0:08:21", "remaining_time": "0:06:03"}
-{"current_steps": 90, "total_steps": 138, "loss": 0.1377, "learning_rate": 2.003523833385637e-05, "epoch": 3.870967741935484, "percentage": 65.22, "elapsed_time": "0:09:24", "remaining_time": "0:05:01"}
-{"current_steps": 100, "total_steps": 138, "loss": 0.0779, "learning_rate": 1.3333316919358157e-05, "epoch": 4.301075268817204, "percentage": 72.46, "elapsed_time": "0:10:26", "remaining_time": "0:03:58"}
-{"current_steps": 110, "total_steps": 138, "loss": 0.0658, "learning_rate": 7.576560783617668e-06, "epoch": 4.731182795698925, "percentage": 79.71, "elapsed_time": "0:11:29", "remaining_time": "0:02:55"}
-{"current_steps": 120, "total_steps": 138, "loss": 0.0629, "learning_rate": 3.2313480720055745e-06, "epoch": 5.161290322580645, "percentage": 86.96, "elapsed_time": "0:12:32", "remaining_time": "0:01:52"}
-{"current_steps": 130, "total_steps": 138, "loss": 0.0347, "learning_rate": 6.497020764416633e-07, "epoch": 5.591397849462366, "percentage": 94.2, "elapsed_time": "0:13:34", "remaining_time": "0:00:50"}
-{"current_steps": 138, "total_steps": 138, "epoch": 5.935483870967742, "percentage": 100.0, "elapsed_time": "0:14:26", "remaining_time": "0:00:00"}

+{"current_steps": 10, "total_steps": 138, "loss": 3.3581, "learning_rate": 1.785714285714286e-05, "epoch": 0.43010752688172044, "percentage": 7.25, "elapsed_time": "0:00:59", "remaining_time": "0:12:45"}
+{"current_steps": 20, "total_steps": 138, "loss": 1.5448, "learning_rate": 3.571428571428572e-05, "epoch": 0.8602150537634409, "percentage": 14.49, "elapsed_time": "0:02:00", "remaining_time": "0:11:48"}
+{"current_steps": 30, "total_steps": 138, "loss": 0.8959, "learning_rate": 4.995922759815339e-05, "epoch": 1.2903225806451613, "percentage": 21.74, "elapsed_time": "0:03:01", "remaining_time": "0:10:55"}
+{"current_steps": 40, "total_steps": 138, "loss": 0.7328, "learning_rate": 4.854610909098812e-05, "epoch": 1.7204301075268817, "percentage": 28.99, "elapsed_time": "0:04:02", "remaining_time": "0:09:54"}
+{"current_steps": 50, "total_steps": 138, "loss": 0.5115, "learning_rate": 4.522542485937369e-05, "epoch": 2.150537634408602, "percentage": 36.23, "elapsed_time": "0:05:03", "remaining_time": "0:08:54"}
+{"current_steps": 60, "total_steps": 138, "loss": 0.326, "learning_rate": 4.0266196990885955e-05, "epoch": 2.5806451612903225, "percentage": 43.48, "elapsed_time": "0:06:05", "remaining_time": "0:07:54"}
+{"current_steps": 70, "total_steps": 138, "loss": 0.3035, "learning_rate": 3.4070192633766025e-05, "epoch": 3.010752688172043, "percentage": 50.72, "elapsed_time": "0:07:06", "remaining_time": "0:06:54"}
+{"current_steps": 80, "total_steps": 138, "loss": 0.1585, "learning_rate": 2.7139375211970996e-05, "epoch": 3.4408602150537635, "percentage": 57.97, "elapsed_time": "0:08:07", "remaining_time": "0:05:53"}
+{"current_steps": 90, "total_steps": 138, "loss": 0.1343, "learning_rate": 2.003523833385637e-05, "epoch": 3.870967741935484, "percentage": 65.22, "elapsed_time": "0:09:09", "remaining_time": "0:04:53"}
+{"current_steps": 100, "total_steps": 138, "loss": 0.0785, "learning_rate": 1.3333316919358157e-05, "epoch": 4.301075268817204, "percentage": 72.46, "elapsed_time": "0:10:10", "remaining_time": "0:03:52"}
+{"current_steps": 110, "total_steps": 138, "loss": 0.0657, "learning_rate": 7.576560783617668e-06, "epoch": 4.731182795698925, "percentage": 79.71, "elapsed_time": "0:11:11", "remaining_time": "0:02:50"}
+{"current_steps": 120, "total_steps": 138, "loss": 0.0631, "learning_rate": 3.2313480720055745e-06, "epoch": 5.161290322580645, "percentage": 86.96, "elapsed_time": "0:12:13", "remaining_time": "0:01:49"}
+{"current_steps": 130, "total_steps": 138, "loss": 0.0341, "learning_rate": 6.497020764416633e-07, "epoch": 5.591397849462366, "percentage": 94.2, "elapsed_time": "0:13:14", "remaining_time": "0:00:48"}
+{"current_steps": 138, "total_steps": 138, "epoch": 5.935483870967742, "percentage": 100.0, "elapsed_time": "0:14:09", "remaining_time": "0:00:00"}

trainer_state.json CHANGED Viewed

@@ -10,103 +10,103 @@
   "log_history": [
     {
       "epoch": 0.43010752688172044,
-      "grad_norm": 2.766061782836914,
       "learning_rate": 1.785714285714286e-05,
-      "loss": 3.3579,
       "step": 10
     },
     {
       "epoch": 0.8602150537634409,
-      "grad_norm": 1.7068594694137573,
       "learning_rate": 3.571428571428572e-05,
-      "loss": 1.5449,
       "step": 20
     },
     {
       "epoch": 1.2903225806451613,
-      "grad_norm": 1.2398000955581665,
       "learning_rate": 4.995922759815339e-05,
-      "loss": 0.896,
       "step": 30
     },
     {
       "epoch": 1.7204301075268817,
-      "grad_norm": 0.8611450791358948,
       "learning_rate": 4.854610909098812e-05,
-      "loss": 0.7327,
       "step": 40
     },
     {
       "epoch": 2.150537634408602,
-      "grad_norm": 0.7871934771537781,
       "learning_rate": 4.522542485937369e-05,
-      "loss": 0.5126,
       "step": 50
     },
     {
       "epoch": 2.5806451612903225,
-      "grad_norm": 1.3395262956619263,
       "learning_rate": 4.0266196990885955e-05,
-      "loss": 0.3244,
       "step": 60
     },
     {
       "epoch": 3.010752688172043,
-      "grad_norm": 0.8698714375495911,
       "learning_rate": 3.4070192633766025e-05,
-      "loss": 0.305,
       "step": 70
     },
     {
       "epoch": 3.4408602150537635,
-      "grad_norm": 0.6530447006225586,
       "learning_rate": 2.7139375211970996e-05,
-      "loss": 0.1564,
       "step": 80
     },
     {
       "epoch": 3.870967741935484,
-      "grad_norm": 0.8609829545021057,
       "learning_rate": 2.003523833385637e-05,
-      "loss": 0.1377,
       "step": 90
     },
     {
       "epoch": 4.301075268817204,
-      "grad_norm": 0.3412129282951355,
       "learning_rate": 1.3333316919358157e-05,
-      "loss": 0.0779,
       "step": 100
     },
     {
       "epoch": 4.731182795698925,
-      "grad_norm": 0.557332456111908,
       "learning_rate": 7.576560783617668e-06,
-      "loss": 0.0658,
       "step": 110
     },
     {
       "epoch": 5.161290322580645,
-      "grad_norm": 1.0119709968566895,
       "learning_rate": 3.2313480720055745e-06,
-      "loss": 0.0629,
       "step": 120
     },
     {
       "epoch": 5.591397849462366,
-      "grad_norm": 0.2670357823371887,
       "learning_rate": 6.497020764416633e-07,
-      "loss": 0.0347,
       "step": 130
     },
     {
       "epoch": 5.935483870967742,
       "step": 138,
       "total_flos": 3871080172486656.0,
-      "train_loss": 0.5972379109133845,
-      "train_runtime": 866.5062,
-      "train_samples_per_second": 1.288,
-      "train_steps_per_second": 0.159
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.43010752688172044,
+      "grad_norm": 2.765007972717285,
       "learning_rate": 1.785714285714286e-05,
+      "loss": 3.3581,
       "step": 10
     },
     {
       "epoch": 0.8602150537634409,
+      "grad_norm": 1.702070713043213,
       "learning_rate": 3.571428571428572e-05,
+      "loss": 1.5448,
       "step": 20
     },
     {
       "epoch": 1.2903225806451613,
+      "grad_norm": 1.2462737560272217,
       "learning_rate": 4.995922759815339e-05,
+      "loss": 0.8959,
       "step": 30
     },
     {
       "epoch": 1.7204301075268817,
+      "grad_norm": 0.8611997365951538,
       "learning_rate": 4.854610909098812e-05,
+      "loss": 0.7328,
       "step": 40
     },
     {
       "epoch": 2.150537634408602,
+      "grad_norm": 0.799420177936554,
       "learning_rate": 4.522542485937369e-05,
+      "loss": 0.5115,
       "step": 50
     },
     {
       "epoch": 2.5806451612903225,
+      "grad_norm": 1.2618942260742188,
       "learning_rate": 4.0266196990885955e-05,
+      "loss": 0.326,
       "step": 60
     },
     {
       "epoch": 3.010752688172043,
+      "grad_norm": 0.8298829197883606,
       "learning_rate": 3.4070192633766025e-05,
+      "loss": 0.3035,
       "step": 70
     },
     {
       "epoch": 3.4408602150537635,
+      "grad_norm": 1.2379834651947021,
       "learning_rate": 2.7139375211970996e-05,
+      "loss": 0.1585,
       "step": 80
     },
     {
       "epoch": 3.870967741935484,
+      "grad_norm": 0.8900007009506226,
       "learning_rate": 2.003523833385637e-05,
+      "loss": 0.1343,
       "step": 90
     },
     {
       "epoch": 4.301075268817204,
+      "grad_norm": 0.3209846019744873,
       "learning_rate": 1.3333316919358157e-05,
+      "loss": 0.0785,
       "step": 100
     },
     {
       "epoch": 4.731182795698925,
+      "grad_norm": 0.6245219111442566,
       "learning_rate": 7.576560783617668e-06,
+      "loss": 0.0657,
       "step": 110
     },
     {
       "epoch": 5.161290322580645,
+      "grad_norm": 0.9348724484443665,
       "learning_rate": 3.2313480720055745e-06,
+      "loss": 0.0631,
       "step": 120
     },
     {
       "epoch": 5.591397849462366,
+      "grad_norm": 0.2755952775478363,
       "learning_rate": 6.497020764416633e-07,
+      "loss": 0.0341,
       "step": 130
     },
     {
       "epoch": 5.935483870967742,
       "step": 138,
       "total_flos": 3871080172486656.0,
+      "train_loss": 0.597086531744487,
+      "train_runtime": 849.7455,
+      "train_samples_per_second": 1.313,
+      "train_steps_per_second": 0.162
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa102a25ed93818f0320b36531776c930373b97ab939677b5a8c91cda048d262
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:8646d4a3d6bbf798daa136fe65071e072f6bfc40e35d3bacc930a5e4cc212740
 size 5368