Training in progress, step 150, checkpoint

Browse files

Files changed (11) hide show

last-checkpoint/lora_lower/adapter_config.json +93 -103
last-checkpoint/lora_lower/adapter_model.safetensors +2 -2
last-checkpoint/lora_middle/adapter_config.json +79 -81
last-checkpoint/lora_middle/adapter_model.safetensors +2 -2
last-checkpoint/lora_top/adapter_config.json +73 -67
last-checkpoint/lora_top/adapter_model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +54 -167
last-checkpoint/training_args.bin +1 -1

last-checkpoint/lora_lower/adapter_config.json CHANGED Viewed

@@ -16,14 +16,14 @@
     "transformer.h.11.mlp.dense_h_to_4h": 8,
     "transformer.h.11.self_attention.dense": 8,
     "transformer.h.11.self_attention.query_key_value": 8,
-    "transformer.h.12.mlp.dense_4h_to_h": 8,
-    "transformer.h.12.mlp.dense_h_to_4h": 8,
-    "transformer.h.12.self_attention.dense": 8,
-    "transformer.h.12.self_attention.query_key_value": 8,
-    "transformer.h.13.mlp.dense_4h_to_h": 8,
-    "transformer.h.13.mlp.dense_h_to_4h": 8,
-    "transformer.h.13.self_attention.dense": 8,
-    "transformer.h.13.self_attention.query_key_value": 8,
     "transformer.h.14.mlp.dense_4h_to_h": 16,
     "transformer.h.14.mlp.dense_h_to_4h": 16,
     "transformer.h.14.self_attention.dense": 16,
@@ -44,30 +44,30 @@
     "transformer.h.18.mlp.dense_h_to_4h": 16,
     "transformer.h.18.self_attention.dense": 16,
     "transformer.h.18.self_attention.query_key_value": 16,
-    "transformer.h.19.mlp.dense_4h_to_h": 16,
-    "transformer.h.19.mlp.dense_h_to_4h": 16,
-    "transformer.h.19.self_attention.dense": 16,
-    "transformer.h.19.self_attention.query_key_value": 16,
     "transformer.h.2.mlp.dense_4h_to_h": 8,
     "transformer.h.2.mlp.dense_h_to_4h": 8,
     "transformer.h.2.self_attention.dense": 8,
     "transformer.h.2.self_attention.query_key_value": 8,
-    "transformer.h.20.mlp.dense_4h_to_h": 16,
-    "transformer.h.20.mlp.dense_h_to_4h": 16,
-    "transformer.h.20.self_attention.dense": 16,
-    "transformer.h.20.self_attention.query_key_value": 16,
-    "transformer.h.21.mlp.dense_4h_to_h": 32,
-    "transformer.h.21.mlp.dense_h_to_4h": 32,
-    "transformer.h.21.self_attention.dense": 32,
-    "transformer.h.21.self_attention.query_key_value": 32,
-    "transformer.h.22.mlp.dense_4h_to_h": 32,
-    "transformer.h.22.mlp.dense_h_to_4h": 32,
-    "transformer.h.22.self_attention.dense": 32,
-    "transformer.h.22.self_attention.query_key_value": 32,
-    "transformer.h.23.mlp.dense_4h_to_h": 32,
-    "transformer.h.23.mlp.dense_h_to_4h": 32,
-    "transformer.h.23.self_attention.dense": 32,
-    "transformer.h.23.self_attention.query_key_value": 32,
     "transformer.h.3.mlp.dense_4h_to_h": 8,
     "transformer.h.3.mlp.dense_h_to_4h": 8,
     "transformer.h.3.self_attention.dense": 8,
@@ -111,9 +111,7 @@
   "lora_dropout": 0.0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
-  "modules_to_save": [
-    "lm_head"
-  ],
   "peft_type": "LORA",
   "r": 4,
   "rank_pattern": {
@@ -133,14 +131,14 @@
     "transformer.h.11.mlp.dense_h_to_4h": 4,
     "transformer.h.11.self_attention.dense": 4,
     "transformer.h.11.self_attention.query_key_value": 4,
-    "transformer.h.12.mlp.dense_4h_to_h": 4,
-    "transformer.h.12.mlp.dense_h_to_4h": 4,
-    "transformer.h.12.self_attention.dense": 4,
-    "transformer.h.12.self_attention.query_key_value": 4,
-    "transformer.h.13.mlp.dense_4h_to_h": 4,
-    "transformer.h.13.mlp.dense_h_to_4h": 4,
-    "transformer.h.13.self_attention.dense": 4,
-    "transformer.h.13.self_attention.query_key_value": 4,
     "transformer.h.14.mlp.dense_4h_to_h": 8,
     "transformer.h.14.mlp.dense_h_to_4h": 8,
     "transformer.h.14.self_attention.dense": 8,
@@ -161,30 +159,30 @@
     "transformer.h.18.mlp.dense_h_to_4h": 8,
     "transformer.h.18.self_attention.dense": 8,
     "transformer.h.18.self_attention.query_key_value": 8,
-    "transformer.h.19.mlp.dense_4h_to_h": 8,
-    "transformer.h.19.mlp.dense_h_to_4h": 8,
-    "transformer.h.19.self_attention.dense": 8,
-    "transformer.h.19.self_attention.query_key_value": 8,
     "transformer.h.2.mlp.dense_4h_to_h": 4,
     "transformer.h.2.mlp.dense_h_to_4h": 4,
     "transformer.h.2.self_attention.dense": 4,
     "transformer.h.2.self_attention.query_key_value": 4,
-    "transformer.h.20.mlp.dense_4h_to_h": 8,
-    "transformer.h.20.mlp.dense_h_to_4h": 8,
-    "transformer.h.20.self_attention.dense": 8,
-    "transformer.h.20.self_attention.query_key_value": 8,
-    "transformer.h.21.mlp.dense_4h_to_h": 16,
-    "transformer.h.21.mlp.dense_h_to_4h": 16,
-    "transformer.h.21.self_attention.dense": 16,
-    "transformer.h.21.self_attention.query_key_value": 16,
-    "transformer.h.22.mlp.dense_4h_to_h": 16,
-    "transformer.h.22.mlp.dense_h_to_4h": 16,
-    "transformer.h.22.self_attention.dense": 16,
-    "transformer.h.22.self_attention.query_key_value": 16,
-    "transformer.h.23.mlp.dense_4h_to_h": 16,
-    "transformer.h.23.mlp.dense_h_to_4h": 16,
-    "transformer.h.23.self_attention.dense": 16,
-    "transformer.h.23.self_attention.query_key_value": 16,
     "transformer.h.3.mlp.dense_4h_to_h": 4,
     "transformer.h.3.mlp.dense_h_to_4h": 4,
     "transformer.h.3.self_attention.dense": 4,
@@ -216,62 +214,54 @@
   },
   "revision": null,
   "target_modules": [
-    "transformer.h.8.mlp.dense_4h_to_h",
-    "transformer.h.6.self_attention.query_key_value",
-    "transformer.h.4.mlp.dense_h_to_4h",
-    "transformer.h.11.mlp.dense_4h_to_h",
-    "transformer.h.5.self_attention.query_key_value",
-    "transformer.h.10.mlp.dense_h_to_4h",
-    "transformer.h.4.self_attention.query_key_value",
     "transformer.h.4.mlp.dense_4h_to_h",
-    "transformer.h.1.mlp.dense_4h_to_h",
-    "transformer.h.13.mlp.dense_4h_to_h",
-    "transformer.h.6.self_attention.dense",
-    "transformer.h.13.mlp.dense_h_to_4h",
-    "transformer.h.3.mlp.dense_h_to_4h",
-    "transformer.h.2.mlp.dense_4h_to_h",
     "transformer.h.9.mlp.dense_4h_to_h",
-    "transformer.h.7.self_attention.dense",
     "transformer.h.8.self_attention.query_key_value",
-    "transformer.h.6.mlp.dense_h_to_4h",
     "transformer.h.11.self_attention.dense",
     "transformer.h.10.mlp.dense_4h_to_h",
-    "transformer.h.12.self_attention.query_key_value",
-    "transformer.h.12.mlp.dense_h_to_4h",
-    "transformer.h.12.mlp.dense_4h_to_h",
-    "transformer.h.0.mlp.dense_h_to_4h",
-    "transformer.h.11.mlp.dense_h_to_4h",
     "transformer.h.7.mlp.dense_h_to_4h",
-    "transformer.h.1.mlp.dense_h_to_4h",
-    "transformer.h.13.self_attention.query_key_value",
-    "transformer.h.9.self_attention.dense",
-    "transformer.h.5.mlp.dense_h_to_4h",
-    "transformer.h.10.self_attention.dense",
-    "transformer.h.0.mlp.dense_4h_to_h",
-    "transformer.h.11.self_attention.query_key_value",
     "transformer.h.2.mlp.dense_h_to_4h",
     "transformer.h.10.self_attention.query_key_value",
     "transformer.h.9.self_attention.query_key_value",
-    "transformer.h.8.mlp.dense_h_to_4h",
     "transformer.h.0.self_attention.query_key_value",
-    "transformer.h.0.self_attention.dense",
-    "transformer.h.4.self_attention.dense",
-    "transformer.h.13.self_attention.dense",
-    "transformer.h.2.self_attention.query_key_value",
-    "transformer.h.3.self_attention.query_key_value",
-    "transformer.h.7.self_attention.query_key_value",
     "transformer.h.5.mlp.dense_4h_to_h",
-    "transformer.h.8.self_attention.dense",
-    "transformer.h.9.mlp.dense_h_to_4h",
     "transformer.h.6.mlp.dense_4h_to_h",
-    "transformer.h.7.mlp.dense_4h_to_h",
-    "transformer.h.3.mlp.dense_4h_to_h",
-    "transformer.h.3.self_attention.dense",
-    "transformer.h.1.self_attention.query_key_value",
-    "transformer.h.1.self_attention.dense",
-    "transformer.h.5.self_attention.dense",
-    "transformer.h.12.self_attention.dense",
-    "transformer.h.2.self_attention.dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

     "transformer.h.11.mlp.dense_h_to_4h": 8,
     "transformer.h.11.self_attention.dense": 8,
     "transformer.h.11.self_attention.query_key_value": 8,
+    "transformer.h.12.mlp.dense_4h_to_h": 16,
+    "transformer.h.12.mlp.dense_h_to_4h": 16,
+    "transformer.h.12.self_attention.dense": 16,
+    "transformer.h.12.self_attention.query_key_value": 16,
+    "transformer.h.13.mlp.dense_4h_to_h": 16,
+    "transformer.h.13.mlp.dense_h_to_4h": 16,
+    "transformer.h.13.self_attention.dense": 16,
+    "transformer.h.13.self_attention.query_key_value": 16,
     "transformer.h.14.mlp.dense_4h_to_h": 16,
     "transformer.h.14.mlp.dense_h_to_4h": 16,
     "transformer.h.14.self_attention.dense": 16,
     "transformer.h.18.mlp.dense_h_to_4h": 16,
     "transformer.h.18.self_attention.dense": 16,
     "transformer.h.18.self_attention.query_key_value": 16,
+    "transformer.h.19.mlp.dense_4h_to_h": 128,
+    "transformer.h.19.mlp.dense_h_to_4h": 128,
+    "transformer.h.19.self_attention.dense": 128,
+    "transformer.h.19.self_attention.query_key_value": 128,
     "transformer.h.2.mlp.dense_4h_to_h": 8,
     "transformer.h.2.mlp.dense_h_to_4h": 8,
     "transformer.h.2.self_attention.dense": 8,
     "transformer.h.2.self_attention.query_key_value": 8,
+    "transformer.h.20.mlp.dense_4h_to_h": 128,
+    "transformer.h.20.mlp.dense_h_to_4h": 128,
+    "transformer.h.20.self_attention.dense": 128,
+    "transformer.h.20.self_attention.query_key_value": 128,
+    "transformer.h.21.mlp.dense_4h_to_h": 128,
+    "transformer.h.21.mlp.dense_h_to_4h": 128,
+    "transformer.h.21.self_attention.dense": 128,
+    "transformer.h.21.self_attention.query_key_value": 128,
+    "transformer.h.22.mlp.dense_4h_to_h": 128,
+    "transformer.h.22.mlp.dense_h_to_4h": 128,
+    "transformer.h.22.self_attention.dense": 128,
+    "transformer.h.22.self_attention.query_key_value": 128,
+    "transformer.h.23.mlp.dense_4h_to_h": 128,
+    "transformer.h.23.mlp.dense_h_to_4h": 128,
+    "transformer.h.23.self_attention.dense": 128,
+    "transformer.h.23.self_attention.query_key_value": 128,
     "transformer.h.3.mlp.dense_4h_to_h": 8,
     "transformer.h.3.mlp.dense_h_to_4h": 8,
     "transformer.h.3.self_attention.dense": 8,
   "lora_dropout": 0.0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
+  "modules_to_save": null,
   "peft_type": "LORA",
   "r": 4,
   "rank_pattern": {
     "transformer.h.11.mlp.dense_h_to_4h": 4,
     "transformer.h.11.self_attention.dense": 4,
     "transformer.h.11.self_attention.query_key_value": 4,
+    "transformer.h.12.mlp.dense_4h_to_h": 8,
+    "transformer.h.12.mlp.dense_h_to_4h": 8,
+    "transformer.h.12.self_attention.dense": 8,
+    "transformer.h.12.self_attention.query_key_value": 8,
+    "transformer.h.13.mlp.dense_4h_to_h": 8,
+    "transformer.h.13.mlp.dense_h_to_4h": 8,
+    "transformer.h.13.self_attention.dense": 8,
+    "transformer.h.13.self_attention.query_key_value": 8,
     "transformer.h.14.mlp.dense_4h_to_h": 8,
     "transformer.h.14.mlp.dense_h_to_4h": 8,
     "transformer.h.14.self_attention.dense": 8,
     "transformer.h.18.mlp.dense_h_to_4h": 8,
     "transformer.h.18.self_attention.dense": 8,
     "transformer.h.18.self_attention.query_key_value": 8,
+    "transformer.h.19.mlp.dense_4h_to_h": 64,
+    "transformer.h.19.mlp.dense_h_to_4h": 64,
+    "transformer.h.19.self_attention.dense": 64,
+    "transformer.h.19.self_attention.query_key_value": 64,
     "transformer.h.2.mlp.dense_4h_to_h": 4,
     "transformer.h.2.mlp.dense_h_to_4h": 4,
     "transformer.h.2.self_attention.dense": 4,
     "transformer.h.2.self_attention.query_key_value": 4,
+    "transformer.h.20.mlp.dense_4h_to_h": 64,
+    "transformer.h.20.mlp.dense_h_to_4h": 64,
+    "transformer.h.20.self_attention.dense": 64,
+    "transformer.h.20.self_attention.query_key_value": 64,
+    "transformer.h.21.mlp.dense_4h_to_h": 64,
+    "transformer.h.21.mlp.dense_h_to_4h": 64,
+    "transformer.h.21.self_attention.dense": 64,
+    "transformer.h.21.self_attention.query_key_value": 64,
+    "transformer.h.22.mlp.dense_4h_to_h": 64,
+    "transformer.h.22.mlp.dense_h_to_4h": 64,
+    "transformer.h.22.self_attention.dense": 64,
+    "transformer.h.22.self_attention.query_key_value": 64,
+    "transformer.h.23.mlp.dense_4h_to_h": 64,
+    "transformer.h.23.mlp.dense_h_to_4h": 64,
+    "transformer.h.23.self_attention.dense": 64,
+    "transformer.h.23.self_attention.query_key_value": 64,
     "transformer.h.3.mlp.dense_4h_to_h": 4,
     "transformer.h.3.mlp.dense_h_to_4h": 4,
     "transformer.h.3.self_attention.dense": 4,
   },
   "revision": null,
   "target_modules": [
+    "transformer.h.0.mlp.dense_h_to_4h",
+    "transformer.h.8.mlp.dense_h_to_4h",
     "transformer.h.4.mlp.dense_4h_to_h",
+    "transformer.h.2.self_attention.dense",
     "transformer.h.9.mlp.dense_4h_to_h",
+    "transformer.h.11.mlp.dense_4h_to_h",
+    "transformer.h.9.mlp.dense_h_to_4h",
     "transformer.h.8.self_attention.query_key_value",
+    "transformer.h.6.self_attention.dense",
+    "transformer.h.3.self_attention.query_key_value",
+    "transformer.h.3.self_attention.dense",
     "transformer.h.11.self_attention.dense",
+    "transformer.h.1.self_attention.query_key_value",
+    "transformer.h.5.mlp.dense_h_to_4h",
+    "transformer.h.2.self_attention.query_key_value",
+    "transformer.h.10.mlp.dense_h_to_4h",
+    "transformer.h.3.mlp.dense_4h_to_h",
+    "transformer.h.4.self_attention.query_key_value",
     "transformer.h.10.mlp.dense_4h_to_h",
+    "transformer.h.4.mlp.dense_h_to_4h",
+    "transformer.h.7.self_attention.dense",
+    "transformer.h.0.self_attention.dense",
     "transformer.h.7.mlp.dense_h_to_4h",
     "transformer.h.2.mlp.dense_h_to_4h",
+    "transformer.h.8.self_attention.dense",
+    "transformer.h.11.mlp.dense_h_to_4h",
+    "transformer.h.7.mlp.dense_4h_to_h",
+    "transformer.h.7.self_attention.query_key_value",
+    "transformer.h.0.mlp.dense_4h_to_h",
     "transformer.h.10.self_attention.query_key_value",
+    "transformer.h.11.self_attention.query_key_value",
+    "transformer.h.1.mlp.dense_4h_to_h",
+    "transformer.h.1.mlp.dense_h_to_4h",
+    "transformer.h.5.self_attention.dense",
+    "transformer.h.10.self_attention.dense",
+    "transformer.h.6.self_attention.query_key_value",
+    "transformer.h.6.mlp.dense_h_to_4h",
+    "transformer.h.5.self_attention.query_key_value",
+    "transformer.h.4.self_attention.dense",
+    "transformer.h.8.mlp.dense_4h_to_h",
+    "transformer.h.3.mlp.dense_h_to_4h",
+    "transformer.h.1.self_attention.dense",
     "transformer.h.9.self_attention.query_key_value",
+    "transformer.h.9.self_attention.dense",
     "transformer.h.0.self_attention.query_key_value",
     "transformer.h.5.mlp.dense_4h_to_h",
     "transformer.h.6.mlp.dense_4h_to_h",
+    "transformer.h.2.mlp.dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/lora_lower/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:462b6bff6479bc4430adab26dfb4c275946fb47f94c48e49edfad477094d0422
-size 2058899176

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b632073286f4624203e332784f0e1c31b8f4a8d74fbc2833acf0b3b3947b1ea
+size 3162128

last-checkpoint/lora_middle/adapter_config.json CHANGED Viewed

@@ -16,14 +16,14 @@
     "transformer.h.11.mlp.dense_h_to_4h": 8,
     "transformer.h.11.self_attention.dense": 8,
     "transformer.h.11.self_attention.query_key_value": 8,
-    "transformer.h.12.mlp.dense_4h_to_h": 8,
-    "transformer.h.12.mlp.dense_h_to_4h": 8,
-    "transformer.h.12.self_attention.dense": 8,
-    "transformer.h.12.self_attention.query_key_value": 8,
-    "transformer.h.13.mlp.dense_4h_to_h": 8,
-    "transformer.h.13.mlp.dense_h_to_4h": 8,
-    "transformer.h.13.self_attention.dense": 8,
-    "transformer.h.13.self_attention.query_key_value": 8,
     "transformer.h.14.mlp.dense_4h_to_h": 16,
     "transformer.h.14.mlp.dense_h_to_4h": 16,
     "transformer.h.14.self_attention.dense": 16,
@@ -44,30 +44,30 @@
     "transformer.h.18.mlp.dense_h_to_4h": 16,
     "transformer.h.18.self_attention.dense": 16,
     "transformer.h.18.self_attention.query_key_value": 16,
-    "transformer.h.19.mlp.dense_4h_to_h": 16,
-    "transformer.h.19.mlp.dense_h_to_4h": 16,
-    "transformer.h.19.self_attention.dense": 16,
-    "transformer.h.19.self_attention.query_key_value": 16,
     "transformer.h.2.mlp.dense_4h_to_h": 8,
     "transformer.h.2.mlp.dense_h_to_4h": 8,
     "transformer.h.2.self_attention.dense": 8,
     "transformer.h.2.self_attention.query_key_value": 8,
-    "transformer.h.20.mlp.dense_4h_to_h": 16,
-    "transformer.h.20.mlp.dense_h_to_4h": 16,
-    "transformer.h.20.self_attention.dense": 16,
-    "transformer.h.20.self_attention.query_key_value": 16,
-    "transformer.h.21.mlp.dense_4h_to_h": 32,
-    "transformer.h.21.mlp.dense_h_to_4h": 32,
-    "transformer.h.21.self_attention.dense": 32,
-    "transformer.h.21.self_attention.query_key_value": 32,
-    "transformer.h.22.mlp.dense_4h_to_h": 32,
-    "transformer.h.22.mlp.dense_h_to_4h": 32,
-    "transformer.h.22.self_attention.dense": 32,
-    "transformer.h.22.self_attention.query_key_value": 32,
-    "transformer.h.23.mlp.dense_4h_to_h": 32,
-    "transformer.h.23.mlp.dense_h_to_4h": 32,
-    "transformer.h.23.self_attention.dense": 32,
-    "transformer.h.23.self_attention.query_key_value": 32,
     "transformer.h.3.mlp.dense_4h_to_h": 8,
     "transformer.h.3.mlp.dense_h_to_4h": 8,
     "transformer.h.3.self_attention.dense": 8,
@@ -111,9 +111,7 @@
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
-  "modules_to_save": [
-    "lm_head"
-  ],
   "peft_type": "LORA",
   "r": 8,
   "rank_pattern": {
@@ -133,14 +131,14 @@
     "transformer.h.11.mlp.dense_h_to_4h": 4,
     "transformer.h.11.self_attention.dense": 4,
     "transformer.h.11.self_attention.query_key_value": 4,
-    "transformer.h.12.mlp.dense_4h_to_h": 4,
-    "transformer.h.12.mlp.dense_h_to_4h": 4,
-    "transformer.h.12.self_attention.dense": 4,
-    "transformer.h.12.self_attention.query_key_value": 4,
-    "transformer.h.13.mlp.dense_4h_to_h": 4,
-    "transformer.h.13.mlp.dense_h_to_4h": 4,
-    "transformer.h.13.self_attention.dense": 4,
-    "transformer.h.13.self_attention.query_key_value": 4,
     "transformer.h.14.mlp.dense_4h_to_h": 8,
     "transformer.h.14.mlp.dense_h_to_4h": 8,
     "transformer.h.14.self_attention.dense": 8,
@@ -161,30 +159,30 @@
     "transformer.h.18.mlp.dense_h_to_4h": 8,
     "transformer.h.18.self_attention.dense": 8,
     "transformer.h.18.self_attention.query_key_value": 8,
-    "transformer.h.19.mlp.dense_4h_to_h": 8,
-    "transformer.h.19.mlp.dense_h_to_4h": 8,
-    "transformer.h.19.self_attention.dense": 8,
-    "transformer.h.19.self_attention.query_key_value": 8,
     "transformer.h.2.mlp.dense_4h_to_h": 4,
     "transformer.h.2.mlp.dense_h_to_4h": 4,
     "transformer.h.2.self_attention.dense": 4,
     "transformer.h.2.self_attention.query_key_value": 4,
-    "transformer.h.20.mlp.dense_4h_to_h": 8,
-    "transformer.h.20.mlp.dense_h_to_4h": 8,
-    "transformer.h.20.self_attention.dense": 8,
-    "transformer.h.20.self_attention.query_key_value": 8,
-    "transformer.h.21.mlp.dense_4h_to_h": 16,
-    "transformer.h.21.mlp.dense_h_to_4h": 16,
-    "transformer.h.21.self_attention.dense": 16,
-    "transformer.h.21.self_attention.query_key_value": 16,
-    "transformer.h.22.mlp.dense_4h_to_h": 16,
-    "transformer.h.22.mlp.dense_h_to_4h": 16,
-    "transformer.h.22.self_attention.dense": 16,
-    "transformer.h.22.self_attention.query_key_value": 16,
-    "transformer.h.23.mlp.dense_4h_to_h": 16,
-    "transformer.h.23.mlp.dense_h_to_4h": 16,
-    "transformer.h.23.self_attention.dense": 16,
-    "transformer.h.23.self_attention.query_key_value": 16,
     "transformer.h.3.mlp.dense_4h_to_h": 4,
     "transformer.h.3.mlp.dense_h_to_4h": 4,
     "transformer.h.3.self_attention.dense": 4,
@@ -216,34 +214,34 @@
   },
   "revision": null,
   "target_modules": [
-    "transformer.h.20.mlp.dense_h_to_4h",
-    "transformer.h.17.mlp.dense_h_to_4h",
-    "transformer.h.14.self_attention.dense",
-    "transformer.h.20.self_attention.query_key_value",
     "transformer.h.14.mlp.dense_4h_to_h",
     "transformer.h.16.mlp.dense_h_to_4h",
-    "transformer.h.19.self_attention.dense",
-    "transformer.h.20.mlp.dense_4h_to_h",
-    "transformer.h.15.mlp.dense_h_to_4h",
-    "transformer.h.15.self_attention.query_key_value",
-    "transformer.h.18.mlp.dense_4h_to_h",
-    "transformer.h.16.mlp.dense_4h_to_h",
-    "transformer.h.19.mlp.dense_h_to_4h",
-    "transformer.h.19.self_attention.query_key_value",
-    "transformer.h.15.self_attention.dense",
-    "transformer.h.18.self_attention.dense",
     "transformer.h.17.mlp.dense_4h_to_h",
-    "transformer.h.16.self_attention.query_key_value",
-    "transformer.h.19.mlp.dense_4h_to_h",
-    "transformer.h.20.self_attention.dense",
-    "transformer.h.18.self_attention.query_key_value",
-    "transformer.h.15.mlp.dense_4h_to_h",
     "transformer.h.14.mlp.dense_h_to_4h",
-    "transformer.h.17.self_attention.dense",
     "transformer.h.16.self_attention.dense",
     "transformer.h.18.mlp.dense_h_to_4h",
-    "transformer.h.17.self_attention.query_key_value",
-    "transformer.h.14.self_attention.query_key_value"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

     "transformer.h.11.mlp.dense_h_to_4h": 8,
     "transformer.h.11.self_attention.dense": 8,
     "transformer.h.11.self_attention.query_key_value": 8,
+    "transformer.h.12.mlp.dense_4h_to_h": 16,
+    "transformer.h.12.mlp.dense_h_to_4h": 16,
+    "transformer.h.12.self_attention.dense": 16,
+    "transformer.h.12.self_attention.query_key_value": 16,
+    "transformer.h.13.mlp.dense_4h_to_h": 16,
+    "transformer.h.13.mlp.dense_h_to_4h": 16,
+    "transformer.h.13.self_attention.dense": 16,
+    "transformer.h.13.self_attention.query_key_value": 16,
     "transformer.h.14.mlp.dense_4h_to_h": 16,
     "transformer.h.14.mlp.dense_h_to_4h": 16,
     "transformer.h.14.self_attention.dense": 16,
     "transformer.h.18.mlp.dense_h_to_4h": 16,
     "transformer.h.18.self_attention.dense": 16,
     "transformer.h.18.self_attention.query_key_value": 16,
+    "transformer.h.19.mlp.dense_4h_to_h": 128,
+    "transformer.h.19.mlp.dense_h_to_4h": 128,
+    "transformer.h.19.self_attention.dense": 128,
+    "transformer.h.19.self_attention.query_key_value": 128,
     "transformer.h.2.mlp.dense_4h_to_h": 8,
     "transformer.h.2.mlp.dense_h_to_4h": 8,
     "transformer.h.2.self_attention.dense": 8,
     "transformer.h.2.self_attention.query_key_value": 8,
+    "transformer.h.20.mlp.dense_4h_to_h": 128,
+    "transformer.h.20.mlp.dense_h_to_4h": 128,
+    "transformer.h.20.self_attention.dense": 128,
+    "transformer.h.20.self_attention.query_key_value": 128,
+    "transformer.h.21.mlp.dense_4h_to_h": 128,
+    "transformer.h.21.mlp.dense_h_to_4h": 128,
+    "transformer.h.21.self_attention.dense": 128,
+    "transformer.h.21.self_attention.query_key_value": 128,
+    "transformer.h.22.mlp.dense_4h_to_h": 128,
+    "transformer.h.22.mlp.dense_h_to_4h": 128,
+    "transformer.h.22.self_attention.dense": 128,
+    "transformer.h.22.self_attention.query_key_value": 128,
+    "transformer.h.23.mlp.dense_4h_to_h": 128,
+    "transformer.h.23.mlp.dense_h_to_4h": 128,
+    "transformer.h.23.self_attention.dense": 128,
+    "transformer.h.23.self_attention.query_key_value": 128,
     "transformer.h.3.mlp.dense_4h_to_h": 8,
     "transformer.h.3.mlp.dense_h_to_4h": 8,
     "transformer.h.3.self_attention.dense": 8,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
+  "modules_to_save": null,
   "peft_type": "LORA",
   "r": 8,
   "rank_pattern": {
     "transformer.h.11.mlp.dense_h_to_4h": 4,
     "transformer.h.11.self_attention.dense": 4,
     "transformer.h.11.self_attention.query_key_value": 4,
+    "transformer.h.12.mlp.dense_4h_to_h": 8,
+    "transformer.h.12.mlp.dense_h_to_4h": 8,
+    "transformer.h.12.self_attention.dense": 8,
+    "transformer.h.12.self_attention.query_key_value": 8,
+    "transformer.h.13.mlp.dense_4h_to_h": 8,
+    "transformer.h.13.mlp.dense_h_to_4h": 8,
+    "transformer.h.13.self_attention.dense": 8,
+    "transformer.h.13.self_attention.query_key_value": 8,
     "transformer.h.14.mlp.dense_4h_to_h": 8,
     "transformer.h.14.mlp.dense_h_to_4h": 8,
     "transformer.h.14.self_attention.dense": 8,
     "transformer.h.18.mlp.dense_h_to_4h": 8,
     "transformer.h.18.self_attention.dense": 8,
     "transformer.h.18.self_attention.query_key_value": 8,
+    "transformer.h.19.mlp.dense_4h_to_h": 64,
+    "transformer.h.19.mlp.dense_h_to_4h": 64,
+    "transformer.h.19.self_attention.dense": 64,
+    "transformer.h.19.self_attention.query_key_value": 64,
     "transformer.h.2.mlp.dense_4h_to_h": 4,
     "transformer.h.2.mlp.dense_h_to_4h": 4,
     "transformer.h.2.self_attention.dense": 4,
     "transformer.h.2.self_attention.query_key_value": 4,
+    "transformer.h.20.mlp.dense_4h_to_h": 64,
+    "transformer.h.20.mlp.dense_h_to_4h": 64,
+    "transformer.h.20.self_attention.dense": 64,
+    "transformer.h.20.self_attention.query_key_value": 64,
+    "transformer.h.21.mlp.dense_4h_to_h": 64,
+    "transformer.h.21.mlp.dense_h_to_4h": 64,
+    "transformer.h.21.self_attention.dense": 64,
+    "transformer.h.21.self_attention.query_key_value": 64,
+    "transformer.h.22.mlp.dense_4h_to_h": 64,
+    "transformer.h.22.mlp.dense_h_to_4h": 64,
+    "transformer.h.22.self_attention.dense": 64,
+    "transformer.h.22.self_attention.query_key_value": 64,
+    "transformer.h.23.mlp.dense_4h_to_h": 64,
+    "transformer.h.23.mlp.dense_h_to_4h": 64,
+    "transformer.h.23.self_attention.dense": 64,
+    "transformer.h.23.self_attention.query_key_value": 64,
     "transformer.h.3.mlp.dense_4h_to_h": 4,
     "transformer.h.3.mlp.dense_h_to_4h": 4,
     "transformer.h.3.self_attention.dense": 4,
   },
   "revision": null,
   "target_modules": [
+    "transformer.h.16.self_attention.query_key_value",
+    "transformer.h.13.mlp.dense_4h_to_h",
+    "transformer.h.12.mlp.dense_h_to_4h",
+    "transformer.h.13.self_attention.query_key_value",
+    "transformer.h.12.self_attention.dense",
+    "transformer.h.17.self_attention.dense",
     "transformer.h.14.mlp.dense_4h_to_h",
+    "transformer.h.12.self_attention.query_key_value",
+    "transformer.h.14.self_attention.query_key_value",
+    "transformer.h.13.self_attention.dense",
     "transformer.h.16.mlp.dense_h_to_4h",
+    "transformer.h.17.self_attention.query_key_value",
+    "transformer.h.12.mlp.dense_4h_to_h",
     "transformer.h.17.mlp.dense_4h_to_h",
+    "transformer.h.18.mlp.dense_4h_to_h",
+    "transformer.h.14.self_attention.dense",
     "transformer.h.14.mlp.dense_h_to_4h",
+    "transformer.h.13.mlp.dense_h_to_4h",
     "transformer.h.16.self_attention.dense",
+    "transformer.h.17.mlp.dense_h_to_4h",
+    "transformer.h.15.self_attention.query_key_value",
+    "transformer.h.16.mlp.dense_4h_to_h",
+    "transformer.h.18.self_attention.query_key_value",
+    "transformer.h.15.mlp.dense_h_to_4h",
+    "transformer.h.15.self_attention.dense",
     "transformer.h.18.mlp.dense_h_to_4h",
+    "transformer.h.18.self_attention.dense",
+    "transformer.h.15.mlp.dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/lora_middle/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2705a293473662f885bc2c9b4b1643921a5f4db0ad8025e88a7dcd2aa0221f5
-size 2058889288

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ae83ba1e2af168e27f5e54b5a606f7a08f1f83f754f042a77ff6f6aedc080e2
+size 3679656

last-checkpoint/lora_top/adapter_config.json CHANGED Viewed

@@ -16,14 +16,14 @@
     "transformer.h.11.mlp.dense_h_to_4h": 8,
     "transformer.h.11.self_attention.dense": 8,
     "transformer.h.11.self_attention.query_key_value": 8,
-    "transformer.h.12.mlp.dense_4h_to_h": 8,
-    "transformer.h.12.mlp.dense_h_to_4h": 8,
-    "transformer.h.12.self_attention.dense": 8,
-    "transformer.h.12.self_attention.query_key_value": 8,
-    "transformer.h.13.mlp.dense_4h_to_h": 8,
-    "transformer.h.13.mlp.dense_h_to_4h": 8,
-    "transformer.h.13.self_attention.dense": 8,
-    "transformer.h.13.self_attention.query_key_value": 8,
     "transformer.h.14.mlp.dense_4h_to_h": 16,
     "transformer.h.14.mlp.dense_h_to_4h": 16,
     "transformer.h.14.self_attention.dense": 16,
@@ -44,30 +44,30 @@
     "transformer.h.18.mlp.dense_h_to_4h": 16,
     "transformer.h.18.self_attention.dense": 16,
     "transformer.h.18.self_attention.query_key_value": 16,
-    "transformer.h.19.mlp.dense_4h_to_h": 16,
-    "transformer.h.19.mlp.dense_h_to_4h": 16,
-    "transformer.h.19.self_attention.dense": 16,
-    "transformer.h.19.self_attention.query_key_value": 16,
     "transformer.h.2.mlp.dense_4h_to_h": 8,
     "transformer.h.2.mlp.dense_h_to_4h": 8,
     "transformer.h.2.self_attention.dense": 8,
     "transformer.h.2.self_attention.query_key_value": 8,
-    "transformer.h.20.mlp.dense_4h_to_h": 16,
-    "transformer.h.20.mlp.dense_h_to_4h": 16,
-    "transformer.h.20.self_attention.dense": 16,
-    "transformer.h.20.self_attention.query_key_value": 16,
-    "transformer.h.21.mlp.dense_4h_to_h": 32,
-    "transformer.h.21.mlp.dense_h_to_4h": 32,
-    "transformer.h.21.self_attention.dense": 32,
-    "transformer.h.21.self_attention.query_key_value": 32,
-    "transformer.h.22.mlp.dense_4h_to_h": 32,
-    "transformer.h.22.mlp.dense_h_to_4h": 32,
-    "transformer.h.22.self_attention.dense": 32,
-    "transformer.h.22.self_attention.query_key_value": 32,
-    "transformer.h.23.mlp.dense_4h_to_h": 32,
-    "transformer.h.23.mlp.dense_h_to_4h": 32,
-    "transformer.h.23.self_attention.dense": 32,
-    "transformer.h.23.self_attention.query_key_value": 32,
     "transformer.h.3.mlp.dense_4h_to_h": 8,
     "transformer.h.3.mlp.dense_h_to_4h": 8,
     "transformer.h.3.self_attention.dense": 8,
@@ -111,9 +111,7 @@
   "lora_dropout": 0.3,
   "megatron_config": null,
   "megatron_core": "megatron.core",
-  "modules_to_save": [
-    "lm_head"
-  ],
   "peft_type": "LORA",
   "r": 16,
   "rank_pattern": {
@@ -133,14 +131,14 @@
     "transformer.h.11.mlp.dense_h_to_4h": 4,
     "transformer.h.11.self_attention.dense": 4,
     "transformer.h.11.self_attention.query_key_value": 4,
-    "transformer.h.12.mlp.dense_4h_to_h": 4,
-    "transformer.h.12.mlp.dense_h_to_4h": 4,
-    "transformer.h.12.self_attention.dense": 4,
-    "transformer.h.12.self_attention.query_key_value": 4,
-    "transformer.h.13.mlp.dense_4h_to_h": 4,
-    "transformer.h.13.mlp.dense_h_to_4h": 4,
-    "transformer.h.13.self_attention.dense": 4,
-    "transformer.h.13.self_attention.query_key_value": 4,
     "transformer.h.14.mlp.dense_4h_to_h": 8,
     "transformer.h.14.mlp.dense_h_to_4h": 8,
     "transformer.h.14.self_attention.dense": 8,
@@ -161,30 +159,30 @@
     "transformer.h.18.mlp.dense_h_to_4h": 8,
     "transformer.h.18.self_attention.dense": 8,
     "transformer.h.18.self_attention.query_key_value": 8,
-    "transformer.h.19.mlp.dense_4h_to_h": 8,
-    "transformer.h.19.mlp.dense_h_to_4h": 8,
-    "transformer.h.19.self_attention.dense": 8,
-    "transformer.h.19.self_attention.query_key_value": 8,
     "transformer.h.2.mlp.dense_4h_to_h": 4,
     "transformer.h.2.mlp.dense_h_to_4h": 4,
     "transformer.h.2.self_attention.dense": 4,
     "transformer.h.2.self_attention.query_key_value": 4,
-    "transformer.h.20.mlp.dense_4h_to_h": 8,
-    "transformer.h.20.mlp.dense_h_to_4h": 8,
-    "transformer.h.20.self_attention.dense": 8,
-    "transformer.h.20.self_attention.query_key_value": 8,
-    "transformer.h.21.mlp.dense_4h_to_h": 16,
-    "transformer.h.21.mlp.dense_h_to_4h": 16,
-    "transformer.h.21.self_attention.dense": 16,
-    "transformer.h.21.self_attention.query_key_value": 16,
-    "transformer.h.22.mlp.dense_4h_to_h": 16,
-    "transformer.h.22.mlp.dense_h_to_4h": 16,
-    "transformer.h.22.self_attention.dense": 16,
-    "transformer.h.22.self_attention.query_key_value": 16,
-    "transformer.h.23.mlp.dense_4h_to_h": 16,
-    "transformer.h.23.mlp.dense_h_to_4h": 16,
-    "transformer.h.23.self_attention.dense": 16,
-    "transformer.h.23.self_attention.query_key_value": 16,
     "transformer.h.3.mlp.dense_4h_to_h": 4,
     "transformer.h.3.mlp.dense_h_to_4h": 4,
     "transformer.h.3.self_attention.dense": 4,
@@ -216,18 +214,26 @@
   },
   "revision": null,
   "target_modules": [
     "transformer.h.21.self_attention.dense",
-    "transformer.h.22.self_attention.query_key_value",
     "transformer.h.21.self_attention.query_key_value",
-    "transformer.h.23.self_attention.query_key_value",
-    "transformer.h.21.mlp.dense_4h_to_h",
-    "transformer.h.22.self_attention.dense",
     "transformer.h.23.self_attention.dense",
-    "transformer.h.22.mlp.dense_4h_to_h",
     "transformer.h.23.mlp.dense_h_to_4h",
-    "transformer.h.21.mlp.dense_h_to_4h",
-    "transformer.h.23.mlp.dense_4h_to_h",
-    "transformer.h.22.mlp.dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

     "transformer.h.11.mlp.dense_h_to_4h": 8,
     "transformer.h.11.self_attention.dense": 8,
     "transformer.h.11.self_attention.query_key_value": 8,
+    "transformer.h.12.mlp.dense_4h_to_h": 16,
+    "transformer.h.12.mlp.dense_h_to_4h": 16,
+    "transformer.h.12.self_attention.dense": 16,
+    "transformer.h.12.self_attention.query_key_value": 16,
+    "transformer.h.13.mlp.dense_4h_to_h": 16,
+    "transformer.h.13.mlp.dense_h_to_4h": 16,
+    "transformer.h.13.self_attention.dense": 16,
+    "transformer.h.13.self_attention.query_key_value": 16,
     "transformer.h.14.mlp.dense_4h_to_h": 16,
     "transformer.h.14.mlp.dense_h_to_4h": 16,
     "transformer.h.14.self_attention.dense": 16,
     "transformer.h.18.mlp.dense_h_to_4h": 16,
     "transformer.h.18.self_attention.dense": 16,
     "transformer.h.18.self_attention.query_key_value": 16,
+    "transformer.h.19.mlp.dense_4h_to_h": 128,
+    "transformer.h.19.mlp.dense_h_to_4h": 128,
+    "transformer.h.19.self_attention.dense": 128,
+    "transformer.h.19.self_attention.query_key_value": 128,
     "transformer.h.2.mlp.dense_4h_to_h": 8,
     "transformer.h.2.mlp.dense_h_to_4h": 8,
     "transformer.h.2.self_attention.dense": 8,
     "transformer.h.2.self_attention.query_key_value": 8,
+    "transformer.h.20.mlp.dense_4h_to_h": 128,
+    "transformer.h.20.mlp.dense_h_to_4h": 128,
+    "transformer.h.20.self_attention.dense": 128,
+    "transformer.h.20.self_attention.query_key_value": 128,
+    "transformer.h.21.mlp.dense_4h_to_h": 128,
+    "transformer.h.21.mlp.dense_h_to_4h": 128,
+    "transformer.h.21.self_attention.dense": 128,
+    "transformer.h.21.self_attention.query_key_value": 128,
+    "transformer.h.22.mlp.dense_4h_to_h": 128,
+    "transformer.h.22.mlp.dense_h_to_4h": 128,
+    "transformer.h.22.self_attention.dense": 128,
+    "transformer.h.22.self_attention.query_key_value": 128,
+    "transformer.h.23.mlp.dense_4h_to_h": 128,
+    "transformer.h.23.mlp.dense_h_to_4h": 128,
+    "transformer.h.23.self_attention.dense": 128,
+    "transformer.h.23.self_attention.query_key_value": 128,
     "transformer.h.3.mlp.dense_4h_to_h": 8,
     "transformer.h.3.mlp.dense_h_to_4h": 8,
     "transformer.h.3.self_attention.dense": 8,
   "lora_dropout": 0.3,
   "megatron_config": null,
   "megatron_core": "megatron.core",
+  "modules_to_save": null,
   "peft_type": "LORA",
   "r": 16,
   "rank_pattern": {
     "transformer.h.11.mlp.dense_h_to_4h": 4,
     "transformer.h.11.self_attention.dense": 4,
     "transformer.h.11.self_attention.query_key_value": 4,
+    "transformer.h.12.mlp.dense_4h_to_h": 8,
+    "transformer.h.12.mlp.dense_h_to_4h": 8,
+    "transformer.h.12.self_attention.dense": 8,
+    "transformer.h.12.self_attention.query_key_value": 8,
+    "transformer.h.13.mlp.dense_4h_to_h": 8,
+    "transformer.h.13.mlp.dense_h_to_4h": 8,
+    "transformer.h.13.self_attention.dense": 8,
+    "transformer.h.13.self_attention.query_key_value": 8,
     "transformer.h.14.mlp.dense_4h_to_h": 8,
     "transformer.h.14.mlp.dense_h_to_4h": 8,
     "transformer.h.14.self_attention.dense": 8,
     "transformer.h.18.mlp.dense_h_to_4h": 8,
     "transformer.h.18.self_attention.dense": 8,
     "transformer.h.18.self_attention.query_key_value": 8,
+    "transformer.h.19.mlp.dense_4h_to_h": 64,
+    "transformer.h.19.mlp.dense_h_to_4h": 64,
+    "transformer.h.19.self_attention.dense": 64,
+    "transformer.h.19.self_attention.query_key_value": 64,
     "transformer.h.2.mlp.dense_4h_to_h": 4,
     "transformer.h.2.mlp.dense_h_to_4h": 4,
     "transformer.h.2.self_attention.dense": 4,
     "transformer.h.2.self_attention.query_key_value": 4,
+    "transformer.h.20.mlp.dense_4h_to_h": 64,
+    "transformer.h.20.mlp.dense_h_to_4h": 64,
+    "transformer.h.20.self_attention.dense": 64,
+    "transformer.h.20.self_attention.query_key_value": 64,
+    "transformer.h.21.mlp.dense_4h_to_h": 64,
+    "transformer.h.21.mlp.dense_h_to_4h": 64,
+    "transformer.h.21.self_attention.dense": 64,
+    "transformer.h.21.self_attention.query_key_value": 64,
+    "transformer.h.22.mlp.dense_4h_to_h": 64,
+    "transformer.h.22.mlp.dense_h_to_4h": 64,
+    "transformer.h.22.self_attention.dense": 64,
+    "transformer.h.22.self_attention.query_key_value": 64,
+    "transformer.h.23.mlp.dense_4h_to_h": 64,
+    "transformer.h.23.mlp.dense_h_to_4h": 64,
+    "transformer.h.23.self_attention.dense": 64,
+    "transformer.h.23.self_attention.query_key_value": 64,
     "transformer.h.3.mlp.dense_4h_to_h": 4,
     "transformer.h.3.mlp.dense_h_to_4h": 4,
     "transformer.h.3.self_attention.dense": 4,
   },
   "revision": null,
   "target_modules": [
+    "transformer.h.19.self_attention.query_key_value",
+    "transformer.h.22.mlp.dense_4h_to_h",
+    "transformer.h.22.self_attention.dense",
+    "transformer.h.21.mlp.dense_h_to_4h",
+    "transformer.h.21.mlp.dense_4h_to_h",
+    "transformer.h.20.self_attention.query_key_value",
+    "transformer.h.20.mlp.dense_h_to_4h",
+    "transformer.h.19.self_attention.dense",
+    "transformer.h.22.mlp.dense_h_to_4h",
     "transformer.h.21.self_attention.dense",
+    "transformer.h.23.mlp.dense_4h_to_h",
     "transformer.h.21.self_attention.query_key_value",
+    "transformer.h.22.self_attention.query_key_value",
+    "transformer.h.20.self_attention.dense",
+    "transformer.h.19.mlp.dense_h_to_4h",
+    "transformer.h.19.mlp.dense_4h_to_h",
     "transformer.h.23.self_attention.dense",
     "transformer.h.23.mlp.dense_h_to_4h",
+    "transformer.h.23.self_attention.query_key_value",
+    "transformer.h.20.mlp.dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/lora_top/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4dcaaf734b9b1a56cb2294cf0fa8500e082ee74b2b20b5cd2c67e1122555870
-size 2058359328

 version https://git-lfs.github.com/spec/v1
+oid sha256:db717b03cbf2f1a46c5f15b26bf9f789de7fc458cf6131e22f3bbb9f834a45e1
+size 5249824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c82dcc7cfa9a457a5aa17056d6b326ba023342eb225aaf0898e6e54c2bb6077
-size 2061522259

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad554f121b2fb4412ef9896a650c093864011bb63532cae8be5cadb109859887
+size 10520058

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99714ae94e1721c655a4d2e5fffbbc6ed7e1f5ed893f7bf8f89ada975f3ed81f
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7cc7552dbdf9469e78ab73bf70c6f588116bcf08f142cb145b7886c28a210e1
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f41cbca3e8e87d3857cac1912cf18c05169bb171e7530cf76d23b482cbc432c
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ff91ed2121713e2d5688c93acd928083291e754cea825d48e464b7b5d969d0e
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,238 +1,125 @@
 {
-  "best_metric": 3.867088794708252,
-  "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 0.04899559039686428,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0016331863465621427,
-      "grad_norm": 60.602169036865234,
-      "learning_rate": 2.154434690031884e-06,
-      "loss": 4.2742,
       "step": 10
     },
     {
       "epoch": 0.0032663726931242854,
-      "grad_norm": 57.758113861083984,
-      "learning_rate": 4.308869380063768e-06,
-      "loss": 4.0288,
       "step": 20
     },
     {
       "epoch": 0.004899559039686428,
-      "grad_norm": 55.49625778198242,
-      "learning_rate": 6.463304070095652e-06,
-      "loss": 4.1612,
       "step": 30
     },
     {
       "epoch": 0.006532745386248571,
-      "grad_norm": 46.22760772705078,
-      "learning_rate": 8.617738760127536e-06,
-      "loss": 4.1069,
       "step": 40
     },
     {
       "epoch": 0.008165931732810714,
-      "grad_norm": 47.324954986572266,
-      "learning_rate": 1.077217345015942e-05,
-      "loss": 4.0317,
       "step": 50
     },
     {
       "epoch": 0.009799118079372856,
-      "grad_norm": 46.110965728759766,
-      "learning_rate": 1.2926608140191304e-05,
-      "loss": 3.9325,
       "step": 60
     },
     {
       "epoch": 0.011432304425935,
-      "grad_norm": 47.741973876953125,
-      "learning_rate": 1.5081042830223187e-05,
-      "loss": 3.9713,
       "step": 70
     },
     {
       "epoch": 0.013065490772497142,
-      "grad_norm": 40.646671295166016,
-      "learning_rate": 1.723547752025507e-05,
-      "loss": 3.9214,
       "step": 80
     },
     {
       "epoch": 0.014698677119059285,
-      "grad_norm": 44.510902404785156,
-      "learning_rate": 1.9389912210286956e-05,
-      "loss": 3.9046,
       "step": 90
     },
     {
       "epoch": 0.01633186346562143,
-      "grad_norm": 43.503135681152344,
-      "learning_rate": 2.154434690031884e-05,
-      "loss": 3.971,
       "step": 100
     },
     {
       "epoch": 0.01796504981218357,
-      "grad_norm": 53.51116180419922,
-      "learning_rate": 2.154412549938943e-05,
-      "loss": 3.9408,
       "step": 110
     },
     {
       "epoch": 0.019598236158745713,
-      "grad_norm": 45.50636672973633,
-      "learning_rate": 2.1543461305702127e-05,
-      "loss": 3.955,
       "step": 120
     },
     {
       "epoch": 0.021231422505307854,
-      "grad_norm": 45.04021072387695,
-      "learning_rate": 2.1542354346559332e-05,
-      "loss": 3.9399,
       "step": 130
     },
     {
       "epoch": 0.02286460885187,
-      "grad_norm": 41.114078521728516,
-      "learning_rate": 2.15408046674638e-05,
-      "loss": 3.857,
       "step": 140
     },
     {
       "epoch": 0.02449779519843214,
-      "grad_norm": 55.586185455322266,
-      "learning_rate": 2.1538812332116767e-05,
-      "loss": 3.9741,
       "step": 150
     },
     {
       "epoch": 0.02449779519843214,
-      "eval_loss": 4.046905040740967,
-      "eval_runtime": 12.6477,
-      "eval_samples_per_second": 39.533,
-      "eval_steps_per_second": 39.533,
       "step": 150
-    },
-    {
-      "epoch": 0.026130981544994283,
-      "grad_norm": 39.35482406616211,
-      "learning_rate": 2.1536377422415337e-05,
-      "loss": 3.9314,
-      "step": 160
-    },
-    {
-      "epoch": 0.027764167891556425,
-      "grad_norm": 49.44642639160156,
-      "learning_rate": 2.1533500038449112e-05,
-      "loss": 3.9469,
-      "step": 170
-    },
-    {
-      "epoch": 0.02939735423811857,
-      "grad_norm": 47.13311004638672,
-      "learning_rate": 2.1530180298496075e-05,
-      "loss": 3.8316,
-      "step": 180
-    },
-    {
-      "epoch": 0.031030540584680712,
-      "grad_norm": 45.86495590209961,
-      "learning_rate": 2.1526418339017734e-05,
-      "loss": 3.9398,
-      "step": 190
-    },
-    {
-      "epoch": 0.03266372693124286,
-      "grad_norm": 42.1937141418457,
-      "learning_rate": 2.152221431465351e-05,
-      "loss": 3.8032,
-      "step": 200
-    },
-    {
-      "epoch": 0.034296913277805,
-      "grad_norm": 43.07133865356445,
-      "learning_rate": 2.1517568398214374e-05,
-      "loss": 3.823,
-      "step": 210
-    },
-    {
-      "epoch": 0.03593009962436714,
-      "grad_norm": 52.06683349609375,
-      "learning_rate": 2.1512480780675756e-05,
-      "loss": 3.6545,
-      "step": 220
-    },
-    {
-      "epoch": 0.03756328597092928,
-      "grad_norm": 43.83436965942383,
-      "learning_rate": 2.150695167116969e-05,
-      "loss": 3.8256,
-      "step": 230
-    },
-    {
-      "epoch": 0.039196472317491425,
-      "grad_norm": 46.70238494873047,
-      "learning_rate": 2.1500981296976207e-05,
-      "loss": 3.8661,
-      "step": 240
-    },
-    {
-      "epoch": 0.04082965866405357,
-      "grad_norm": 47.87880325317383,
-      "learning_rate": 2.1494569903514006e-05,
-      "loss": 3.7335,
-      "step": 250
-    },
-    {
-      "epoch": 0.04246284501061571,
-      "grad_norm": 42.191898345947266,
-      "learning_rate": 2.1487717754330366e-05,
-      "loss": 3.7399,
-      "step": 260
-    },
-    {
-      "epoch": 0.04409603135717785,
-      "grad_norm": 41.03351974487305,
-      "learning_rate": 2.1480425131090295e-05,
-      "loss": 3.703,
-      "step": 270
-    },
-    {
-      "epoch": 0.04572921770374,
-      "grad_norm": 41.71271896362305,
-      "learning_rate": 2.1472692333564976e-05,
-      "loss": 3.6198,
-      "step": 280
-    },
-    {
-      "epoch": 0.04736240405030214,
-      "grad_norm": 40.65316390991211,
-      "learning_rate": 2.1464519679619426e-05,
-      "loss": 3.6979,
-      "step": 290
-    },
-    {
-      "epoch": 0.04899559039686428,
-      "grad_norm": 37.19804382324219,
-      "learning_rate": 2.1455907505199437e-05,
-      "loss": 3.638,
-      "step": 300
-    },
-    {
-      "epoch": 0.04899559039686428,
-      "eval_loss": 3.867088794708252,
-      "eval_runtime": 17.9999,
-      "eval_samples_per_second": 27.778,
-      "eval_steps_per_second": 27.778,
-      "step": 300
     }
   ],
   "logging_steps": 10,
@@ -252,7 +139,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4443567455141888e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 4.310510158538818,
+  "best_model_checkpoint": "./output/checkpoint-150",
+  "epoch": 0.02449779519843214,
   "eval_steps": 150,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0016331863465621427,
+      "grad_norm": 2.129213571548462,
+      "learning_rate": 9.999999999999997e-06,
+      "loss": 4.4958,
       "step": 10
     },
     {
       "epoch": 0.0032663726931242854,
+      "grad_norm": 1.9591890573501587,
+      "learning_rate": 1.9999999999999995e-05,
+      "loss": 4.2389,
       "step": 20
     },
     {
       "epoch": 0.004899559039686428,
+      "grad_norm": 1.9256017208099365,
+      "learning_rate": 2.9999999999999987e-05,
+      "loss": 4.3691,
       "step": 30
     },
     {
       "epoch": 0.006532745386248571,
+      "grad_norm": 2.024043083190918,
+      "learning_rate": 3.999999999999999e-05,
+      "loss": 4.3816,
       "step": 40
     },
     {
       "epoch": 0.008165931732810714,
+      "grad_norm": 2.1886556148529053,
+      "learning_rate": 4.999999999999998e-05,
+      "loss": 4.2901,
       "step": 50
     },
     {
       "epoch": 0.009799118079372856,
+      "grad_norm": 2.0718095302581787,
+      "learning_rate": 5.9999999999999974e-05,
+      "loss": 4.2541,
       "step": 60
     },
     {
       "epoch": 0.011432304425935,
+      "grad_norm": 2.2743079662323,
+      "learning_rate": 6.999999999999997e-05,
+      "loss": 4.2627,
       "step": 70
     },
     {
       "epoch": 0.013065490772497142,
+      "grad_norm": 2.5313594341278076,
+      "learning_rate": 7.999999999999998e-05,
+      "loss": 4.1977,
       "step": 80
     },
     {
       "epoch": 0.014698677119059285,
+      "grad_norm": 2.4693851470947266,
+      "learning_rate": 8.999999999999997e-05,
+      "loss": 4.1341,
       "step": 90
     },
     {
       "epoch": 0.01633186346562143,
+      "grad_norm": 2.289997100830078,
+      "learning_rate": 9.999999999999996e-05,
+      "loss": 4.2624,
       "step": 100
     },
     {
       "epoch": 0.01796504981218357,
+      "grad_norm": 2.836108922958374,
+      "learning_rate": 9.999897234791826e-05,
+      "loss": 4.2417,
       "step": 110
     },
     {
       "epoch": 0.019598236158745713,
+      "grad_norm": 2.3288657665252686,
+      "learning_rate": 9.999588943391593e-05,
+      "loss": 4.2338,
       "step": 120
     },
     {
       "epoch": 0.021231422505307854,
+      "grad_norm": 2.600402593612671,
+      "learning_rate": 9.999075138471947e-05,
+      "loss": 4.2208,
       "step": 130
     },
     {
       "epoch": 0.02286460885187,
+      "grad_norm": 2.5480844974517822,
+      "learning_rate": 9.998355841153395e-05,
+      "loss": 4.1776,
       "step": 140
     },
     {
       "epoch": 0.02449779519843214,
+      "grad_norm": 2.910768747329712,
+      "learning_rate": 9.997431081003435e-05,
+      "loss": 4.2473,
       "step": 150
     },
     {
       "epoch": 0.02449779519843214,
+      "eval_loss": 4.310510158538818,
+      "eval_runtime": 12.9228,
+      "eval_samples_per_second": 38.691,
+      "eval_steps_per_second": 38.691,
       "step": 150
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2063558931775488.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f40345b3fd623d3ea644b5cebfee50c24fbc32ad1c4eb11de85e1691db783a37
 size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:592c59c98adf2e8f3e83b6394c6b1788941e44d546133031b57e9181a2e64999
 size 5496