Training in progress, step 32, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +320 -67
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -11,7 +11,7 @@
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 32,
-  "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "down_proj",
-    "up_proj",
     "q_proj",
     "gate_proj",
     "v_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 32,
+  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "down_proj",
     "q_proj",
     "gate_proj",
+    "up_proj",
     "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:201e4206f0072c8917512dc8cf146dbefbf2660ac39b28436d9b13f918b3b490
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a5eb1cb19fc0c60d664b828e872a3c9fccf47841332e3517fb14668f4ad3e08
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32256b2c4c4a61eddd4aaf2aaba0b5bb581f6fc968419c62f7dff3dd99ec3145
 size 43122580

 version https://git-lfs.github.com/spec/v1
+oid sha256:732a08b950183eeb5645d88e5c68a1b78b0843a7c42fc65a380ce442c0ef502f
 size 43122580

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab0372fdcad347477f1f6e103fe6b994aa44c8a3bc6c0da45db133064a81b26e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:12eead4dacfbb671ef1fd5f888a398102288bc99c781a4c7577bb0acff26e12b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35e92785679980f3fcd23b14ce1acaffcae115e3e9164492d0e4b31775d32447
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c831940ce942c692a0f94542970ff2f02dcc70548c29c8a5b2a0e5efa834004b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,126 +1,379 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0608187134502924,
-  "eval_steps": 13,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.004678362573099415,
-      "grad_norm": 5.241299629211426,
-      "learning_rate": 2e-05,
-      "loss": 2.985,
       "step": 1
     },
     {
-      "epoch": 0.004678362573099415,
       "eval_loss": 3.3358547687530518,
-      "eval_runtime": 13.8778,
-      "eval_samples_per_second": 6.485,
-      "eval_steps_per_second": 6.485,
       "step": 1
     },
     {
-      "epoch": 0.00935672514619883,
-      "grad_norm": 6.737635612487793,
-      "learning_rate": 4e-05,
-      "loss": 3.569,
       "step": 2
     },
     {
-      "epoch": 0.014035087719298246,
-      "grad_norm": 6.156493663787842,
-      "learning_rate": 6e-05,
-      "loss": 3.4481,
       "step": 3
     },
     {
-      "epoch": 0.01871345029239766,
-      "grad_norm": 5.9444403648376465,
-      "learning_rate": 8e-05,
-      "loss": 3.2638,
       "step": 4
     },
     {
-      "epoch": 0.023391812865497075,
-      "grad_norm": 5.542334079742432,
-      "learning_rate": 0.0001,
-      "loss": 3.2655,
       "step": 5
     },
     {
-      "epoch": 0.028070175438596492,
-      "grad_norm": 4.943231582641602,
-      "learning_rate": 0.00012,
-      "loss": 3.3256,
       "step": 6
     },
     {
-      "epoch": 0.03274853801169591,
-      "grad_norm": 5.165916919708252,
-      "learning_rate": 0.00014,
-      "loss": 2.8769,
       "step": 7
     },
     {
-      "epoch": 0.03742690058479532,
-      "grad_norm": 4.797478199005127,
-      "learning_rate": 0.00016,
-      "loss": 2.8655,
       "step": 8
     },
     {
-      "epoch": 0.042105263157894736,
-      "grad_norm": 5.1365180015563965,
-      "learning_rate": 0.00018,
-      "loss": 3.0914,
       "step": 9
     },
     {
-      "epoch": 0.04678362573099415,
-      "grad_norm": 5.111344337463379,
-      "learning_rate": 0.0002,
-      "loss": 3.0234,
       "step": 10
     },
     {
-      "epoch": 0.05146198830409357,
-      "grad_norm": 4.561822891235352,
-      "learning_rate": 0.0001996917333733128,
-      "loss": 2.4678,
       "step": 11
     },
     {
-      "epoch": 0.056140350877192984,
-      "grad_norm": 4.718181610107422,
-      "learning_rate": 0.00019876883405951377,
-      "loss": 3.0406,
       "step": 12
     },
     {
-      "epoch": 0.0608187134502924,
-      "grad_norm": 5.097424030303955,
-      "learning_rate": 0.00019723699203976766,
-      "loss": 2.6678,
-      "step": 13
     },
     {
-      "epoch": 0.0608187134502924,
-      "eval_loss": 2.732684373855591,
-      "eval_runtime": 13.866,
-      "eval_samples_per_second": 6.491,
-      "eval_steps_per_second": 6.491,
       "step": 13
     }
   ],
   "logging_steps": 1,
   "max_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 13,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -133,7 +386,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1108174983659520.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03742690058479532,
+  "eval_steps": 2,
+  "global_step": 32,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0011695906432748538,
+      "grad_norm": 8.476790428161621,
+      "learning_rate": 1.0000000000000001e-07,
+      "loss": 3.1297,
       "step": 1
     },
     {
+      "epoch": 0.0011695906432748538,
       "eval_loss": 3.3358547687530518,
+      "eval_runtime": 14.0872,
+      "eval_samples_per_second": 6.389,
+      "eval_steps_per_second": 6.389,
       "step": 1
     },
     {
+      "epoch": 0.0023391812865497076,
+      "grad_norm": 11.907588958740234,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 3.1984,
       "step": 2
     },
     {
+      "epoch": 0.0023391812865497076,
+      "eval_loss": 3.336097478866577,
+      "eval_runtime": 13.9412,
+      "eval_samples_per_second": 6.456,
+      "eval_steps_per_second": 6.456,
+      "step": 2
+    },
+    {
+      "epoch": 0.0035087719298245615,
+      "grad_norm": 9.732194900512695,
+      "learning_rate": 3.0000000000000004e-07,
+      "loss": 2.9559,
       "step": 3
     },
     {
+      "epoch": 0.004678362573099415,
+      "grad_norm": 8.285279273986816,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 2.7216,
       "step": 4
     },
     {
+      "epoch": 0.004678362573099415,
+      "eval_loss": 3.336188793182373,
+      "eval_runtime": 13.9965,
+      "eval_samples_per_second": 6.43,
+      "eval_steps_per_second": 6.43,
+      "step": 4
+    },
+    {
+      "epoch": 0.005847953216374269,
+      "grad_norm": 11.178544044494629,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 3.3045,
       "step": 5
     },
     {
+      "epoch": 0.007017543859649123,
+      "grad_norm": 31.653640747070312,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 5.7524,
       "step": 6
     },
     {
+      "epoch": 0.007017543859649123,
+      "eval_loss": 3.3365745544433594,
+      "eval_runtime": 14.1369,
+      "eval_samples_per_second": 6.366,
+      "eval_steps_per_second": 6.366,
+      "step": 6
+    },
+    {
+      "epoch": 0.008187134502923977,
+      "grad_norm": 10.910638809204102,
+      "learning_rate": 7.000000000000001e-07,
+      "loss": 3.5631,
       "step": 7
     },
     {
+      "epoch": 0.00935672514619883,
+      "grad_norm": 12.292998313903809,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 3.2113,
+      "step": 8
+    },
+    {
+      "epoch": 0.00935672514619883,
+      "eval_loss": 3.335761785507202,
+      "eval_runtime": 14.0918,
+      "eval_samples_per_second": 6.387,
+      "eval_steps_per_second": 6.387,
       "step": 8
     },
     {
+      "epoch": 0.010526315789473684,
+      "grad_norm": 10.52215576171875,
+      "learning_rate": 9e-07,
+      "loss": 3.4784,
       "step": 9
     },
     {
+      "epoch": 0.011695906432748537,
+      "grad_norm": 10.834870338439941,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 3.5036,
       "step": 10
     },
     {
+      "epoch": 0.011695906432748537,
+      "eval_loss": 3.335782289505005,
+      "eval_runtime": 14.2442,
+      "eval_samples_per_second": 6.318,
+      "eval_steps_per_second": 6.318,
+      "step": 10
+    },
+    {
+      "epoch": 0.012865497076023392,
+      "grad_norm": 14.306832313537598,
+      "learning_rate": 1.1e-06,
+      "loss": 3.7758,
       "step": 11
     },
     {
+      "epoch": 0.014035087719298246,
+      "grad_norm": 9.94528579711914,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 3.173,
       "step": 12
     },
     {
+      "epoch": 0.014035087719298246,
+      "eval_loss": 3.33567476272583,
+      "eval_runtime": 14.2012,
+      "eval_samples_per_second": 6.338,
+      "eval_steps_per_second": 6.338,
+      "step": 12
     },
     {
+      "epoch": 0.0152046783625731,
+      "grad_norm": 12.635165214538574,
+      "learning_rate": 1.3e-06,
+      "loss": 2.9429,
       "step": 13
+    },
+    {
+      "epoch": 0.016374269005847954,
+      "grad_norm": 10.34188461303711,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 3.5056,
+      "step": 14
+    },
+    {
+      "epoch": 0.016374269005847954,
+      "eval_loss": 3.33496356010437,
+      "eval_runtime": 13.9923,
+      "eval_samples_per_second": 6.432,
+      "eval_steps_per_second": 6.432,
+      "step": 14
+    },
+    {
+      "epoch": 0.017543859649122806,
+      "grad_norm": 10.396870613098145,
+      "learning_rate": 1.5e-06,
+      "loss": 3.1286,
+      "step": 15
+    },
+    {
+      "epoch": 0.01871345029239766,
+      "grad_norm": 11.446793556213379,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 3.5737,
+      "step": 16
+    },
+    {
+      "epoch": 0.01871345029239766,
+      "eval_loss": 3.333711862564087,
+      "eval_runtime": 13.9756,
+      "eval_samples_per_second": 6.44,
+      "eval_steps_per_second": 6.44,
+      "step": 16
+    },
+    {
+      "epoch": 0.019883040935672516,
+      "grad_norm": 8.924163818359375,
+      "learning_rate": 1.7000000000000002e-06,
+      "loss": 3.246,
+      "step": 17
+    },
+    {
+      "epoch": 0.021052631578947368,
+      "grad_norm": 12.621112823486328,
+      "learning_rate": 1.8e-06,
+      "loss": 3.3298,
+      "step": 18
+    },
+    {
+      "epoch": 0.021052631578947368,
+      "eval_loss": 3.332756996154785,
+      "eval_runtime": 13.9715,
+      "eval_samples_per_second": 6.442,
+      "eval_steps_per_second": 6.442,
+      "step": 18
+    },
+    {
+      "epoch": 0.022222222222222223,
+      "grad_norm": 16.083580017089844,
+      "learning_rate": 1.9e-06,
+      "loss": 3.8307,
+      "step": 19
+    },
+    {
+      "epoch": 0.023391812865497075,
+      "grad_norm": 9.164115905761719,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 3.2996,
+      "step": 20
+    },
+    {
+      "epoch": 0.023391812865497075,
+      "eval_loss": 3.3321051597595215,
+      "eval_runtime": 14.0785,
+      "eval_samples_per_second": 6.393,
+      "eval_steps_per_second": 6.393,
+      "step": 20
+    },
+    {
+      "epoch": 0.02456140350877193,
+      "grad_norm": 13.98554801940918,
+      "learning_rate": 2.1000000000000002e-06,
+      "loss": 3.6964,
+      "step": 21
+    },
+    {
+      "epoch": 0.025730994152046785,
+      "grad_norm": 9.490047454833984,
+      "learning_rate": 2.2e-06,
+      "loss": 3.5336,
+      "step": 22
+    },
+    {
+      "epoch": 0.025730994152046785,
+      "eval_loss": 3.330921173095703,
+      "eval_runtime": 13.9892,
+      "eval_samples_per_second": 6.434,
+      "eval_steps_per_second": 6.434,
+      "step": 22
+    },
+    {
+      "epoch": 0.026900584795321637,
+      "grad_norm": 11.965221405029297,
+      "learning_rate": 2.3e-06,
+      "loss": 4.1548,
+      "step": 23
+    },
+    {
+      "epoch": 0.028070175438596492,
+      "grad_norm": 7.872015953063965,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 2.6803,
+      "step": 24
+    },
+    {
+      "epoch": 0.028070175438596492,
+      "eval_loss": 3.330366373062134,
+      "eval_runtime": 14.0471,
+      "eval_samples_per_second": 6.407,
+      "eval_steps_per_second": 6.407,
+      "step": 24
+    },
+    {
+      "epoch": 0.029239766081871343,
+      "grad_norm": 15.018107414245605,
+      "learning_rate": 2.5e-06,
+      "loss": 3.3743,
+      "step": 25
+    },
+    {
+      "epoch": 0.0304093567251462,
+      "grad_norm": 8.211061477661133,
+      "learning_rate": 2.6e-06,
+      "loss": 2.9239,
+      "step": 26
+    },
+    {
+      "epoch": 0.0304093567251462,
+      "eval_loss": 3.3289644718170166,
+      "eval_runtime": 14.0324,
+      "eval_samples_per_second": 6.414,
+      "eval_steps_per_second": 6.414,
+      "step": 26
+    },
+    {
+      "epoch": 0.031578947368421054,
+      "grad_norm": 9.60824203491211,
+      "learning_rate": 2.7e-06,
+      "loss": 2.8382,
+      "step": 27
+    },
+    {
+      "epoch": 0.03274853801169591,
+      "grad_norm": 16.03299903869629,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 3.9005,
+      "step": 28
+    },
+    {
+      "epoch": 0.03274853801169591,
+      "eval_loss": 3.3265655040740967,
+      "eval_runtime": 13.9247,
+      "eval_samples_per_second": 6.463,
+      "eval_steps_per_second": 6.463,
+      "step": 28
+    },
+    {
+      "epoch": 0.03391812865497076,
+      "grad_norm": 7.8519768714904785,
+      "learning_rate": 2.9e-06,
+      "loss": 2.8852,
+      "step": 29
+    },
+    {
+      "epoch": 0.03508771929824561,
+      "grad_norm": 11.132136344909668,
+      "learning_rate": 3e-06,
+      "loss": 2.6383,
+      "step": 30
+    },
+    {
+      "epoch": 0.03508771929824561,
+      "eval_loss": 3.324815273284912,
+      "eval_runtime": 13.9716,
+      "eval_samples_per_second": 6.442,
+      "eval_steps_per_second": 6.442,
+      "step": 30
+    },
+    {
+      "epoch": 0.03625730994152047,
+      "grad_norm": 10.680882453918457,
+      "learning_rate": 3.1e-06,
+      "loss": 3.8337,
+      "step": 31
+    },
+    {
+      "epoch": 0.03742690058479532,
+      "grad_norm": 10.323698043823242,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 3.2712,
+      "step": 32
+    },
+    {
+      "epoch": 0.03742690058479532,
+      "eval_loss": 3.3221709728240967,
+      "eval_runtime": 14.0736,
+      "eval_samples_per_second": 6.395,
+      "eval_steps_per_second": 6.395,
+      "step": 32
     }
   ],
   "logging_steps": 1,
   "max_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 2,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 680655700623360.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c7736ce88157ec6f559044bfa1c039268935c73c9b24ebd32fb5c3483c5e3d0
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:98f0f0c46bb8a8aea130ec5fac61dac3c1395e8dd1d272da8feeb25551e173ef
 size 6776