Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

checkpoint-100/adapter_config.json +5 -5
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/rng_state.pth +1 -1
checkpoint-100/trainer_state.json +94 -30
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "o_proj",
-    "v_proj",
-    "q_proj",
     "down_proj",
     "k_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
     "down_proj",
+    "q_proj",
     "k_proj",
+    "v_proj",
+    "o_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f17a98b06387f5018f383be7587b01f3cec74945ad5b1204b615110e64bba081
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:6479cd1043d8df9b2474b1163c744ee75e5521e3ccc7fbc2963bb1bb3d438f38
 size 167832240

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16f3923095888de51d7b67581eb3f1d4e2720f3eb5b4c9b9193c40f5e60ecbf2
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:f26b7427e04964903108757966a32f5552740f62c68531b84185f6b844814b38
 size 335922386

checkpoint-100/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44154687ffe134613e15a79d0d47a7995b4cae27d59b177de6fb7656559737c1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:290515a0e5664bfa4b6e2d1ed39e3d564c2fb56ae8d0f8a6b532c3c8b6e556b4
 size 14244

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.1053740779768177,
-  "eval_steps": 50,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -10,88 +10,152 @@
   "log_history": [
     {
       "epoch": 0.01053740779768177,
-      "grad_norm": 3.070249080657959,
       "learning_rate": 4.982437653670531e-05,
-      "loss": 1.7879,
       "step": 10
     },
     {
       "epoch": 0.02107481559536354,
-      "grad_norm": 1.702326774597168,
       "learning_rate": 4.964875307341061e-05,
-      "loss": 0.5567,
       "step": 20
     },
     {
       "epoch": 0.03161222339304531,
-      "grad_norm": 1.1947294473648071,
       "learning_rate": 4.947312961011591e-05,
-      "loss": 0.4493,
       "step": 30
     },
     {
       "epoch": 0.04214963119072708,
-      "grad_norm": 0.9556658267974854,
       "learning_rate": 4.929750614682122e-05,
-      "loss": 0.3728,
       "step": 40
     },
     {
       "epoch": 0.05268703898840885,
-      "grad_norm": 0.7952510714530945,
       "learning_rate": 4.9121882683526524e-05,
-      "loss": 0.3535,
       "step": 50
     },
     {
       "epoch": 0.05268703898840885,
-      "eval_loss": 0.4311191439628601,
-      "eval_runtime": 13.6539,
-      "eval_samples_per_second": 35.155,
-      "eval_steps_per_second": 2.197,
       "step": 50
     },
     {
       "epoch": 0.06322444678609063,
-      "grad_norm": 0.6962826251983643,
       "learning_rate": 4.894625922023183e-05,
-      "loss": 0.3507,
       "step": 60
     },
     {
       "epoch": 0.0737618545837724,
-      "grad_norm": 0.6941961646080017,
       "learning_rate": 4.877063575693713e-05,
-      "loss": 0.3585,
       "step": 70
     },
     {
       "epoch": 0.08429926238145416,
-      "grad_norm": 0.6864392757415771,
       "learning_rate": 4.8595012293642434e-05,
-      "loss": 0.3496,
       "step": 80
     },
     {
       "epoch": 0.09483667017913593,
-      "grad_norm": 0.7322937846183777,
       "learning_rate": 4.841938883034774e-05,
-      "loss": 0.3295,
       "step": 90
     },
     {
       "epoch": 0.1053740779768177,
-      "grad_norm": 0.6921488046646118,
       "learning_rate": 4.824376536705304e-05,
-      "loss": 0.3357,
       "step": 100
     },
     {
       "epoch": 0.1053740779768177,
-      "eval_loss": 0.39120009541511536,
-      "eval_runtime": 13.7031,
-      "eval_samples_per_second": 35.029,
-      "eval_steps_per_second": 2.189,
       "step": 100
     }
   ],
@@ -99,7 +163,7 @@
   "max_steps": 2847,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
-  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.1053740779768177,
+  "eval_steps": 10,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01053740779768177,
+      "grad_norm": 3.3616116046905518,
       "learning_rate": 4.982437653670531e-05,
+      "loss": 1.7881,
+      "step": 10
+    },
+    {
+      "epoch": 0.01053740779768177,
+      "eval_loss": 0.6833231449127197,
+      "eval_runtime": 13.3064,
+      "eval_samples_per_second": 36.073,
+      "eval_steps_per_second": 2.255,
       "step": 10
     },
     {
       "epoch": 0.02107481559536354,
+      "grad_norm": 1.3658663034439087,
       "learning_rate": 4.964875307341061e-05,
+      "loss": 0.5571,
+      "step": 20
+    },
+    {
+      "epoch": 0.02107481559536354,
+      "eval_loss": 0.5293903350830078,
+      "eval_runtime": 13.4286,
+      "eval_samples_per_second": 35.745,
+      "eval_steps_per_second": 2.234,
       "step": 20
     },
     {
       "epoch": 0.03161222339304531,
+      "grad_norm": 1.0748717784881592,
       "learning_rate": 4.947312961011591e-05,
+      "loss": 0.4482,
+      "step": 30
+    },
+    {
+      "epoch": 0.03161222339304531,
+      "eval_loss": 0.47912800312042236,
+      "eval_runtime": 13.4918,
+      "eval_samples_per_second": 35.577,
+      "eval_steps_per_second": 2.224,
       "step": 30
     },
     {
       "epoch": 0.04214963119072708,
+      "grad_norm": 0.890529215335846,
       "learning_rate": 4.929750614682122e-05,
+      "loss": 0.3722,
+      "step": 40
+    },
+    {
+      "epoch": 0.04214963119072708,
+      "eval_loss": 0.44374603033065796,
+      "eval_runtime": 13.5807,
+      "eval_samples_per_second": 35.344,
+      "eval_steps_per_second": 2.209,
       "step": 40
     },
     {
       "epoch": 0.05268703898840885,
+      "grad_norm": 0.8233364224433899,
       "learning_rate": 4.9121882683526524e-05,
+      "loss": 0.3534,
       "step": 50
     },
     {
       "epoch": 0.05268703898840885,
+      "eval_loss": 0.4318523108959198,
+      "eval_runtime": 13.6096,
+      "eval_samples_per_second": 35.269,
+      "eval_steps_per_second": 2.204,
       "step": 50
     },
     {
       "epoch": 0.06322444678609063,
+      "grad_norm": 0.7144497036933899,
       "learning_rate": 4.894625922023183e-05,
+      "loss": 0.3512,
+      "step": 60
+    },
+    {
+      "epoch": 0.06322444678609063,
+      "eval_loss": 0.41558387875556946,
+      "eval_runtime": 13.6488,
+      "eval_samples_per_second": 35.168,
+      "eval_steps_per_second": 2.198,
       "step": 60
     },
     {
       "epoch": 0.0737618545837724,
+      "grad_norm": 0.6796255707740784,
       "learning_rate": 4.877063575693713e-05,
+      "loss": 0.3588,
+      "step": 70
+    },
+    {
+      "epoch": 0.0737618545837724,
+      "eval_loss": 0.4085235297679901,
+      "eval_runtime": 13.6512,
+      "eval_samples_per_second": 35.162,
+      "eval_steps_per_second": 2.198,
       "step": 70
     },
     {
       "epoch": 0.08429926238145416,
+      "grad_norm": 0.6846384406089783,
       "learning_rate": 4.8595012293642434e-05,
+      "loss": 0.3504,
+      "step": 80
+    },
+    {
+      "epoch": 0.08429926238145416,
+      "eval_loss": 0.3993188142776489,
+      "eval_runtime": 13.6377,
+      "eval_samples_per_second": 35.197,
+      "eval_steps_per_second": 2.2,
       "step": 80
     },
     {
       "epoch": 0.09483667017913593,
+      "grad_norm": 0.7391332983970642,
       "learning_rate": 4.841938883034774e-05,
+      "loss": 0.3299,
+      "step": 90
+    },
+    {
+      "epoch": 0.09483667017913593,
+      "eval_loss": 0.3922707140445709,
+      "eval_runtime": 13.6059,
+      "eval_samples_per_second": 35.279,
+      "eval_steps_per_second": 2.205,
       "step": 90
     },
     {
       "epoch": 0.1053740779768177,
+      "grad_norm": 0.6717132925987244,
       "learning_rate": 4.824376536705304e-05,
+      "loss": 0.3358,
       "step": 100
     },
     {
       "epoch": 0.1053740779768177,
+      "eval_loss": 0.390600323677063,
+      "eval_runtime": 13.6022,
+      "eval_samples_per_second": 35.288,
+      "eval_steps_per_second": 2.206,
       "step": 100
     }
   ],
   "max_steps": 2847,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
+  "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5fa9d8b62d1ebe6967a504a7decdb5eeee2bb4aac96e7414f3930f9adcff095
 size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b0de208437fea36dff15ca77d3c3e30091c141220f1de003345ef564472f4ff
 size 5880