Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:736cdab91af304a1a57801035e461ed40f4fa4233c1e4e06091c2944c7a4806d
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:a121253d889923a72d084ca49b30e9b94acd92806835676d6441f8e2427cc44b
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e696ca0ec60f200bce6aa377d1bb194210adfb3877c1492a92d387c2f3a8200
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4a19fe7ff71ef30281ef4a4b3aa6266d4dc5b85aace6b3e9879dbccb6563854
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba30898316b6bc7d32ee45c7e420346c9a195ab6044538a8498cd78d6726617f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1902eeb51fe92d3e250c39d6fbb85959781ab19bfc1376401ea409486445eba3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.14534883720930233,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.038,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.746530781980262e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2180232558139535,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.038,
       "step": 50
+    },
+    {
+      "epoch": 0.14825581395348839,
+      "grad_norm": 0.33711540699005127,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.0418,
+      "step": 51
+    },
+    {
+      "epoch": 0.1511627906976744,
+      "grad_norm": 0.38511842489242554,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0372,
+      "step": 52
+    },
+    {
+      "epoch": 0.15406976744186046,
+      "grad_norm": 0.3456517457962036,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.0533,
+      "step": 53
+    },
+    {
+      "epoch": 0.1569767441860465,
+      "grad_norm": 0.5780833959579468,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.0845,
+      "step": 54
+    },
+    {
+      "epoch": 0.1569767441860465,
+      "eval_loss": 0.04621773585677147,
+      "eval_runtime": 31.8453,
+      "eval_samples_per_second": 9.107,
+      "eval_steps_per_second": 1.162,
+      "step": 54
+    },
+    {
+      "epoch": 0.15988372093023256,
+      "grad_norm": 0.4145897924900055,
+      "learning_rate": 5e-05,
+      "loss": 0.0737,
+      "step": 55
+    },
+    {
+      "epoch": 0.16279069767441862,
+      "grad_norm": 0.3511849045753479,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0634,
+      "step": 56
+    },
+    {
+      "epoch": 0.16569767441860464,
+      "grad_norm": 0.4212923049926758,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.0872,
+      "step": 57
+    },
+    {
+      "epoch": 0.1686046511627907,
+      "grad_norm": 0.37725627422332764,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0438,
+      "step": 58
+    },
+    {
+      "epoch": 0.17151162790697674,
+      "grad_norm": 0.43850046396255493,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.0856,
+      "step": 59
+    },
+    {
+      "epoch": 0.1744186046511628,
+      "grad_norm": 0.24517984688282013,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0228,
+      "step": 60
+    },
+    {
+      "epoch": 0.17732558139534885,
+      "grad_norm": 0.45141902565956116,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.0624,
+      "step": 61
+    },
+    {
+      "epoch": 0.18023255813953487,
+      "grad_norm": 0.2519844174385071,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.0363,
+      "step": 62
+    },
+    {
+      "epoch": 0.18313953488372092,
+      "grad_norm": 0.3177478611469269,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.0589,
+      "step": 63
+    },
+    {
+      "epoch": 0.18313953488372092,
+      "eval_loss": 0.0444461964070797,
+      "eval_runtime": 31.8213,
+      "eval_samples_per_second": 9.113,
+      "eval_steps_per_second": 1.163,
+      "step": 63
+    },
+    {
+      "epoch": 0.18604651162790697,
+      "grad_norm": 0.2350810170173645,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0268,
+      "step": 64
+    },
+    {
+      "epoch": 0.18895348837209303,
+      "grad_norm": 0.19069309532642365,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.0257,
+      "step": 65
+    },
+    {
+      "epoch": 0.19186046511627908,
+      "grad_norm": 0.34234821796417236,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.0603,
+      "step": 66
+    },
+    {
+      "epoch": 0.19476744186046513,
+      "grad_norm": 0.2891956865787506,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.0559,
+      "step": 67
+    },
+    {
+      "epoch": 0.19767441860465115,
+      "grad_norm": 0.3088008463382721,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.0634,
+      "step": 68
+    },
+    {
+      "epoch": 0.2005813953488372,
+      "grad_norm": 0.42435476183891296,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.0449,
+      "step": 69
+    },
+    {
+      "epoch": 0.20348837209302326,
+      "grad_norm": 0.3041639029979706,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0342,
+      "step": 70
+    },
+    {
+      "epoch": 0.2063953488372093,
+      "grad_norm": 0.2714124023914337,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.0559,
+      "step": 71
+    },
+    {
+      "epoch": 0.20930232558139536,
+      "grad_norm": 0.27597737312316895,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.0394,
+      "step": 72
+    },
+    {
+      "epoch": 0.20930232558139536,
+      "eval_loss": 0.04371662437915802,
+      "eval_runtime": 31.8731,
+      "eval_samples_per_second": 9.099,
+      "eval_steps_per_second": 1.161,
+      "step": 72
+    },
+    {
+      "epoch": 0.21220930232558138,
+      "grad_norm": 0.27406489849090576,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.042,
+      "step": 73
+    },
+    {
+      "epoch": 0.21511627906976744,
+      "grad_norm": 0.30766603350639343,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.0433,
+      "step": 74
+    },
+    {
+      "epoch": 0.2180232558139535,
+      "grad_norm": 0.2573796510696411,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0331,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.675437719237427e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null