Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cf1a920805c47da3b983300da6e908124357f9d945588b1a86f91f65c560893
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:46e3107b7c9b182096fbd1214e7f5eece27769d3420207085b028f388f0c3b28
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b93aaea50b215dad8cf9b850785105554593474b334100308ce8fe3593173d6b
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3b3043a57e704f0fe21731491216e70acd929948f79da46ee4012e4909ad6c7
 size 501168482

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0121f10635af3c6772d040aa0dee5fedb3a04664bbbddcc5812ec4a7f757d90b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad2498e4585ae9e458b77e85412d56632afa93e3bb7944a5e84c45e07fd5c143
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.009208951100469657,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.5031,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.20608004243456e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.013813426650704485,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.5031,
       "step": 50
+    },
+    {
+      "epoch": 0.009393130122479049,
+      "grad_norm": 0.48197489976882935,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 1.4917,
+      "step": 51
+    },
+    {
+      "epoch": 0.009577309144488443,
+      "grad_norm": 0.4541970491409302,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 1.4553,
+      "step": 52
+    },
+    {
+      "epoch": 0.009761488166497835,
+      "grad_norm": 0.4238864779472351,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 1.3545,
+      "step": 53
+    },
+    {
+      "epoch": 0.009945667188507229,
+      "grad_norm": 0.4670512080192566,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 1.3978,
+      "step": 54
+    },
+    {
+      "epoch": 0.009945667188507229,
+      "eval_loss": 0.7208191752433777,
+      "eval_runtime": 1374.6568,
+      "eval_samples_per_second": 3.327,
+      "eval_steps_per_second": 0.416,
+      "step": 54
+    },
+    {
+      "epoch": 0.010129846210516623,
+      "grad_norm": 0.4541580379009247,
+      "learning_rate": 5e-05,
+      "loss": 1.4369,
+      "step": 55
+    },
+    {
+      "epoch": 0.010314025232526015,
+      "grad_norm": 0.4919944703578949,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 1.4631,
+      "step": 56
+    },
+    {
+      "epoch": 0.010498204254535409,
+      "grad_norm": 0.48064664006233215,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 1.4647,
+      "step": 57
+    },
+    {
+      "epoch": 0.010682383276544801,
+      "grad_norm": 0.49237197637557983,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.5043,
+      "step": 58
+    },
+    {
+      "epoch": 0.010866562298554195,
+      "grad_norm": 0.46440890431404114,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 1.3985,
+      "step": 59
+    },
+    {
+      "epoch": 0.011050741320563587,
+      "grad_norm": 0.5166982412338257,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.4689,
+      "step": 60
+    },
+    {
+      "epoch": 0.011234920342572981,
+      "grad_norm": 0.49635982513427734,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 1.4694,
+      "step": 61
+    },
+    {
+      "epoch": 0.011419099364582373,
+      "grad_norm": 0.500831127166748,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 1.4218,
+      "step": 62
+    },
+    {
+      "epoch": 0.011603278386591767,
+      "grad_norm": 0.47681158781051636,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 1.4313,
+      "step": 63
+    },
+    {
+      "epoch": 0.011603278386591767,
+      "eval_loss": 0.7120449542999268,
+      "eval_runtime": 1375.9058,
+      "eval_samples_per_second": 3.324,
+      "eval_steps_per_second": 0.416,
+      "step": 63
+    },
+    {
+      "epoch": 0.011787457408601161,
+      "grad_norm": 0.5092172622680664,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.3518,
+      "step": 64
+    },
+    {
+      "epoch": 0.011971636430610553,
+      "grad_norm": 0.5099927186965942,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 1.4548,
+      "step": 65
+    },
+    {
+      "epoch": 0.012155815452619947,
+      "grad_norm": 0.5201544761657715,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 1.3549,
+      "step": 66
+    },
+    {
+      "epoch": 0.01233999447462934,
+      "grad_norm": 0.4881454110145569,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 1.3745,
+      "step": 67
+    },
+    {
+      "epoch": 0.012524173496638733,
+      "grad_norm": 0.49978435039520264,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 1.408,
+      "step": 68
+    },
+    {
+      "epoch": 0.012708352518648125,
+      "grad_norm": 0.5017417073249817,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 1.4365,
+      "step": 69
+    },
+    {
+      "epoch": 0.01289253154065752,
+      "grad_norm": 0.5562594532966614,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.4129,
+      "step": 70
+    },
+    {
+      "epoch": 0.013076710562666911,
+      "grad_norm": 0.510033369064331,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 1.462,
+      "step": 71
+    },
+    {
+      "epoch": 0.013260889584676305,
+      "grad_norm": 0.5131986737251282,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 1.4247,
+      "step": 72
+    },
+    {
+      "epoch": 0.013260889584676305,
+      "eval_loss": 0.7056426405906677,
+      "eval_runtime": 1374.8167,
+      "eval_samples_per_second": 3.326,
+      "eval_steps_per_second": 0.416,
+      "step": 72
+    },
+    {
+      "epoch": 0.0134450686066857,
+      "grad_norm": 0.535476803779602,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.3656,
+      "step": 73
+    },
+    {
+      "epoch": 0.013629247628695091,
+      "grad_norm": 0.5137998461723328,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.4385,
+      "step": 74
+    },
+    {
+      "epoch": 0.013813426650704485,
+      "grad_norm": 0.5598435997962952,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 1.4534,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.821815643045888e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null