Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aba526672191b8d31db48835ca86e889b68bf995cdbb0cc6663edfa968584cbc
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:923464858e94e32324dc205cdd983a463c592d1932348ee4819376997edd9838
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab9bcd57f6e8f39e9849086f7b64a064966ae151fe48682eb1d88980548672c6
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:a67d58071d4c8f37d750a85524661beff61518a02e40d4da878f22f583495bfc
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb9517b7ce59c47365939baf2f50e6bfd58d4414b9c61ed194de990178b59d75
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9418a68e5819dc4b84034984f04774a6cc7da23a601f4d1f77e1c7bf288f18ec
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.003026359592046727,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 11.7309,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 10185002188800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.00453953938807009,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 11.7309,
       "step": 50
+    },
+    {
+      "epoch": 0.0030868867838876614,
+      "grad_norm": 0.17324720323085785,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 11.7242,
+      "step": 51
+    },
+    {
+      "epoch": 0.003147413975728596,
+      "grad_norm": 0.17566855251789093,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 11.7339,
+      "step": 52
+    },
+    {
+      "epoch": 0.0032079411675695305,
+      "grad_norm": 0.15504898130893707,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 11.7377,
+      "step": 53
+    },
+    {
+      "epoch": 0.003268468359410465,
+      "grad_norm": 0.21223460137844086,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 11.731,
+      "step": 54
+    },
+    {
+      "epoch": 0.003268468359410465,
+      "eval_loss": 11.734041213989258,
+      "eval_runtime": 336.8451,
+      "eval_samples_per_second": 41.304,
+      "eval_steps_per_second": 5.166,
+      "step": 54
+    },
+    {
+      "epoch": 0.0033289955512513995,
+      "grad_norm": 0.17628130316734314,
+      "learning_rate": 5e-05,
+      "loss": 11.7371,
+      "step": 55
+    },
+    {
+      "epoch": 0.003389522743092334,
+      "grad_norm": 0.1927989423274994,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 11.7333,
+      "step": 56
+    },
+    {
+      "epoch": 0.0034500499349332686,
+      "grad_norm": 0.22302095592021942,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 11.7331,
+      "step": 57
+    },
+    {
+      "epoch": 0.0035105771267742035,
+      "grad_norm": 0.20894654095172882,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 11.733,
+      "step": 58
+    },
+    {
+      "epoch": 0.003571104318615138,
+      "grad_norm": 0.14698632061481476,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 11.7369,
+      "step": 59
+    },
+    {
+      "epoch": 0.0036316315104560726,
+      "grad_norm": 0.2037297785282135,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 11.7279,
+      "step": 60
+    },
+    {
+      "epoch": 0.003692158702297007,
+      "grad_norm": 0.21877123415470123,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 11.7148,
+      "step": 61
+    },
+    {
+      "epoch": 0.0037526858941379416,
+      "grad_norm": 0.20271418988704681,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 11.7348,
+      "step": 62
+    },
+    {
+      "epoch": 0.003813213085978876,
+      "grad_norm": 0.17619234323501587,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 11.729,
+      "step": 63
+    },
+    {
+      "epoch": 0.003813213085978876,
+      "eval_loss": 11.730371475219727,
+      "eval_runtime": 336.6702,
+      "eval_samples_per_second": 41.325,
+      "eval_steps_per_second": 5.168,
+      "step": 63
+    },
+    {
+      "epoch": 0.0038737402778198106,
+      "grad_norm": 0.2054615467786789,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 11.719,
+      "step": 64
+    },
+    {
+      "epoch": 0.003934267469660745,
+      "grad_norm": 0.22925786674022675,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 11.7188,
+      "step": 65
+    },
+    {
+      "epoch": 0.003994794661501679,
+      "grad_norm": 0.2713838219642639,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 11.7308,
+      "step": 66
+    },
+    {
+      "epoch": 0.004055321853342614,
+      "grad_norm": 0.19096967577934265,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 11.7403,
+      "step": 67
+    },
+    {
+      "epoch": 0.004115849045183548,
+      "grad_norm": 0.20774328708648682,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 11.7415,
+      "step": 68
+    },
+    {
+      "epoch": 0.004176376237024483,
+      "grad_norm": 0.19622094929218292,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 11.7333,
+      "step": 69
+    },
+    {
+      "epoch": 0.004236903428865418,
+      "grad_norm": 0.17385007441043854,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 11.739,
+      "step": 70
+    },
+    {
+      "epoch": 0.004297430620706352,
+      "grad_norm": 0.24730053544044495,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 11.7334,
+      "step": 71
+    },
+    {
+      "epoch": 0.004357957812547287,
+      "grad_norm": 0.21336118876934052,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 11.7287,
+      "step": 72
+    },
+    {
+      "epoch": 0.004357957812547287,
+      "eval_loss": 11.72767162322998,
+      "eval_runtime": 336.8377,
+      "eval_samples_per_second": 41.305,
+      "eval_steps_per_second": 5.166,
+      "step": 72
+    },
+    {
+      "epoch": 0.004418485004388221,
+      "grad_norm": 0.22774222493171692,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 11.7243,
+      "step": 73
+    },
+    {
+      "epoch": 0.004479012196229156,
+      "grad_norm": 0.15189680457115173,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 11.7261,
+      "step": 74
+    },
+    {
+      "epoch": 0.00453953938807009,
+      "grad_norm": 0.19341489672660828,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 11.7306,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 15277503283200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null