Training in progress, step 33500, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10d5b6ee3ec7774796203e9857adedf4a34ad1a8f9d65eac92d02013104b7486
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebbf03b6a39b6b310c792fd4ce9a56b4feab22bc4d8aae7c67e0b23549ec3844
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7eed855e5c83384fc6750fe371ea0613d62eeceb95e59f1e6fb79a4aa75fac5
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5322792e8472158c629b41c8ed853c14c036430212aa2395b1962b71dd6688c
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:298d5e2bc403ff74d204ac4ad46dbab183f8ce444ab4c0c42dc465d17ad6d84f
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:41f6c73349fb0a4922b7c514625c8f319c04d8a3281a94dc80e47d5905a270b7
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a3119fb2b34229087dc7d4734b99ce7345817f422d2b8091f039bff04ac0992
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:08b7a405079c06c2e1179546e5ade586e1754239d626d4047688ddad0abeac41
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2db2a9d436fb980c51b3b887bf8c6c11afcad56f430dc37015dfbad372f5df29
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:44c05bab47528958ca030cc3c2eb992ca93a53fcef5ee7de67d8809ec8b54d00
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.018101452325826,
   "eval_steps": 100,
-  "global_step": 33300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5335,6 +5335,38 @@
       "eval_samples_per_second": 25.558,
       "eval_steps_per_second": 3.195,
       "step": 33300
     }
   ],
   "logging_steps": 100,
@@ -5342,7 +5374,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.6491196354345704e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.102294253841297,
   "eval_steps": 100,
+  "global_step": 33500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.558,
       "eval_steps_per_second": 3.195,
       "step": 33300
+    },
+    {
+      "epoch": 14.06,
+      "grad_norm": 2.916482925415039,
+      "learning_rate": 2.6761130742049474e-05,
+      "loss": 0.9488,
+      "step": 33400
+    },
+    {
+      "epoch": 14.06,
+      "eval_cer": 0.39579504125767473,
+      "eval_loss": 2.687380075454712,
+      "eval_runtime": 390.5164,
+      "eval_samples_per_second": 24.27,
+      "eval_steps_per_second": 3.034,
+      "step": 33400
+    },
+    {
+      "epoch": 14.1,
+      "grad_norm": 5.404353618621826,
+      "learning_rate": 2.66904593639576e-05,
+      "loss": 0.9346,
+      "step": 33500
+    },
+    {
+      "epoch": 14.1,
+      "eval_cer": 0.39129775918032145,
+      "eval_loss": 2.3900837898254395,
+      "eval_runtime": 372.0348,
+      "eval_samples_per_second": 25.476,
+      "eval_steps_per_second": 3.185,
+      "step": 33500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.670837467873283e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null