Training in progress, epoch 4, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +177 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:058e54c275bf98f7ed004457ae9f9318569d65fce5cbe9ed2c527096ddc694c2
 size 2460359008

 version https://git-lfs.github.com/spec/v1
+oid sha256:df6fbabae4d2f897b20cea2f5dd58950edcfa618b25a5aea08bb44e77a77cc4d
 size 2460359008

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e780f49a81031e7a2bb19bd1191d8b3257d5779abdc037edea157d37247972f
 size 4921031637

 version https://git-lfs.github.com/spec/v1
+oid sha256:f032ee9fb8aee92d9585018aec96570e3613bb1e6cfccece998d5e79383a8e6a
 size 4921031637

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a1a0f1b02e62311ced3353adb26ff8f2fc8de119d0b12230c2a311f3a184ce8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6bf42a83e06896ca85f0cf80d2b2a54efd61aa8b9e5ea095e181d4355e9278f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:657bea0924aade758c792ce4b215c578a2732cae7083827d465063b9d7ebfe12
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f801a9def587f3e8f73edf722aff5b9463c74ee1de5e83ebd494295436516c3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9999296583741706,
   "eval_steps": 500,
-  "global_step": 31986,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -508,6 +508,180 @@
       "eval_samples_per_second": 17.293,
       "eval_steps_per_second": 2.162,
       "step": 31986
     }
   ],
   "logging_steps": 500,
@@ -527,7 +701,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4534043401188147e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 42649,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.293,
       "eval_steps_per_second": 2.162,
       "step": 31986
+    },
+    {
+      "epoch": 3.00124270205632,
+      "grad_norm": 0.8884554505348206,
+      "learning_rate": 1.9997186268992684e-05,
+      "loss": 1.0903,
+      "step": 32000
+    },
+    {
+      "epoch": 3.04813711927595,
+      "grad_norm": 0.9535645842552185,
+      "learning_rate": 1.9528231101106737e-05,
+      "loss": 1.0308,
+      "step": 32500
+    },
+    {
+      "epoch": 3.09503153649558,
+      "grad_norm": 0.8955056667327881,
+      "learning_rate": 1.9059275933220786e-05,
+      "loss": 1.0411,
+      "step": 33000
+    },
+    {
+      "epoch": 3.1419259537152104,
+      "grad_norm": 0.8737803101539612,
+      "learning_rate": 1.8590320765334836e-05,
+      "loss": 1.0337,
+      "step": 33500
+    },
+    {
+      "epoch": 3.1888203709348404,
+      "grad_norm": 0.9888309240341187,
+      "learning_rate": 1.8121365597448885e-05,
+      "loss": 1.0315,
+      "step": 34000
+    },
+    {
+      "epoch": 3.2357147881544703,
+      "grad_norm": 0.8544078469276428,
+      "learning_rate": 1.7652410429562935e-05,
+      "loss": 1.0334,
+      "step": 34500
+    },
+    {
+      "epoch": 3.2826092053741003,
+      "grad_norm": 0.9137187600135803,
+      "learning_rate": 1.7183455261676984e-05,
+      "loss": 1.0287,
+      "step": 35000
+    },
+    {
+      "epoch": 3.3295036225937302,
+      "grad_norm": 0.9270204305648804,
+      "learning_rate": 1.6714500093791037e-05,
+      "loss": 1.0322,
+      "step": 35500
+    },
+    {
+      "epoch": 3.37639803981336,
+      "grad_norm": 1.0035383701324463,
+      "learning_rate": 1.6246482836240855e-05,
+      "loss": 1.0291,
+      "step": 36000
+    },
+    {
+      "epoch": 3.42329245703299,
+      "grad_norm": 0.87139892578125,
+      "learning_rate": 1.5777527668354904e-05,
+      "loss": 1.0275,
+      "step": 36500
+    },
+    {
+      "epoch": 3.47018687425262,
+      "grad_norm": 0.8827325701713562,
+      "learning_rate": 1.5308572500468957e-05,
+      "loss": 1.0304,
+      "step": 37000
+    },
+    {
+      "epoch": 3.51708129147225,
+      "grad_norm": 0.8981931805610657,
+      "learning_rate": 1.4839617332583005e-05,
+      "loss": 1.0296,
+      "step": 37500
+    },
+    {
+      "epoch": 3.5639757086918804,
+      "grad_norm": 0.8706479668617249,
+      "learning_rate": 1.4370662164697055e-05,
+      "loss": 1.0222,
+      "step": 38000
+    },
+    {
+      "epoch": 3.6108701259115104,
+      "grad_norm": 0.9338583946228027,
+      "learning_rate": 1.3901706996811106e-05,
+      "loss": 1.0271,
+      "step": 38500
+    },
+    {
+      "epoch": 3.6577645431311403,
+      "grad_norm": 0.9135944843292236,
+      "learning_rate": 1.3433689739260927e-05,
+      "loss": 1.0284,
+      "step": 39000
+    },
+    {
+      "epoch": 3.7046589603507702,
+      "grad_norm": 0.9738103747367859,
+      "learning_rate": 1.296567248171075e-05,
+      "loss": 1.0312,
+      "step": 39500
+    },
+    {
+      "epoch": 3.7515533775704,
+      "grad_norm": 0.9819686412811279,
+      "learning_rate": 1.2496717313824799e-05,
+      "loss": 1.0263,
+      "step": 40000
+    },
+    {
+      "epoch": 3.79844779479003,
+      "grad_norm": 0.8923668265342712,
+      "learning_rate": 1.2027762145938848e-05,
+      "loss": 1.0331,
+      "step": 40500
+    },
+    {
+      "epoch": 3.84534221200966,
+      "grad_norm": 0.9926149249076843,
+      "learning_rate": 1.1558806978052898e-05,
+      "loss": 1.0233,
+      "step": 41000
+    },
+    {
+      "epoch": 3.8922366292292905,
+      "grad_norm": 0.8542903661727905,
+      "learning_rate": 1.109078972050272e-05,
+      "loss": 1.0257,
+      "step": 41500
+    },
+    {
+      "epoch": 3.93913104644892,
+      "grad_norm": 0.8875910043716431,
+      "learning_rate": 1.062183455261677e-05,
+      "loss": 1.0304,
+      "step": 42000
+    },
+    {
+      "epoch": 3.9860254636685504,
+      "grad_norm": 0.9772380590438843,
+      "learning_rate": 1.0152879384730821e-05,
+      "loss": 1.0198,
+      "step": 42500
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu_eng_Latn-kam_Latn": 0.4666093377048015,
+      "eval_bleu_eng_Latn-kik_Latn": 2.229006349816899,
+      "eval_bleu_eng_Latn-luo_Latn": 6.981679468332617,
+      "eval_bleu_eng_Latn-mer_Latn": 0.07746222799067638,
+      "eval_bleu_eng_Latn-som_Latn": 13.603096448156661,
+      "eval_bleu_eng_Latn-swh_Latn": 50.52106297558092,
+      "eval_bleu_kam_Latn-eng_Latn": 29.285398745670836,
+      "eval_bleu_kik_Latn-eng_Latn": 39.99303600842124,
+      "eval_bleu_luo_Latn-eng_Latn": 38.135666779535974,
+      "eval_bleu_mer_Latn-eng_Latn": 33.29506320125331,
+      "eval_bleu_som_Latn-eng_Latn": 52.3043943429511,
+      "eval_bleu_swh_Latn-eng_Latn": 64.78388013811517,
+      "eval_loss": 1.0888630151748657,
+      "eval_runtime": 3672.1113,
+      "eval_samples_per_second": 16.639,
+      "eval_steps_per_second": 2.08,
+      "step": 42649
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.9376583813685248e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null