Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34756b4640506f7b5b30d23c6cb5aa75f931315f0037dcde790f81d542e35b03
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:0734d52f0ecec551bbc713c3ff805c55bf6b563c1f47a161d0daace08b384812
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c916bb85b13044f165616eb5c9bb73afcfbb2ff06b7432c88f8e8a6de1b9d5af
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:7873bf68d3434babf3e8e3bd6882bc679e3c1848c8fd04147bc888b856a099e1
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e13ef812e9e18104cbc17aef37ae8df322b4f01874688fcccab1be3f2f0b3ab
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a985de432d6a2a4144c941972e5a14ec04f02b9ead518ec9c9fe3de4648cfc2d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.14326647564469913,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 10.3356,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2641273552896.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2148997134670487,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 10.3356,
       "step": 50
+    },
+    {
+      "epoch": 0.14613180515759314,
+      "grad_norm": 0.26205867528915405,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 10.3289,
+      "step": 51
+    },
+    {
+      "epoch": 0.1489971346704871,
+      "grad_norm": 0.2941390573978424,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 10.3359,
+      "step": 52
+    },
+    {
+      "epoch": 0.1518624641833811,
+      "grad_norm": 0.30991968512535095,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 10.3291,
+      "step": 53
+    },
+    {
+      "epoch": 0.15472779369627507,
+      "grad_norm": 0.26404446363449097,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 10.324,
+      "step": 54
+    },
+    {
+      "epoch": 0.15472779369627507,
+      "eval_loss": 10.3239107131958,
+      "eval_runtime": 1.0645,
+      "eval_samples_per_second": 276.186,
+      "eval_steps_per_second": 34.758,
+      "step": 54
+    },
+    {
+      "epoch": 0.15759312320916904,
+      "grad_norm": 0.23177841305732727,
+      "learning_rate": 5e-05,
+      "loss": 10.3431,
+      "step": 55
+    },
+    {
+      "epoch": 0.16045845272206305,
+      "grad_norm": 0.2693847715854645,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 10.3345,
+      "step": 56
+    },
+    {
+      "epoch": 0.16332378223495703,
+      "grad_norm": 0.315563827753067,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 10.3337,
+      "step": 57
+    },
+    {
+      "epoch": 0.166189111747851,
+      "grad_norm": 0.2582322955131531,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 10.3285,
+      "step": 58
+    },
+    {
+      "epoch": 0.16905444126074498,
+      "grad_norm": 0.38031986355781555,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 10.307,
+      "step": 59
+    },
+    {
+      "epoch": 0.17191977077363896,
+      "grad_norm": 0.33206507563591003,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 10.3213,
+      "step": 60
+    },
+    {
+      "epoch": 0.17478510028653296,
+      "grad_norm": 0.2936471402645111,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 10.3271,
+      "step": 61
+    },
+    {
+      "epoch": 0.17765042979942694,
+      "grad_norm": 0.320385217666626,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 10.3251,
+      "step": 62
+    },
+    {
+      "epoch": 0.18051575931232092,
+      "grad_norm": 0.3414050340652466,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 10.3106,
+      "step": 63
+    },
+    {
+      "epoch": 0.18051575931232092,
+      "eval_loss": 10.318222999572754,
+      "eval_runtime": 1.0447,
+      "eval_samples_per_second": 281.419,
+      "eval_steps_per_second": 35.417,
+      "step": 63
+    },
+    {
+      "epoch": 0.1833810888252149,
+      "grad_norm": 0.29449090361595154,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 10.3208,
+      "step": 64
+    },
+    {
+      "epoch": 0.18624641833810887,
+      "grad_norm": 0.318759560585022,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 10.327,
+      "step": 65
+    },
+    {
+      "epoch": 0.18911174785100288,
+      "grad_norm": 0.32590019702911377,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 10.3242,
+      "step": 66
+    },
+    {
+      "epoch": 0.19197707736389685,
+      "grad_norm": 0.3307969570159912,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 10.3131,
+      "step": 67
+    },
+    {
+      "epoch": 0.19484240687679083,
+      "grad_norm": 0.270192950963974,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 10.3285,
+      "step": 68
+    },
+    {
+      "epoch": 0.1977077363896848,
+      "grad_norm": 0.3431764245033264,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 10.3281,
+      "step": 69
+    },
+    {
+      "epoch": 0.20057306590257878,
+      "grad_norm": 0.27470043301582336,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 10.3218,
+      "step": 70
+    },
+    {
+      "epoch": 0.2034383954154728,
+      "grad_norm": 0.29296571016311646,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 10.3186,
+      "step": 71
+    },
+    {
+      "epoch": 0.20630372492836677,
+      "grad_norm": 0.335977166891098,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 10.3168,
+      "step": 72
+    },
+    {
+      "epoch": 0.20630372492836677,
+      "eval_loss": 10.314079284667969,
+      "eval_runtime": 1.025,
+      "eval_samples_per_second": 286.826,
+      "eval_steps_per_second": 36.097,
+      "step": 72
+    },
+    {
+      "epoch": 0.20916905444126074,
+      "grad_norm": 0.3692624270915985,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 10.3224,
+      "step": 73
+    },
+    {
+      "epoch": 0.21203438395415472,
+      "grad_norm": 0.31396710872650146,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 10.3251,
+      "step": 74
+    },
+    {
+      "epoch": 0.2148997134670487,
+      "grad_norm": 0.32838553190231323,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 10.3128,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3948834717696.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null