Training in progress, step 193, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +227 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcab26ada2c2637d79ec11d98df950fe228da88d062fd59cebde5c23cc576bd9
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d08662b031cdd86ed774881debe128c873e00074cf7929595f42b6a63d84048
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3777d03e8d2baa5c405d941ac93d97f6e70f91bdf36b70dc8613461422b413d
 size 50675156

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa10ee462c7e49a82fafb47e9d4304eed05d8aaf2fa6327757fcf5a538adb758
 size 50675156

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae12e87061029d0002bd195ec24682167e09466b871fd07c9121b60003cd8e79
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ac39c24740490f5e39e7ce5934c2a2903951fd3baae22c89e765d403647b6d1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.23522965939183635,
   "eval_steps": 500,
-  "global_step": 161,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1134,6 +1134,230 @@
       "learning_rate": 1.791095890410959e-05,
       "loss": 1.3022,
       "step": 161
     }
   ],
   "logging_steps": 1,
@@ -1153,7 +1377,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8126428980702003e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.28198338051319516,
   "eval_steps": 500,
+  "global_step": 193,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.791095890410959e-05,
       "loss": 1.3022,
       "step": 161
+    },
+    {
+      "epoch": 0.23669071317687881,
+      "grad_norm": 0.16716252267360687,
+      "learning_rate": 1.7876712328767125e-05,
+      "loss": 1.2339,
+      "step": 162
+    },
+    {
+      "epoch": 0.23815176696192128,
+      "grad_norm": 0.1609048694372177,
+      "learning_rate": 1.7842465753424658e-05,
+      "loss": 1.3374,
+      "step": 163
+    },
+    {
+      "epoch": 0.23961282074696375,
+      "grad_norm": 0.17205393314361572,
+      "learning_rate": 1.7808219178082194e-05,
+      "loss": 1.2043,
+      "step": 164
+    },
+    {
+      "epoch": 0.2410738745320062,
+      "grad_norm": 0.17497386038303375,
+      "learning_rate": 1.7773972602739727e-05,
+      "loss": 1.2267,
+      "step": 165
+    },
+    {
+      "epoch": 0.24253492831704868,
+      "grad_norm": 0.17982399463653564,
+      "learning_rate": 1.773972602739726e-05,
+      "loss": 1.2363,
+      "step": 166
+    },
+    {
+      "epoch": 0.24399598210209114,
+      "grad_norm": 0.17415454983711243,
+      "learning_rate": 1.7705479452054797e-05,
+      "loss": 1.2339,
+      "step": 167
+    },
+    {
+      "epoch": 0.2454570358871336,
+      "grad_norm": 0.17761662602424622,
+      "learning_rate": 1.767123287671233e-05,
+      "loss": 1.2549,
+      "step": 168
+    },
+    {
+      "epoch": 0.24691808967217604,
+      "grad_norm": 0.17029732465744019,
+      "learning_rate": 1.7636986301369866e-05,
+      "loss": 1.2175,
+      "step": 169
+    },
+    {
+      "epoch": 0.2483791434572185,
+      "grad_norm": 0.1831396073102951,
+      "learning_rate": 1.76027397260274e-05,
+      "loss": 1.2975,
+      "step": 170
+    },
+    {
+      "epoch": 0.24984019724226098,
+      "grad_norm": 0.1648183912038803,
+      "learning_rate": 1.7568493150684932e-05,
+      "loss": 1.317,
+      "step": 171
+    },
+    {
+      "epoch": 0.25130125102730344,
+      "grad_norm": 0.19559577107429504,
+      "learning_rate": 1.7534246575342465e-05,
+      "loss": 1.2482,
+      "step": 172
+    },
+    {
+      "epoch": 0.2527623048123459,
+      "grad_norm": 0.17486748099327087,
+      "learning_rate": 1.7500000000000002e-05,
+      "loss": 1.2638,
+      "step": 173
+    },
+    {
+      "epoch": 0.25422335859738837,
+      "grad_norm": 0.18816767632961273,
+      "learning_rate": 1.7465753424657538e-05,
+      "loss": 1.2739,
+      "step": 174
+    },
+    {
+      "epoch": 0.25568441238243084,
+      "grad_norm": 0.1921810507774353,
+      "learning_rate": 1.743150684931507e-05,
+      "loss": 1.2028,
+      "step": 175
+    },
+    {
+      "epoch": 0.2571454661674733,
+      "grad_norm": 0.20229558646678925,
+      "learning_rate": 1.7397260273972604e-05,
+      "loss": 1.2518,
+      "step": 176
+    },
+    {
+      "epoch": 0.25860651995251577,
+      "grad_norm": 0.21454092860221863,
+      "learning_rate": 1.7363013698630137e-05,
+      "loss": 1.2257,
+      "step": 177
+    },
+    {
+      "epoch": 0.26006757373755823,
+      "grad_norm": 0.20349366962909698,
+      "learning_rate": 1.7328767123287674e-05,
+      "loss": 1.229,
+      "step": 178
+    },
+    {
+      "epoch": 0.2615286275226007,
+      "grad_norm": 0.22348977625370026,
+      "learning_rate": 1.7294520547945207e-05,
+      "loss": 1.3047,
+      "step": 179
+    },
+    {
+      "epoch": 0.26298968130764316,
+      "grad_norm": 0.18413174152374268,
+      "learning_rate": 1.726027397260274e-05,
+      "loss": 1.2372,
+      "step": 180
+    },
+    {
+      "epoch": 0.2644507350926856,
+      "grad_norm": 0.22073839604854584,
+      "learning_rate": 1.7226027397260273e-05,
+      "loss": 1.2719,
+      "step": 181
+    },
+    {
+      "epoch": 0.26591178887772804,
+      "grad_norm": 0.25906509160995483,
+      "learning_rate": 1.719178082191781e-05,
+      "loss": 1.2132,
+      "step": 182
+    },
+    {
+      "epoch": 0.2673728426627705,
+      "grad_norm": 0.22006724774837494,
+      "learning_rate": 1.7157534246575346e-05,
+      "loss": 1.2595,
+      "step": 183
+    },
+    {
+      "epoch": 0.26883389644781297,
+      "grad_norm": 0.2628309428691864,
+      "learning_rate": 1.712328767123288e-05,
+      "loss": 1.1812,
+      "step": 184
+    },
+    {
+      "epoch": 0.27029495023285544,
+      "grad_norm": 0.21583111584186554,
+      "learning_rate": 1.7089041095890412e-05,
+      "loss": 1.2631,
+      "step": 185
+    },
+    {
+      "epoch": 0.2717560040178979,
+      "grad_norm": 0.19774451851844788,
+      "learning_rate": 1.7054794520547945e-05,
+      "loss": 1.2511,
+      "step": 186
+    },
+    {
+      "epoch": 0.27321705780294037,
+      "grad_norm": 0.199305459856987,
+      "learning_rate": 1.702054794520548e-05,
+      "loss": 1.2836,
+      "step": 187
+    },
+    {
+      "epoch": 0.27467811158798283,
+      "grad_norm": 0.17964106798171997,
+      "learning_rate": 1.6986301369863014e-05,
+      "loss": 1.2784,
+      "step": 188
+    },
+    {
+      "epoch": 0.2761391653730253,
+      "grad_norm": 0.15635524690151215,
+      "learning_rate": 1.695205479452055e-05,
+      "loss": 1.2959,
+      "step": 189
+    },
+    {
+      "epoch": 0.27760021915806776,
+      "grad_norm": 0.14683344960212708,
+      "learning_rate": 1.6917808219178084e-05,
+      "loss": 1.2453,
+      "step": 190
+    },
+    {
+      "epoch": 0.27906127294311023,
+      "grad_norm": 0.1619580239057541,
+      "learning_rate": 1.6883561643835617e-05,
+      "loss": 1.2602,
+      "step": 191
+    },
+    {
+      "epoch": 0.2805223267281527,
+      "grad_norm": 0.19470493495464325,
+      "learning_rate": 1.6849315068493153e-05,
+      "loss": 1.1052,
+      "step": 192
+    },
+    {
+      "epoch": 0.28198338051319516,
+      "grad_norm": 0.17526264488697052,
+      "learning_rate": 1.6815068493150686e-05,
+      "loss": 1.2553,
+      "step": 193
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.1621842547974554e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null