Training in progress, step 426, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +178 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec42bd1201713747cf0bfe9f98844ae34ef785a10f65b23c45de6bbc893dd200
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:429776d8ec0c81ce8d08e40e885e46127b8184a5904f1cf0a1e91a4b38cdc560
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21db3db77900621b49cc47223e6de8787ac7ee428f7f40cef14143816a5cfc71
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc16f8d1d14f42458e9f82501393c087cd1eb38fd3f59c3b432671f63aa669a8
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2861f442a87d813515d0c4675c2a08d51f2da9f724ddb08461c7f5b96ba3ac68
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:933f690365711cd7ef49473934a6fcf025d686d0b3c5cc973fe5e24070e2c3b3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4400548696844993,
   "eval_steps": 500,
-  "global_step": 401,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2814,6 +2814,181 @@
       "learning_rate": 1.2577065351418003e-05,
       "loss": 1.0427,
       "step": 401
     }
   ],
   "logging_steps": 1,
@@ -2833,7 +3008,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.1627750187493786e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4674897119341564,
   "eval_steps": 500,
+  "global_step": 426,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.2577065351418003e-05,
       "loss": 1.0427,
       "step": 401
+    },
+    {
+      "epoch": 0.4411522633744856,
+      "grad_norm": 0.12298054248094559,
+      "learning_rate": 1.2552404438964243e-05,
+      "loss": 1.1429,
+      "step": 402
+    },
+    {
+      "epoch": 0.4422496570644719,
+      "grad_norm": 0.10508795082569122,
+      "learning_rate": 1.2527743526510482e-05,
+      "loss": 1.2339,
+      "step": 403
+    },
+    {
+      "epoch": 0.4433470507544582,
+      "grad_norm": 0.14140458405017853,
+      "learning_rate": 1.2503082614056721e-05,
+      "loss": 1.0924,
+      "step": 404
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.16051869094371796,
+      "learning_rate": 1.247842170160296e-05,
+      "loss": 1.055,
+      "step": 405
+    },
+    {
+      "epoch": 0.4455418381344307,
+      "grad_norm": 0.12968482077121735,
+      "learning_rate": 1.2453760789149199e-05,
+      "loss": 1.1362,
+      "step": 406
+    },
+    {
+      "epoch": 0.446639231824417,
+      "grad_norm": 0.12716621160507202,
+      "learning_rate": 1.2429099876695438e-05,
+      "loss": 1.0987,
+      "step": 407
+    },
+    {
+      "epoch": 0.4477366255144033,
+      "grad_norm": 0.15174546837806702,
+      "learning_rate": 1.2404438964241678e-05,
+      "loss": 1.1899,
+      "step": 408
+    },
+    {
+      "epoch": 0.4488340192043896,
+      "grad_norm": 0.1363244652748108,
+      "learning_rate": 1.2379778051787916e-05,
+      "loss": 1.1274,
+      "step": 409
+    },
+    {
+      "epoch": 0.4499314128943759,
+      "grad_norm": 0.11740902811288834,
+      "learning_rate": 1.2355117139334156e-05,
+      "loss": 1.0766,
+      "step": 410
+    },
+    {
+      "epoch": 0.4510288065843621,
+      "grad_norm": 0.1075834259390831,
+      "learning_rate": 1.2330456226880397e-05,
+      "loss": 1.1318,
+      "step": 411
+    },
+    {
+      "epoch": 0.4521262002743484,
+      "grad_norm": 0.11810291558504105,
+      "learning_rate": 1.2305795314426634e-05,
+      "loss": 1.1657,
+      "step": 412
+    },
+    {
+      "epoch": 0.4532235939643347,
+      "grad_norm": 0.1261415034532547,
+      "learning_rate": 1.2281134401972875e-05,
+      "loss": 1.2063,
+      "step": 413
+    },
+    {
+      "epoch": 0.454320987654321,
+      "grad_norm": 0.14952872693538666,
+      "learning_rate": 1.2256473489519114e-05,
+      "loss": 1.0857,
+      "step": 414
+    },
+    {
+      "epoch": 0.4554183813443073,
+      "grad_norm": 0.1363765001296997,
+      "learning_rate": 1.2231812577065353e-05,
+      "loss": 1.1038,
+      "step": 415
+    },
+    {
+      "epoch": 0.4565157750342936,
+      "grad_norm": 0.1384081095457077,
+      "learning_rate": 1.2207151664611591e-05,
+      "loss": 1.1109,
+      "step": 416
+    },
+    {
+      "epoch": 0.4576131687242798,
+      "grad_norm": 0.1204955130815506,
+      "learning_rate": 1.2182490752157832e-05,
+      "loss": 1.0567,
+      "step": 417
+    },
+    {
+      "epoch": 0.4587105624142661,
+      "grad_norm": 0.14003603160381317,
+      "learning_rate": 1.215782983970407e-05,
+      "loss": 1.1006,
+      "step": 418
+    },
+    {
+      "epoch": 0.4598079561042524,
+      "grad_norm": 0.18735840916633606,
+      "learning_rate": 1.213316892725031e-05,
+      "loss": 1.1884,
+      "step": 419
+    },
+    {
+      "epoch": 0.4609053497942387,
+      "grad_norm": 0.16455943882465363,
+      "learning_rate": 1.2108508014796549e-05,
+      "loss": 1.0925,
+      "step": 420
+    },
+    {
+      "epoch": 0.462002743484225,
+      "grad_norm": 0.14214913547039032,
+      "learning_rate": 1.2083847102342788e-05,
+      "loss": 1.0512,
+      "step": 421
+    },
+    {
+      "epoch": 0.4631001371742112,
+      "grad_norm": 0.12036455422639847,
+      "learning_rate": 1.2059186189889027e-05,
+      "loss": 1.2031,
+      "step": 422
+    },
+    {
+      "epoch": 0.4641975308641975,
+      "grad_norm": 0.13500386476516724,
+      "learning_rate": 1.2034525277435265e-05,
+      "loss": 1.1086,
+      "step": 423
+    },
+    {
+      "epoch": 0.4652949245541838,
+      "grad_norm": 0.14389222860336304,
+      "learning_rate": 1.2009864364981504e-05,
+      "loss": 1.1124,
+      "step": 424
+    },
+    {
+      "epoch": 0.4663923182441701,
+      "grad_norm": 0.14557717740535736,
+      "learning_rate": 1.1985203452527745e-05,
+      "loss": 1.1043,
+      "step": 425
+    },
+    {
+      "epoch": 0.4674897119341564,
+      "grad_norm": 0.16723041236400604,
+      "learning_rate": 1.1960542540073982e-05,
+      "loss": 1.1054,
+      "step": 426
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.423126307946209e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null