Training in progress, step 14889, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +346 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87d564460f84baac9ace9dc44cd612f3da4c9738f97e9806a8457bb9462e95db
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:abfb7980299d9a0833e40cfa75a4e071101b9b5dbcb4b7b8be67cc1f7a5b1358
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ace8d39e9d75867a54c7c346772698f7c6e42165925320fb3b2367daa7c674e
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:d02f233cb73ec902ca0b622f60572ba5696796aa69c3f044f06782367911a3f9
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e3f275449dfbc8efc7d2d2f06d134c7b39e55b8e539f36e09b007c731c81c65
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d3ef4695d48aabb51830d7d806ccbb8d1a7c1dd1163d43a57a82226f9575540
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.921619987910538,
   "eval_steps": 500,
-  "global_step": 14500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13058,6 +13058,348 @@
       "mean_token_accuracy": 0.7894056618213654,
       "num_tokens": 16065206.0,
       "step": 14500
     }
   ],
   "logging_steps": 10,
@@ -13072,12 +13414,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.9417933454309376e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 14889,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7894056618213654,
       "num_tokens": 16065206.0,
       "step": 14500
+    },
+    {
+      "epoch": 2.923634898247028,
+      "grad_norm": 10.6875,
+      "learning_rate": 5.104439519108067e-07,
+      "loss": 0.8542,
+      "mean_token_accuracy": 0.7932229697704315,
+      "num_tokens": 16076636.0,
+      "step": 14510
+    },
+    {
+      "epoch": 2.9256498085835183,
+      "grad_norm": 10.6875,
+      "learning_rate": 4.970112163342065e-07,
+      "loss": 0.8027,
+      "mean_token_accuracy": 0.7981291949748993,
+      "num_tokens": 16088110.0,
+      "step": 14520
+    },
+    {
+      "epoch": 2.927664718920008,
+      "grad_norm": 13.9375,
+      "learning_rate": 4.835784807576064e-07,
+      "loss": 0.8503,
+      "mean_token_accuracy": 0.7925727784633636,
+      "num_tokens": 16100038.0,
+      "step": 14530
+    },
+    {
+      "epoch": 2.929679629256498,
+      "grad_norm": 12.25,
+      "learning_rate": 4.7014574518100616e-07,
+      "loss": 0.908,
+      "mean_token_accuracy": 0.787571269273758,
+      "num_tokens": 16110204.0,
+      "step": 14540
+    },
+    {
+      "epoch": 2.9316945395929883,
+      "grad_norm": 10.4375,
+      "learning_rate": 4.5671300960440595e-07,
+      "loss": 0.8271,
+      "mean_token_accuracy": 0.7935189664363861,
+      "num_tokens": 16122082.0,
+      "step": 14550
+    },
+    {
+      "epoch": 2.933709449929478,
+      "grad_norm": 10.875,
+      "learning_rate": 4.4328027402780584e-07,
+      "loss": 0.7881,
+      "mean_token_accuracy": 0.8038492739200592,
+      "num_tokens": 16133321.0,
+      "step": 14560
+    },
+    {
+      "epoch": 2.935724360265968,
+      "grad_norm": 9.875,
+      "learning_rate": 4.2984753845120563e-07,
+      "loss": 0.8147,
+      "mean_token_accuracy": 0.7948280692100524,
+      "num_tokens": 16145276.0,
+      "step": 14570
+    },
+    {
+      "epoch": 2.9377392706024583,
+      "grad_norm": 13.4375,
+      "learning_rate": 4.1641480287460547e-07,
+      "loss": 0.7914,
+      "mean_token_accuracy": 0.8023073971271515,
+      "num_tokens": 16156515.0,
+      "step": 14580
+    },
+    {
+      "epoch": 2.939754180938948,
+      "grad_norm": 13.5,
+      "learning_rate": 4.0298206729800526e-07,
+      "loss": 0.7906,
+      "mean_token_accuracy": 0.7989113509654999,
+      "num_tokens": 16168451.0,
+      "step": 14590
+    },
+    {
+      "epoch": 2.941769091275438,
+      "grad_norm": 9.4375,
+      "learning_rate": 3.895493317214051e-07,
+      "loss": 0.7716,
+      "mean_token_accuracy": 0.8048623919486999,
+      "num_tokens": 16180616.0,
+      "step": 14600
+    },
+    {
+      "epoch": 2.9437840016119283,
+      "grad_norm": 13.1875,
+      "learning_rate": 3.761165961448049e-07,
+      "loss": 0.7059,
+      "mean_token_accuracy": 0.8211403012275695,
+      "num_tokens": 16190863.0,
+      "step": 14610
+    },
+    {
+      "epoch": 2.945798911948418,
+      "grad_norm": 9.6875,
+      "learning_rate": 3.626838605682047e-07,
+      "loss": 0.7256,
+      "mean_token_accuracy": 0.8117915868759156,
+      "num_tokens": 16201924.0,
+      "step": 14620
+    },
+    {
+      "epoch": 2.947813822284908,
+      "grad_norm": 12.5625,
+      "learning_rate": 3.492511249916046e-07,
+      "loss": 0.8323,
+      "mean_token_accuracy": 0.7886347115039826,
+      "num_tokens": 16212994.0,
+      "step": 14630
+    },
+    {
+      "epoch": 2.9498287326213983,
+      "grad_norm": 12.6875,
+      "learning_rate": 3.358183894150044e-07,
+      "loss": 0.8058,
+      "mean_token_accuracy": 0.7921592950820923,
+      "num_tokens": 16223545.0,
+      "step": 14640
+    },
+    {
+      "epoch": 2.9518436429578885,
+      "grad_norm": 10.625,
+      "learning_rate": 3.2238565383840425e-07,
+      "loss": 0.7639,
+      "mean_token_accuracy": 0.8088575303554535,
+      "num_tokens": 16234810.0,
+      "step": 14650
+    },
+    {
+      "epoch": 2.9538585532943786,
+      "grad_norm": 12.9375,
+      "learning_rate": 3.0895291826180403e-07,
+      "loss": 0.9168,
+      "mean_token_accuracy": 0.7773300051689148,
+      "num_tokens": 16246077.0,
+      "step": 14660
+    },
+    {
+      "epoch": 2.9558734636308683,
+      "grad_norm": 13.875,
+      "learning_rate": 2.955201826852039e-07,
+      "loss": 0.8155,
+      "mean_token_accuracy": 0.7995950043201446,
+      "num_tokens": 16256503.0,
+      "step": 14670
+    },
+    {
+      "epoch": 2.9578883739673585,
+      "grad_norm": 13.6875,
+      "learning_rate": 2.820874471086037e-07,
+      "loss": 0.8045,
+      "mean_token_accuracy": 0.8015713572502137,
+      "num_tokens": 16266819.0,
+      "step": 14680
+    },
+    {
+      "epoch": 2.9599032843038486,
+      "grad_norm": 12.0625,
+      "learning_rate": 2.686547115320035e-07,
+      "loss": 0.9132,
+      "mean_token_accuracy": 0.7834485352039338,
+      "num_tokens": 16278113.0,
+      "step": 14690
+    },
+    {
+      "epoch": 2.9619181946403383,
+      "grad_norm": 13.3125,
+      "learning_rate": 2.5522197595540334e-07,
+      "loss": 0.7371,
+      "mean_token_accuracy": 0.8118620038032531,
+      "num_tokens": 16288705.0,
+      "step": 14700
+    },
+    {
+      "epoch": 2.9639331049768285,
+      "grad_norm": 13.125,
+      "learning_rate": 2.417892403788032e-07,
+      "loss": 0.8454,
+      "mean_token_accuracy": 0.7928309857845306,
+      "num_tokens": 16299215.0,
+      "step": 14710
+    },
+    {
+      "epoch": 2.9659480153133186,
+      "grad_norm": 11.125,
+      "learning_rate": 2.2835650480220297e-07,
+      "loss": 0.7582,
+      "mean_token_accuracy": 0.814406418800354,
+      "num_tokens": 16309978.0,
+      "step": 14720
+    },
+    {
+      "epoch": 2.9679629256498083,
+      "grad_norm": 13.25,
+      "learning_rate": 2.1492376922560281e-07,
+      "loss": 0.7703,
+      "mean_token_accuracy": 0.8121409773826599,
+      "num_tokens": 16320485.0,
+      "step": 14730
+    },
+    {
+      "epoch": 2.9699778359862985,
+      "grad_norm": 11.1875,
+      "learning_rate": 2.0149103364900263e-07,
+      "loss": 0.7339,
+      "mean_token_accuracy": 0.8153697431087494,
+      "num_tokens": 16332678.0,
+      "step": 14740
+    },
+    {
+      "epoch": 2.9719927463227886,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.8805829807240244e-07,
+      "loss": 0.8436,
+      "mean_token_accuracy": 0.7889176428318023,
+      "num_tokens": 16345494.0,
+      "step": 14750
+    },
+    {
+      "epoch": 2.974007656659279,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.746255624958023e-07,
+      "loss": 0.788,
+      "mean_token_accuracy": 0.8068629801273346,
+      "num_tokens": 16356280.0,
+      "step": 14760
+    },
+    {
+      "epoch": 2.976022566995769,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.6119282691920212e-07,
+      "loss": 0.9647,
+      "mean_token_accuracy": 0.7653753876686096,
+      "num_tokens": 16367963.0,
+      "step": 14770
+    },
+    {
+      "epoch": 2.9780374773322587,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.4776009134260194e-07,
+      "loss": 0.8052,
+      "mean_token_accuracy": 0.7993070542812347,
+      "num_tokens": 16378573.0,
+      "step": 14780
+    },
+    {
+      "epoch": 2.980052387668749,
+      "grad_norm": 11.75,
+      "learning_rate": 1.3432735576600175e-07,
+      "loss": 0.7878,
+      "mean_token_accuracy": 0.8004900455474854,
+      "num_tokens": 16389458.0,
+      "step": 14790
+    },
+    {
+      "epoch": 2.982067298005239,
+      "grad_norm": 11.375,
+      "learning_rate": 1.208946201894016e-07,
+      "loss": 0.8526,
+      "mean_token_accuracy": 0.7890514850616455,
+      "num_tokens": 16400816.0,
+      "step": 14800
+    },
+    {
+      "epoch": 2.9840822083417287,
+      "grad_norm": 12.625,
+      "learning_rate": 1.0746188461280141e-07,
+      "loss": 0.7664,
+      "mean_token_accuracy": 0.8109397828578949,
+      "num_tokens": 16410740.0,
+      "step": 14810
+    },
+    {
+      "epoch": 2.986097118678219,
+      "grad_norm": 12.6875,
+      "learning_rate": 9.402914903620122e-08,
+      "loss": 0.8027,
+      "mean_token_accuracy": 0.7973058164119721,
+      "num_tokens": 16422624.0,
+      "step": 14820
+    },
+    {
+      "epoch": 2.988112029014709,
+      "grad_norm": 11.75,
+      "learning_rate": 8.059641345960106e-08,
+      "loss": 0.8327,
+      "mean_token_accuracy": 0.7947525262832642,
+      "num_tokens": 16432503.0,
+      "step": 14830
+    },
+    {
+      "epoch": 2.9901269393511987,
+      "grad_norm": 12.25,
+      "learning_rate": 6.716367788300088e-08,
+      "loss": 0.8677,
+      "mean_token_accuracy": 0.7895227074623108,
+      "num_tokens": 16443714.0,
+      "step": 14840
+    },
+    {
+      "epoch": 2.992141849687689,
+      "grad_norm": 12.625,
+      "learning_rate": 5.3730942306400703e-08,
+      "loss": 0.7835,
+      "mean_token_accuracy": 0.8056479752063751,
+      "num_tokens": 16455282.0,
+      "step": 14850
+    },
+    {
+      "epoch": 2.994156760024179,
+      "grad_norm": 10.5625,
+      "learning_rate": 4.029820672980053e-08,
+      "loss": 0.8101,
+      "mean_token_accuracy": 0.8069123327732086,
+      "num_tokens": 16466521.0,
+      "step": 14860
+    },
+    {
+      "epoch": 2.996171670360669,
+      "grad_norm": 12.5,
+      "learning_rate": 2.6865471153200352e-08,
+      "loss": 0.8407,
+      "mean_token_accuracy": 0.7910451471805573,
+      "num_tokens": 16477990.0,
+      "step": 14870
+    },
+    {
+      "epoch": 2.998186580697159,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.3432735576600176e-08,
+      "loss": 0.8122,
+      "mean_token_accuracy": 0.7982128620147705,
+      "num_tokens": 16488273.0,
+      "step": 14880
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.9946788002011136e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null