Training in progress, step 12000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c78f458d11eae9e4154eb728cce06719d74e09c423918147e47d15f28937e92f
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3e424925fa2b2770536f70d1899af46260c1bbb5c290c98396f2248352c7add
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:036c2c1f7cdbea44cbf7137c6b1c3cf16b5447a1c3d590934dbf649691bc4729
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:be8d0890e7228cd98f10766bc63bebe515a3fa05be0c7762618a01f87fa2799c
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f9a4928c3c29f8d8ffe6d8c80c93af4c98237f714bf32b55ba4f3d5d67a23da
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdff80ed8983588a862f2109bcc080c93759e076260079b20d08888071ee3452
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.3171468869635303,
   "eval_steps": 500,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10358,6 +10358,456 @@
       "mean_token_accuracy": 0.8073502600193023,
       "num_tokens": 12733862.0,
       "step": 11500
     }
   ],
   "logging_steps": 10,
@@ -10377,7 +10827,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5401013006618624e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.4178924037880316,
   "eval_steps": 500,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8073502600193023,
       "num_tokens": 12733862.0,
       "step": 11500
+    },
+    {
+      "epoch": 2.31916179730002,
+      "grad_norm": 11.9375,
+      "learning_rate": 4.540264624890859e-06,
+      "loss": 0.8758,
+      "mean_token_accuracy": 0.7853485405445099,
+      "num_tokens": 12745243.0,
+      "step": 11510
+    },
+    {
+      "epoch": 2.32117670763651,
+      "grad_norm": 13.8125,
+      "learning_rate": 4.526831889314259e-06,
+      "loss": 0.8738,
+      "mean_token_accuracy": 0.7857240378856659,
+      "num_tokens": 12756282.0,
+      "step": 11520
+    },
+    {
+      "epoch": 2.3231916179730003,
+      "grad_norm": 9.3125,
+      "learning_rate": 4.5133991537376595e-06,
+      "loss": 0.8261,
+      "mean_token_accuracy": 0.7956898987293244,
+      "num_tokens": 12766669.0,
+      "step": 11530
+    },
+    {
+      "epoch": 2.32520652830949,
+      "grad_norm": 11.25,
+      "learning_rate": 4.499966418161058e-06,
+      "loss": 0.8651,
+      "mean_token_accuracy": 0.7886692404747009,
+      "num_tokens": 12777269.0,
+      "step": 11540
+    },
+    {
+      "epoch": 2.32722143864598,
+      "grad_norm": 9.9375,
+      "learning_rate": 4.486533682584459e-06,
+      "loss": 0.7734,
+      "mean_token_accuracy": 0.805381816625595,
+      "num_tokens": 12788362.0,
+      "step": 11550
+    },
+    {
+      "epoch": 2.3292363489824703,
+      "grad_norm": 11.125,
+      "learning_rate": 4.4731009470078585e-06,
+      "loss": 0.7621,
+      "mean_token_accuracy": 0.8127647817134858,
+      "num_tokens": 12798806.0,
+      "step": 11560
+    },
+    {
+      "epoch": 2.3312512593189605,
+      "grad_norm": 11.375,
+      "learning_rate": 4.459668211431258e-06,
+      "loss": 0.8961,
+      "mean_token_accuracy": 0.7812471866607666,
+      "num_tokens": 12809177.0,
+      "step": 11570
+    },
+    {
+      "epoch": 2.33326616965545,
+      "grad_norm": 11.5625,
+      "learning_rate": 4.446235475854659e-06,
+      "loss": 0.8318,
+      "mean_token_accuracy": 0.791858333349228,
+      "num_tokens": 12819801.0,
+      "step": 11580
+    },
+    {
+      "epoch": 2.3352810799919403,
+      "grad_norm": 12.9375,
+      "learning_rate": 4.432802740278058e-06,
+      "loss": 0.8065,
+      "mean_token_accuracy": 0.8027865469455719,
+      "num_tokens": 12830608.0,
+      "step": 11590
+    },
+    {
+      "epoch": 2.3372959903284305,
+      "grad_norm": 13.5,
+      "learning_rate": 4.419370004701457e-06,
+      "loss": 0.8616,
+      "mean_token_accuracy": 0.7896072804927826,
+      "num_tokens": 12841034.0,
+      "step": 11600
+    },
+    {
+      "epoch": 2.3393109006649206,
+      "grad_norm": 12.0625,
+      "learning_rate": 4.405937269124858e-06,
+      "loss": 0.8395,
+      "mean_token_accuracy": 0.7913760662078857,
+      "num_tokens": 12852500.0,
+      "step": 11610
+    },
+    {
+      "epoch": 2.3413258110014104,
+      "grad_norm": 12.9375,
+      "learning_rate": 4.3925045335482574e-06,
+      "loss": 0.7748,
+      "mean_token_accuracy": 0.8028417646884918,
+      "num_tokens": 12862957.0,
+      "step": 11620
+    },
+    {
+      "epoch": 2.3433407213379005,
+      "grad_norm": 11.9375,
+      "learning_rate": 4.379071797971657e-06,
+      "loss": 0.726,
+      "mean_token_accuracy": 0.8169633626937867,
+      "num_tokens": 12873810.0,
+      "step": 11630
+    },
+    {
+      "epoch": 2.3453556316743907,
+      "grad_norm": 14.25,
+      "learning_rate": 4.365639062395058e-06,
+      "loss": 0.7605,
+      "mean_token_accuracy": 0.8124097108840942,
+      "num_tokens": 12884782.0,
+      "step": 11640
+    },
+    {
+      "epoch": 2.3473705420108804,
+      "grad_norm": 10.125,
+      "learning_rate": 4.3522063268184565e-06,
+      "loss": 0.8192,
+      "mean_token_accuracy": 0.7956154048442841,
+      "num_tokens": 12896291.0,
+      "step": 11650
+    },
+    {
+      "epoch": 2.3493854523473705,
+      "grad_norm": 10.5625,
+      "learning_rate": 4.338773591241857e-06,
+      "loss": 0.7772,
+      "mean_token_accuracy": 0.803158450126648,
+      "num_tokens": 12908167.0,
+      "step": 11660
+    },
+    {
+      "epoch": 2.3514003626838607,
+      "grad_norm": 10.4375,
+      "learning_rate": 4.325340855665257e-06,
+      "loss": 0.9174,
+      "mean_token_accuracy": 0.7823165059089661,
+      "num_tokens": 12920439.0,
+      "step": 11670
+    },
+    {
+      "epoch": 2.3534152730203504,
+      "grad_norm": 12.375,
+      "learning_rate": 4.311908120088656e-06,
+      "loss": 0.9018,
+      "mean_token_accuracy": 0.7804082155227661,
+      "num_tokens": 12932185.0,
+      "step": 11680
+    },
+    {
+      "epoch": 2.3554301833568405,
+      "grad_norm": 13.25,
+      "learning_rate": 4.298475384512056e-06,
+      "loss": 0.7592,
+      "mean_token_accuracy": 0.8126965999603272,
+      "num_tokens": 12942868.0,
+      "step": 11690
+    },
+    {
+      "epoch": 2.3574450936933307,
+      "grad_norm": 12.0,
+      "learning_rate": 4.285042648935457e-06,
+      "loss": 0.78,
+      "mean_token_accuracy": 0.7975714325904846,
+      "num_tokens": 12954738.0,
+      "step": 11700
+    },
+    {
+      "epoch": 2.359460004029821,
+      "grad_norm": 12.375,
+      "learning_rate": 4.271609913358855e-06,
+      "loss": 0.8378,
+      "mean_token_accuracy": 0.7859510540962219,
+      "num_tokens": 12967446.0,
+      "step": 11710
+    },
+    {
+      "epoch": 2.3614749143663105,
+      "grad_norm": 11.9375,
+      "learning_rate": 4.258177177782256e-06,
+      "loss": 0.7837,
+      "mean_token_accuracy": 0.8069138765335083,
+      "num_tokens": 12978934.0,
+      "step": 11720
+    },
+    {
+      "epoch": 2.3634898247028007,
+      "grad_norm": 11.9375,
+      "learning_rate": 4.244744442205656e-06,
+      "loss": 0.8833,
+      "mean_token_accuracy": 0.786394476890564,
+      "num_tokens": 12989739.0,
+      "step": 11730
+    },
+    {
+      "epoch": 2.365504735039291,
+      "grad_norm": 11.75,
+      "learning_rate": 4.231311706629055e-06,
+      "loss": 0.8046,
+      "mean_token_accuracy": 0.8040765285491943,
+      "num_tokens": 13001096.0,
+      "step": 11740
+    },
+    {
+      "epoch": 2.367519645375781,
+      "grad_norm": 10.75,
+      "learning_rate": 4.217878971052455e-06,
+      "loss": 0.7969,
+      "mean_token_accuracy": 0.8002257823944092,
+      "num_tokens": 13013888.0,
+      "step": 11750
+    },
+    {
+      "epoch": 2.3695345557122707,
+      "grad_norm": 11.875,
+      "learning_rate": 4.204446235475855e-06,
+      "loss": 0.7773,
+      "mean_token_accuracy": 0.8048622369766235,
+      "num_tokens": 13024639.0,
+      "step": 11760
+    },
+    {
+      "epoch": 2.371549466048761,
+      "grad_norm": 10.0,
+      "learning_rate": 4.191013499899254e-06,
+      "loss": 0.7608,
+      "mean_token_accuracy": 0.8129175007343292,
+      "num_tokens": 13035841.0,
+      "step": 11770
+    },
+    {
+      "epoch": 2.373564376385251,
+      "grad_norm": 10.0,
+      "learning_rate": 4.177580764322655e-06,
+      "loss": 0.7931,
+      "mean_token_accuracy": 0.8056257784366607,
+      "num_tokens": 13046314.0,
+      "step": 11780
+    },
+    {
+      "epoch": 2.3755792867217407,
+      "grad_norm": 11.625,
+      "learning_rate": 4.1641480287460546e-06,
+      "loss": 0.7639,
+      "mean_token_accuracy": 0.8064506113529205,
+      "num_tokens": 13057027.0,
+      "step": 11790
+    },
+    {
+      "epoch": 2.377594197058231,
+      "grad_norm": 13.0,
+      "learning_rate": 4.150715293169454e-06,
+      "loss": 0.8375,
+      "mean_token_accuracy": 0.7984327495098114,
+      "num_tokens": 13068328.0,
+      "step": 11800
+    },
+    {
+      "epoch": 2.379609107394721,
+      "grad_norm": 10.625,
+      "learning_rate": 4.137282557592854e-06,
+      "loss": 0.7661,
+      "mean_token_accuracy": 0.8164677619934082,
+      "num_tokens": 13079532.0,
+      "step": 11810
+    },
+    {
+      "epoch": 2.381624017731211,
+      "grad_norm": 12.0,
+      "learning_rate": 4.123849822016254e-06,
+      "loss": 0.8284,
+      "mean_token_accuracy": 0.7940251708030701,
+      "num_tokens": 13091655.0,
+      "step": 11820
+    },
+    {
+      "epoch": 2.383638928067701,
+      "grad_norm": 9.4375,
+      "learning_rate": 4.110417086439653e-06,
+      "loss": 0.778,
+      "mean_token_accuracy": 0.8088996291160584,
+      "num_tokens": 13103593.0,
+      "step": 11830
+    },
+    {
+      "epoch": 2.385653838404191,
+      "grad_norm": 11.875,
+      "learning_rate": 4.096984350863054e-06,
+      "loss": 0.9015,
+      "mean_token_accuracy": 0.7831744253635406,
+      "num_tokens": 13115707.0,
+      "step": 11840
+    },
+    {
+      "epoch": 2.387668748740681,
+      "grad_norm": 11.0625,
+      "learning_rate": 4.0835516152864535e-06,
+      "loss": 0.7765,
+      "mean_token_accuracy": 0.8058106303215027,
+      "num_tokens": 13126526.0,
+      "step": 11850
+    },
+    {
+      "epoch": 2.3896836590771713,
+      "grad_norm": 11.4375,
+      "learning_rate": 4.070118879709853e-06,
+      "loss": 0.8312,
+      "mean_token_accuracy": 0.7961088418960571,
+      "num_tokens": 13138535.0,
+      "step": 11860
+    },
+    {
+      "epoch": 2.391698569413661,
+      "grad_norm": 12.5625,
+      "learning_rate": 4.056686144133254e-06,
+      "loss": 0.7469,
+      "mean_token_accuracy": 0.8120961427688599,
+      "num_tokens": 13149421.0,
+      "step": 11870
+    },
+    {
+      "epoch": 2.393713479750151,
+      "grad_norm": 12.0,
+      "learning_rate": 4.0432534085566526e-06,
+      "loss": 0.7109,
+      "mean_token_accuracy": 0.8213139772415161,
+      "num_tokens": 13159892.0,
+      "step": 11880
+    },
+    {
+      "epoch": 2.3957283900866413,
+      "grad_norm": 11.75,
+      "learning_rate": 4.029820672980052e-06,
+      "loss": 0.7591,
+      "mean_token_accuracy": 0.8050274133682251,
+      "num_tokens": 13171470.0,
+      "step": 11890
+    },
+    {
+      "epoch": 2.397743300423131,
+      "grad_norm": 10.8125,
+      "learning_rate": 4.016387937403453e-06,
+      "loss": 0.7032,
+      "mean_token_accuracy": 0.8176105141639709,
+      "num_tokens": 13182185.0,
+      "step": 11900
+    },
+    {
+      "epoch": 2.399758210759621,
+      "grad_norm": 14.75,
+      "learning_rate": 4.0029552018268524e-06,
+      "loss": 0.8339,
+      "mean_token_accuracy": 0.7909499406814575,
+      "num_tokens": 13193599.0,
+      "step": 11910
+    },
+    {
+      "epoch": 2.4017731210961113,
+      "grad_norm": 11.875,
+      "learning_rate": 3.989522466250252e-06,
+      "loss": 0.8541,
+      "mean_token_accuracy": 0.7976760566234589,
+      "num_tokens": 13204212.0,
+      "step": 11920
+    },
+    {
+      "epoch": 2.403788031432601,
+      "grad_norm": 10.625,
+      "learning_rate": 3.976089730673652e-06,
+      "loss": 0.759,
+      "mean_token_accuracy": 0.8070417881011963,
+      "num_tokens": 13214466.0,
+      "step": 11930
+    },
+    {
+      "epoch": 2.405802941769091,
+      "grad_norm": 11.5,
+      "learning_rate": 3.9626569950970515e-06,
+      "loss": 0.7853,
+      "mean_token_accuracy": 0.8054651498794556,
+      "num_tokens": 13226936.0,
+      "step": 11940
+    },
+    {
+      "epoch": 2.4078178521055813,
+      "grad_norm": 11.625,
+      "learning_rate": 3.949224259520452e-06,
+      "loss": 1.0198,
+      "mean_token_accuracy": 0.7604237377643586,
+      "num_tokens": 13239461.0,
+      "step": 11950
+    },
+    {
+      "epoch": 2.4098327624420715,
+      "grad_norm": 10.9375,
+      "learning_rate": 3.935791523943852e-06,
+      "loss": 0.7993,
+      "mean_token_accuracy": 0.8001957833766937,
+      "num_tokens": 13250850.0,
+      "step": 11960
+    },
+    {
+      "epoch": 2.4118476727785616,
+      "grad_norm": 11.5,
+      "learning_rate": 3.922358788367251e-06,
+      "loss": 0.728,
+      "mean_token_accuracy": 0.8160501599311829,
+      "num_tokens": 13261351.0,
+      "step": 11970
+    },
+    {
+      "epoch": 2.4138625831150513,
+      "grad_norm": 11.125,
+      "learning_rate": 3.908926052790651e-06,
+      "loss": 0.7994,
+      "mean_token_accuracy": 0.8003806352615357,
+      "num_tokens": 13272623.0,
+      "step": 11980
+    },
+    {
+      "epoch": 2.4158774934515415,
+      "grad_norm": 10.5625,
+      "learning_rate": 3.895493317214051e-06,
+      "loss": 0.8576,
+      "mean_token_accuracy": 0.7920307397842408,
+      "num_tokens": 13284043.0,
+      "step": 11990
+    },
+    {
+      "epoch": 2.4178924037880316,
+      "grad_norm": 11.5,
+      "learning_rate": 3.8820605816374504e-06,
+      "loss": 0.7156,
+      "mean_token_accuracy": 0.8190572082996368,
+      "num_tokens": 13294166.0,
+      "step": 12000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.6084473958017024e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null