Training in progress, step 11000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cc6d2ac14b136a0c5c39d3842c8290195765d0231c31019222880ab2ada323a
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:653a7bb4c0270ae2dd03d344965c51599b26df08817400d9611fe8bd0497aa7e
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6c4e658acbdc5e0bc6eda245ab297a40c16a3c1814b13d63c1d7cae82962a95
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:49ab3488ed04a08a6119dd62c223dc3bd691b1d8c04575c9d55a422631b4cec4
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f1b6e95985cf829ad61f7f680a73f323339cc556ff96e0fd4cb8e86a2237898
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:a92df46ff7ec03358cd9241260e8a718523df24a66e616bac3dad8000c153e0c
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.1156558533145273,
   "eval_steps": 500,
-  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9458,6 +9458,456 @@
       "mean_token_accuracy": 0.807522964477539,
       "num_tokens": 11623915.0,
       "step": 10500
     }
   ],
   "logging_steps": 10,
@@ -9477,7 +9927,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4062792370479104e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.216401370139029,
   "eval_steps": 500,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.807522964477539,
       "num_tokens": 11623915.0,
       "step": 10500
+    },
+    {
+      "epoch": 2.1176707636510175,
+      "grad_norm": 10.1875,
+      "learning_rate": 5.8835381825508775e-06,
+      "loss": 0.8048,
+      "mean_token_accuracy": 0.8046258687973022,
+      "num_tokens": 11634260.0,
+      "step": 10510
+    },
+    {
+      "epoch": 2.1196856739875076,
+      "grad_norm": 8.875,
+      "learning_rate": 5.870105446974277e-06,
+      "loss": 0.8054,
+      "mean_token_accuracy": 0.7993561148643493,
+      "num_tokens": 11644984.0,
+      "step": 10520
+    },
+    {
+      "epoch": 2.1217005843239978,
+      "grad_norm": 11.1875,
+      "learning_rate": 5.856672711397676e-06,
+      "loss": 0.7494,
+      "mean_token_accuracy": 0.8139807939529419,
+      "num_tokens": 11656539.0,
+      "step": 10530
+    },
+    {
+      "epoch": 2.1237154946604875,
+      "grad_norm": 8.5,
+      "learning_rate": 5.8432399758210765e-06,
+      "loss": 0.7947,
+      "mean_token_accuracy": 0.8058351814746857,
+      "num_tokens": 11667616.0,
+      "step": 10540
+    },
+    {
+      "epoch": 2.1257304049969776,
+      "grad_norm": 13.625,
+      "learning_rate": 5.829807240244476e-06,
+      "loss": 0.7885,
+      "mean_token_accuracy": 0.8079341351985931,
+      "num_tokens": 11678470.0,
+      "step": 10550
+    },
+    {
+      "epoch": 2.127745315333468,
+      "grad_norm": 10.25,
+      "learning_rate": 5.816374504667877e-06,
+      "loss": 0.733,
+      "mean_token_accuracy": 0.8124136865139008,
+      "num_tokens": 11690615.0,
+      "step": 10560
+    },
+    {
+      "epoch": 2.1297602256699575,
+      "grad_norm": 12.9375,
+      "learning_rate": 5.802941769091276e-06,
+      "loss": 0.8069,
+      "mean_token_accuracy": 0.7959172546863555,
+      "num_tokens": 11700806.0,
+      "step": 10570
+    },
+    {
+      "epoch": 2.1317751360064476,
+      "grad_norm": 12.125,
+      "learning_rate": 5.789509033514675e-06,
+      "loss": 0.7666,
+      "mean_token_accuracy": 0.8081447660923005,
+      "num_tokens": 11712546.0,
+      "step": 10580
+    },
+    {
+      "epoch": 2.133790046342938,
+      "grad_norm": 14.8125,
+      "learning_rate": 5.776076297938076e-06,
+      "loss": 0.7609,
+      "mean_token_accuracy": 0.8059535026550293,
+      "num_tokens": 11722798.0,
+      "step": 10590
+    },
+    {
+      "epoch": 2.135804956679428,
+      "grad_norm": 12.0,
+      "learning_rate": 5.7626435623614755e-06,
+      "loss": 0.8261,
+      "mean_token_accuracy": 0.7918490886688232,
+      "num_tokens": 11733979.0,
+      "step": 10600
+    },
+    {
+      "epoch": 2.1378198670159176,
+      "grad_norm": 10.6875,
+      "learning_rate": 5.749210826784876e-06,
+      "loss": 0.8653,
+      "mean_token_accuracy": 0.7918577075004578,
+      "num_tokens": 11746313.0,
+      "step": 10610
+    },
+    {
+      "epoch": 2.139834777352408,
+      "grad_norm": 13.8125,
+      "learning_rate": 5.735778091208275e-06,
+      "loss": 0.7597,
+      "mean_token_accuracy": 0.8129185199737549,
+      "num_tokens": 11756847.0,
+      "step": 10620
+    },
+    {
+      "epoch": 2.141849687688898,
+      "grad_norm": 11.3125,
+      "learning_rate": 5.7223453556316745e-06,
+      "loss": 0.8895,
+      "mean_token_accuracy": 0.7831692516803741,
+      "num_tokens": 11768092.0,
+      "step": 10630
+    },
+    {
+      "epoch": 2.143864598025388,
+      "grad_norm": 9.75,
+      "learning_rate": 5.708912620055075e-06,
+      "loss": 0.8293,
+      "mean_token_accuracy": 0.7959823906421661,
+      "num_tokens": 11779092.0,
+      "step": 10640
+    },
+    {
+      "epoch": 2.145879508361878,
+      "grad_norm": 13.625,
+      "learning_rate": 5.695479884478474e-06,
+      "loss": 0.7806,
+      "mean_token_accuracy": 0.8032085597515106,
+      "num_tokens": 11789301.0,
+      "step": 10650
+    },
+    {
+      "epoch": 2.147894418698368,
+      "grad_norm": 10.25,
+      "learning_rate": 5.6820471489018744e-06,
+      "loss": 0.7285,
+      "mean_token_accuracy": 0.8135238766670227,
+      "num_tokens": 11799827.0,
+      "step": 10660
+    },
+    {
+      "epoch": 2.149909329034858,
+      "grad_norm": 11.75,
+      "learning_rate": 5.668614413325274e-06,
+      "loss": 0.8109,
+      "mean_token_accuracy": 0.8031542479991913,
+      "num_tokens": 11810095.0,
+      "step": 10670
+    },
+    {
+      "epoch": 2.151924239371348,
+      "grad_norm": 10.9375,
+      "learning_rate": 5.655181677748674e-06,
+      "loss": 0.8062,
+      "mean_token_accuracy": 0.7998530924320221,
+      "num_tokens": 11821701.0,
+      "step": 10680
+    },
+    {
+      "epoch": 2.153939149707838,
+      "grad_norm": 16.25,
+      "learning_rate": 5.641748942172074e-06,
+      "loss": 0.7909,
+      "mean_token_accuracy": 0.8020996809005737,
+      "num_tokens": 11833622.0,
+      "step": 10690
+    },
+    {
+      "epoch": 2.155954060044328,
+      "grad_norm": 11.6875,
+      "learning_rate": 5.628316206595473e-06,
+      "loss": 0.8753,
+      "mean_token_accuracy": 0.7875764667987823,
+      "num_tokens": 11844025.0,
+      "step": 10700
+    },
+    {
+      "epoch": 2.1579689703808183,
+      "grad_norm": 15.1875,
+      "learning_rate": 5.614883471018874e-06,
+      "loss": 0.8975,
+      "mean_token_accuracy": 0.7894319653511047,
+      "num_tokens": 11855329.0,
+      "step": 10710
+    },
+    {
+      "epoch": 2.159983880717308,
+      "grad_norm": 12.1875,
+      "learning_rate": 5.601450735442273e-06,
+      "loss": 0.847,
+      "mean_token_accuracy": 0.7901701211929322,
+      "num_tokens": 11866697.0,
+      "step": 10720
+    },
+    {
+      "epoch": 2.161998791053798,
+      "grad_norm": 12.3125,
+      "learning_rate": 5.588017999865674e-06,
+      "loss": 0.8007,
+      "mean_token_accuracy": 0.805288553237915,
+      "num_tokens": 11877358.0,
+      "step": 10730
+    },
+    {
+      "epoch": 2.1640137013902883,
+      "grad_norm": 11.375,
+      "learning_rate": 5.574585264289073e-06,
+      "loss": 0.8334,
+      "mean_token_accuracy": 0.8021558821201324,
+      "num_tokens": 11888098.0,
+      "step": 10740
+    },
+    {
+      "epoch": 2.166028611726778,
+      "grad_norm": 10.1875,
+      "learning_rate": 5.561152528712472e-06,
+      "loss": 0.7298,
+      "mean_token_accuracy": 0.8173341572284698,
+      "num_tokens": 11900343.0,
+      "step": 10750
+    },
+    {
+      "epoch": 2.168043522063268,
+      "grad_norm": 11.875,
+      "learning_rate": 5.547719793135873e-06,
+      "loss": 0.7146,
+      "mean_token_accuracy": 0.8224671244621277,
+      "num_tokens": 11911403.0,
+      "step": 10760
+    },
+    {
+      "epoch": 2.1700584323997583,
+      "grad_norm": 12.125,
+      "learning_rate": 5.534287057559273e-06,
+      "loss": 0.8245,
+      "mean_token_accuracy": 0.7936823606491089,
+      "num_tokens": 11922991.0,
+      "step": 10770
+    },
+    {
+      "epoch": 2.1720733427362484,
+      "grad_norm": 10.9375,
+      "learning_rate": 5.520854321982672e-06,
+      "loss": 0.8443,
+      "mean_token_accuracy": 0.788495534658432,
+      "num_tokens": 11934105.0,
+      "step": 10780
+    },
+    {
+      "epoch": 2.174088253072738,
+      "grad_norm": 14.3125,
+      "learning_rate": 5.507421586406072e-06,
+      "loss": 0.8389,
+      "mean_token_accuracy": 0.7919258952140809,
+      "num_tokens": 11944878.0,
+      "step": 10790
+    },
+    {
+      "epoch": 2.1761031634092283,
+      "grad_norm": 10.8125,
+      "learning_rate": 5.493988850829472e-06,
+      "loss": 0.8987,
+      "mean_token_accuracy": 0.7812518179416656,
+      "num_tokens": 11956600.0,
+      "step": 10800
+    },
+    {
+      "epoch": 2.1781180737457184,
+      "grad_norm": 11.625,
+      "learning_rate": 5.480556115252872e-06,
+      "loss": 0.8744,
+      "mean_token_accuracy": 0.7875288486480713,
+      "num_tokens": 11966645.0,
+      "step": 10810
+    },
+    {
+      "epoch": 2.180132984082208,
+      "grad_norm": 11.1875,
+      "learning_rate": 5.467123379676271e-06,
+      "loss": 0.7598,
+      "mean_token_accuracy": 0.8071795523166656,
+      "num_tokens": 11977516.0,
+      "step": 10820
+    },
+    {
+      "epoch": 2.1821478944186983,
+      "grad_norm": 11.125,
+      "learning_rate": 5.4536906440996716e-06,
+      "loss": 0.7946,
+      "mean_token_accuracy": 0.7999853491783142,
+      "num_tokens": 11987823.0,
+      "step": 10830
+    },
+    {
+      "epoch": 2.1841628047551884,
+      "grad_norm": 9.9375,
+      "learning_rate": 5.440257908523071e-06,
+      "loss": 0.7951,
+      "mean_token_accuracy": 0.8064453899860382,
+      "num_tokens": 11999675.0,
+      "step": 10840
+    },
+    {
+      "epoch": 2.1861777150916786,
+      "grad_norm": 10.0,
+      "learning_rate": 5.42682517294647e-06,
+      "loss": 0.8071,
+      "mean_token_accuracy": 0.7993614792823791,
+      "num_tokens": 12010690.0,
+      "step": 10850
+    },
+    {
+      "epoch": 2.1881926254281683,
+      "grad_norm": 11.625,
+      "learning_rate": 5.413392437369871e-06,
+      "loss": 0.8318,
+      "mean_token_accuracy": 0.7873802423477173,
+      "num_tokens": 12021657.0,
+      "step": 10860
+    },
+    {
+      "epoch": 2.1902075357646584,
+      "grad_norm": 10.9375,
+      "learning_rate": 5.39995970179327e-06,
+      "loss": 0.8989,
+      "mean_token_accuracy": 0.7851345241069794,
+      "num_tokens": 12033302.0,
+      "step": 10870
+    },
+    {
+      "epoch": 2.1922224461011486,
+      "grad_norm": 10.9375,
+      "learning_rate": 5.386526966216671e-06,
+      "loss": 0.7589,
+      "mean_token_accuracy": 0.805691534280777,
+      "num_tokens": 12043229.0,
+      "step": 10880
+    },
+    {
+      "epoch": 2.1942373564376387,
+      "grad_norm": 11.9375,
+      "learning_rate": 5.3730942306400705e-06,
+      "loss": 0.8026,
+      "mean_token_accuracy": 0.8073262214660645,
+      "num_tokens": 12052950.0,
+      "step": 10890
+    },
+    {
+      "epoch": 2.1962522667741284,
+      "grad_norm": 11.0,
+      "learning_rate": 5.359661495063471e-06,
+      "loss": 0.8301,
+      "mean_token_accuracy": 0.7973912358283997,
+      "num_tokens": 12063314.0,
+      "step": 10900
+    },
+    {
+      "epoch": 2.1982671771106186,
+      "grad_norm": 11.5625,
+      "learning_rate": 5.34622875948687e-06,
+      "loss": 0.7227,
+      "mean_token_accuracy": 0.8158142805099488,
+      "num_tokens": 12074240.0,
+      "step": 10910
+    },
+    {
+      "epoch": 2.2002820874471087,
+      "grad_norm": 10.9375,
+      "learning_rate": 5.3327960239102695e-06,
+      "loss": 0.7952,
+      "mean_token_accuracy": 0.8007366359233856,
+      "num_tokens": 12086925.0,
+      "step": 10920
+    },
+    {
+      "epoch": 2.2022969977835984,
+      "grad_norm": 12.6875,
+      "learning_rate": 5.31936328833367e-06,
+      "loss": 0.9782,
+      "mean_token_accuracy": 0.7690042972564697,
+      "num_tokens": 12098664.0,
+      "step": 10930
+    },
+    {
+      "epoch": 2.2043119081200886,
+      "grad_norm": 10.375,
+      "learning_rate": 5.305930552757069e-06,
+      "loss": 0.8007,
+      "mean_token_accuracy": 0.8038599193096161,
+      "num_tokens": 12109170.0,
+      "step": 10940
+    },
+    {
+      "epoch": 2.2063268184565787,
+      "grad_norm": 11.5,
+      "learning_rate": 5.2924978171804694e-06,
+      "loss": 0.752,
+      "mean_token_accuracy": 0.8126667857170105,
+      "num_tokens": 12120379.0,
+      "step": 10950
+    },
+    {
+      "epoch": 2.208341728793069,
+      "grad_norm": 10.0625,
+      "learning_rate": 5.279065081603869e-06,
+      "loss": 0.8548,
+      "mean_token_accuracy": 0.793574595451355,
+      "num_tokens": 12132062.0,
+      "step": 10960
+    },
+    {
+      "epoch": 2.2103566391295586,
+      "grad_norm": 12.1875,
+      "learning_rate": 5.265632346027269e-06,
+      "loss": 0.7465,
+      "mean_token_accuracy": 0.8148365259170532,
+      "num_tokens": 12143111.0,
+      "step": 10970
+    },
+    {
+      "epoch": 2.2123715494660487,
+      "grad_norm": 11.3125,
+      "learning_rate": 5.252199610450669e-06,
+      "loss": 0.822,
+      "mean_token_accuracy": 0.7944930195808411,
+      "num_tokens": 12155572.0,
+      "step": 10980
+    },
+    {
+      "epoch": 2.214386459802539,
+      "grad_norm": 10.9375,
+      "learning_rate": 5.238766874874068e-06,
+      "loss": 0.9171,
+      "mean_token_accuracy": 0.7774474084377289,
+      "num_tokens": 12167871.0,
+      "step": 10990
+    },
+    {
+      "epoch": 2.216401370139029,
+      "grad_norm": 12.9375,
+      "learning_rate": 5.225334139297469e-06,
+      "loss": 0.9178,
+      "mean_token_accuracy": 0.7765659749507904,
+      "num_tokens": 12178091.0,
+      "step": 11000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.4726200960407552e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null