End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul23_00-29-17_e063f4f30784/events.out.tfevents.1721696919.e063f4f30784.18221.1 +3 -0
train_results.json +6 -6
trainer_state.json +721 -5

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: tinygpt2-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # tinygpt2-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: tinygpt2-javanese
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.2907324408283162
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # tinygpt2-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 4.6697
+- Accuracy: 0.2907
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 30.0,
-    "eval_accuracy": 0.2786154321383402,
-    "eval_loss": 4.764777183532715,
-    "eval_runtime": 11.4146,
     "eval_samples": 4053,
-    "eval_samples_per_second": 355.07,
-    "eval_steps_per_second": 88.833,
-    "perplexity": 117.30497689511513,
-    "total_flos": 733383917568000.0,
-    "train_loss": 1.6002090492649228,
-    "train_runtime": 2253.0761,
     "train_samples": 80219,
-    "train_samples_per_second": 1068.126,
-    "train_steps_per_second": 66.762
 }

 {
+    "epoch": 40.0,
+    "eval_accuracy": 0.2907324408283162,
+    "eval_loss": 4.6696553230285645,
+    "eval_runtime": 11.8905,
     "eval_samples": 4053,
+    "eval_samples_per_second": 340.862,
+    "eval_steps_per_second": 85.279,
+    "perplexity": 106.66097251496613,
+    "total_flos": 977845223424000.0,
+    "train_loss": 1.1379991389100752,
+    "train_runtime": 2290.6772,
     "train_samples": 80219,
+    "train_samples_per_second": 1400.791,
+    "train_steps_per_second": 87.555
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 30.0,
-    "eval_accuracy": 0.2786154321383402,
-    "eval_loss": 4.764777183532715,
-    "eval_runtime": 11.4146,
     "eval_samples": 4053,
-    "eval_samples_per_second": 355.07,
-    "eval_steps_per_second": 88.833,
-    "perplexity": 117.30497689511513
 }

 {
+    "epoch": 40.0,
+    "eval_accuracy": 0.2907324408283162,
+    "eval_loss": 4.6696553230285645,
+    "eval_runtime": 11.8905,
     "eval_samples": 4053,
+    "eval_samples_per_second": 340.862,
+    "eval_steps_per_second": 85.279,
+    "perplexity": 106.66097251496613
 }

runs/Jul23_00-29-17_e063f4f30784/events.out.tfevents.1721696919.e063f4f30784.18221.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d74593e1c6ce518de7f2f295c25d67ebcd0f4dfde1a024430a44290cb68618a2
+size 417

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 30.0,
-    "total_flos": 733383917568000.0,
-    "train_loss": 1.6002090492649228,
-    "train_runtime": 2253.0761,
     "train_samples": 80219,
-    "train_samples_per_second": 1068.126,
-    "train_steps_per_second": 66.762
 }

 {
+    "epoch": 40.0,
+    "total_flos": 977845223424000.0,
+    "train_loss": 1.1379991389100752,
+    "train_runtime": 2290.6772,
     "train_samples": 80219,
+    "train_samples_per_second": 1400.791,
+    "train_steps_per_second": 87.555
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 30.0,
   "eval_steps": 500,
-  "global_step": 150420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2125,12 +2125,728 @@
       "train_runtime": 2253.0761,
       "train_samples_per_second": 1068.126,
       "train_steps_per_second": 66.762
     }
   ],
   "logging_steps": 500,
-  "max_steps": 150420,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -2144,7 +2860,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 733383917568000.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 40.0,
   "eval_steps": 500,
+  "global_step": 200560,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 2253.0761,
       "train_samples_per_second": 1068.126,
       "train_steps_per_second": 66.762
+    },
+    {
+      "epoch": 30.01595532508975,
+      "grad_norm": 3.4099204540252686,
+      "learning_rate": 4.998005584363782e-05,
+      "loss": 4.671,
+      "step": 150500
+    },
+    {
+      "epoch": 30.11567610690068,
+      "grad_norm": 3.130218029022217,
+      "learning_rate": 4.985540486637415e-05,
+      "loss": 4.6465,
+      "step": 151000
+    },
+    {
+      "epoch": 30.215396888711606,
+      "grad_norm": 3.1219522953033447,
+      "learning_rate": 4.9730753889110494e-05,
+      "loss": 4.6809,
+      "step": 151500
+    },
+    {
+      "epoch": 30.315117670522536,
+      "grad_norm": 3.1578962802886963,
+      "learning_rate": 4.960610291184683e-05,
+      "loss": 4.6582,
+      "step": 152000
+    },
+    {
+      "epoch": 30.414838452333466,
+      "grad_norm": 3.1061723232269287,
+      "learning_rate": 4.948145193458317e-05,
+      "loss": 4.6614,
+      "step": 152500
+    },
+    {
+      "epoch": 30.514559234144397,
+      "grad_norm": 3.1964001655578613,
+      "learning_rate": 4.935680095731951e-05,
+      "loss": 4.6936,
+      "step": 153000
+    },
+    {
+      "epoch": 30.614280015955327,
+      "grad_norm": 3.108321189880371,
+      "learning_rate": 4.9232149980055846e-05,
+      "loss": 4.6881,
+      "step": 153500
+    },
+    {
+      "epoch": 30.714000797766253,
+      "grad_norm": 3.1734015941619873,
+      "learning_rate": 4.910749900279219e-05,
+      "loss": 4.6532,
+      "step": 154000
+    },
+    {
+      "epoch": 30.813721579577184,
+      "grad_norm": 3.293867349624634,
+      "learning_rate": 4.898309732748305e-05,
+      "loss": 4.6614,
+      "step": 154500
+    },
+    {
+      "epoch": 30.913442361388114,
+      "grad_norm": 3.0667290687561035,
+      "learning_rate": 4.885844635021939e-05,
+      "loss": 4.6543,
+      "step": 155000
+    },
+    {
+      "epoch": 31.013163143199044,
+      "grad_norm": 3.084986925125122,
+      "learning_rate": 4.8733795372955726e-05,
+      "loss": 4.6631,
+      "step": 155500
+    },
+    {
+      "epoch": 31.11288392500997,
+      "grad_norm": 3.3350682258605957,
+      "learning_rate": 4.860914439569206e-05,
+      "loss": 4.6084,
+      "step": 156000
+    },
+    {
+      "epoch": 31.2126047068209,
+      "grad_norm": 3.097383737564087,
+      "learning_rate": 4.848474272038293e-05,
+      "loss": 4.6217,
+      "step": 156500
+    },
+    {
+      "epoch": 31.31232548863183,
+      "grad_norm": 3.11267352104187,
+      "learning_rate": 4.836009174311927e-05,
+      "loss": 4.6337,
+      "step": 157000
+    },
+    {
+      "epoch": 31.41204627044276,
+      "grad_norm": 3.318540096282959,
+      "learning_rate": 4.8235440765855605e-05,
+      "loss": 4.637,
+      "step": 157500
+    },
+    {
+      "epoch": 31.51176705225369,
+      "grad_norm": 3.259889841079712,
+      "learning_rate": 4.811078978859194e-05,
+      "loss": 4.6348,
+      "step": 158000
+    },
+    {
+      "epoch": 31.61148783406462,
+      "grad_norm": 3.1023237705230713,
+      "learning_rate": 4.798638811328281e-05,
+      "loss": 4.6179,
+      "step": 158500
+    },
+    {
+      "epoch": 31.71120861587555,
+      "grad_norm": 3.0736587047576904,
+      "learning_rate": 4.786173713601915e-05,
+      "loss": 4.6231,
+      "step": 159000
+    },
+    {
+      "epoch": 31.81092939768648,
+      "grad_norm": 3.019336700439453,
+      "learning_rate": 4.773708615875549e-05,
+      "loss": 4.6274,
+      "step": 159500
+    },
+    {
+      "epoch": 31.910650179497406,
+      "grad_norm": 3.163273334503174,
+      "learning_rate": 4.7612435181491826e-05,
+      "loss": 4.6486,
+      "step": 160000
+    },
+    {
+      "epoch": 32.01037096130834,
+      "grad_norm": 2.973386287689209,
+      "learning_rate": 4.748803350618269e-05,
+      "loss": 4.6158,
+      "step": 160500
+    },
+    {
+      "epoch": 32.11009174311926,
+      "grad_norm": 3.2876758575439453,
+      "learning_rate": 4.736338252891903e-05,
+      "loss": 4.5567,
+      "step": 161000
+    },
+    {
+      "epoch": 32.20981252493019,
+      "grad_norm": 3.2019705772399902,
+      "learning_rate": 4.723898085360989e-05,
+      "loss": 4.5851,
+      "step": 161500
+    },
+    {
+      "epoch": 32.30953330674112,
+      "grad_norm": 3.1916842460632324,
+      "learning_rate": 4.711432987634623e-05,
+      "loss": 4.5754,
+      "step": 162000
+    },
+    {
+      "epoch": 32.40925408855205,
+      "grad_norm": 3.4018754959106445,
+      "learning_rate": 4.6989678899082575e-05,
+      "loss": 4.6011,
+      "step": 162500
+    },
+    {
+      "epoch": 32.508974870362984,
+      "grad_norm": 3.220608949661255,
+      "learning_rate": 4.686502792181891e-05,
+      "loss": 4.5961,
+      "step": 163000
+    },
+    {
+      "epoch": 32.608695652173914,
+      "grad_norm": 3.357311248779297,
+      "learning_rate": 4.674037694455525e-05,
+      "loss": 4.595,
+      "step": 163500
+    },
+    {
+      "epoch": 32.708416433984844,
+      "grad_norm": 3.136885166168213,
+      "learning_rate": 4.6615725967291585e-05,
+      "loss": 4.6206,
+      "step": 164000
+    },
+    {
+      "epoch": 32.808137215795774,
+      "grad_norm": 3.2210259437561035,
+      "learning_rate": 4.649107499002792e-05,
+      "loss": 4.6276,
+      "step": 164500
+    },
+    {
+      "epoch": 32.907857997606705,
+      "grad_norm": 3.152240037918091,
+      "learning_rate": 4.636642401276427e-05,
+      "loss": 4.6193,
+      "step": 165000
+    },
+    {
+      "epoch": 33.00757877941763,
+      "grad_norm": 3.079972505569458,
+      "learning_rate": 4.624202233745512e-05,
+      "loss": 4.605,
+      "step": 165500
+    },
+    {
+      "epoch": 33.10729956122856,
+      "grad_norm": 3.3014163970947266,
+      "learning_rate": 4.6117371360191464e-05,
+      "loss": 4.5538,
+      "step": 166000
+    },
+    {
+      "epoch": 33.20702034303949,
+      "grad_norm": 3.4153923988342285,
+      "learning_rate": 4.5992720382927806e-05,
+      "loss": 4.5645,
+      "step": 166500
+    },
+    {
+      "epoch": 33.30674112485042,
+      "grad_norm": 3.6268794536590576,
+      "learning_rate": 4.586806940566414e-05,
+      "loss": 4.5478,
+      "step": 167000
+    },
+    {
+      "epoch": 33.40646190666135,
+      "grad_norm": 3.0210297107696533,
+      "learning_rate": 4.5743667730355e-05,
+      "loss": 4.5944,
+      "step": 167500
+    },
+    {
+      "epoch": 33.50618268847228,
+      "grad_norm": 3.265434503555298,
+      "learning_rate": 4.561901675309135e-05,
+      "loss": 4.5617,
+      "step": 168000
+    },
+    {
+      "epoch": 33.60590347028321,
+      "grad_norm": 3.1370913982391357,
+      "learning_rate": 4.5494365775827685e-05,
+      "loss": 4.585,
+      "step": 168500
+    },
+    {
+      "epoch": 33.70562425209414,
+      "grad_norm": 3.4594709873199463,
+      "learning_rate": 4.536971479856402e-05,
+      "loss": 4.5721,
+      "step": 169000
+    },
+    {
+      "epoch": 33.80534503390506,
+      "grad_norm": 3.162144899368286,
+      "learning_rate": 4.524531312325489e-05,
+      "loss": 4.6202,
+      "step": 169500
+    },
+    {
+      "epoch": 33.90506581571599,
+      "grad_norm": 3.464153528213501,
+      "learning_rate": 4.512066214599123e-05,
+      "loss": 4.5634,
+      "step": 170000
+    },
+    {
+      "epoch": 34.00478659752692,
+      "grad_norm": 3.2576406002044678,
+      "learning_rate": 4.4996011168727565e-05,
+      "loss": 4.5797,
+      "step": 170500
+    },
+    {
+      "epoch": 34.10450737933785,
+      "grad_norm": 3.270254373550415,
+      "learning_rate": 4.48713601914639e-05,
+      "loss": 4.541,
+      "step": 171000
+    },
+    {
+      "epoch": 34.204228161148784,
+      "grad_norm": 3.1199378967285156,
+      "learning_rate": 4.474695851615477e-05,
+      "loss": 4.5263,
+      "step": 171500
+    },
+    {
+      "epoch": 34.303948942959714,
+      "grad_norm": 3.253614664077759,
+      "learning_rate": 4.46223075388911e-05,
+      "loss": 4.5489,
+      "step": 172000
+    },
+    {
+      "epoch": 34.403669724770644,
+      "grad_norm": 3.2037832736968994,
+      "learning_rate": 4.4497656561627444e-05,
+      "loss": 4.5551,
+      "step": 172500
+    },
+    {
+      "epoch": 34.503390506581574,
+      "grad_norm": 3.099489450454712,
+      "learning_rate": 4.4373005584363786e-05,
+      "loss": 4.5527,
+      "step": 173000
+    },
+    {
+      "epoch": 34.6031112883925,
+      "grad_norm": 3.2268526554107666,
+      "learning_rate": 4.424860390905465e-05,
+      "loss": 4.5489,
+      "step": 173500
+    },
+    {
+      "epoch": 34.70283207020343,
+      "grad_norm": 3.2449424266815186,
+      "learning_rate": 4.412395293179098e-05,
+      "loss": 4.5515,
+      "step": 174000
+    },
+    {
+      "epoch": 34.80255285201436,
+      "grad_norm": 3.177513837814331,
+      "learning_rate": 4.399930195452733e-05,
+      "loss": 4.551,
+      "step": 174500
+    },
+    {
+      "epoch": 34.90227363382529,
+      "grad_norm": 3.1355063915252686,
+      "learning_rate": 4.3874650977263665e-05,
+      "loss": 4.5897,
+      "step": 175000
+    },
+    {
+      "epoch": 35.00199441563622,
+      "grad_norm": 3.0109355449676514,
+      "learning_rate": 4.375024930195453e-05,
+      "loss": 4.5528,
+      "step": 175500
+    },
+    {
+      "epoch": 35.10171519744715,
+      "grad_norm": 3.0925559997558594,
+      "learning_rate": 4.362559832469087e-05,
+      "loss": 4.4931,
+      "step": 176000
+    },
+    {
+      "epoch": 35.20143597925808,
+      "grad_norm": 3.3511645793914795,
+      "learning_rate": 4.350094734742721e-05,
+      "loss": 4.5321,
+      "step": 176500
+    },
+    {
+      "epoch": 35.30115676106901,
+      "grad_norm": 3.2780284881591797,
+      "learning_rate": 4.3376296370163545e-05,
+      "loss": 4.5354,
+      "step": 177000
+    },
+    {
+      "epoch": 35.40087754287994,
+      "grad_norm": 3.305748224258423,
+      "learning_rate": 4.3251894694854414e-05,
+      "loss": 4.5359,
+      "step": 177500
+    },
+    {
+      "epoch": 35.50059832469086,
+      "grad_norm": 3.3514251708984375,
+      "learning_rate": 4.312724371759075e-05,
+      "loss": 4.5107,
+      "step": 178000
+    },
+    {
+      "epoch": 35.60031910650179,
+      "grad_norm": 3.582073211669922,
+      "learning_rate": 4.300259274032708e-05,
+      "loss": 4.5671,
+      "step": 178500
+    },
+    {
+      "epoch": 35.70003988831272,
+      "grad_norm": 3.216836929321289,
+      "learning_rate": 4.2877941763063424e-05,
+      "loss": 4.555,
+      "step": 179000
+    },
+    {
+      "epoch": 35.79976067012365,
+      "grad_norm": 3.314234495162964,
+      "learning_rate": 4.275354008775429e-05,
+      "loss": 4.5135,
+      "step": 179500
+    },
+    {
+      "epoch": 35.899481451934584,
+      "grad_norm": 3.3673787117004395,
+      "learning_rate": 4.262888911049063e-05,
+      "loss": 4.5517,
+      "step": 180000
+    },
+    {
+      "epoch": 35.999202233745514,
+      "grad_norm": 3.159799814224243,
+      "learning_rate": 4.250423813322696e-05,
+      "loss": 4.534,
+      "step": 180500
+    },
+    {
+      "epoch": 36.098923015556444,
+      "grad_norm": 3.5018651485443115,
+      "learning_rate": 4.237958715596331e-05,
+      "loss": 4.5052,
+      "step": 181000
+    },
+    {
+      "epoch": 36.198643797367374,
+      "grad_norm": 3.127002239227295,
+      "learning_rate": 4.2255185480654166e-05,
+      "loss": 4.4988,
+      "step": 181500
+    },
+    {
+      "epoch": 36.2983645791783,
+      "grad_norm": 3.4011449813842773,
+      "learning_rate": 4.213053450339051e-05,
+      "loss": 4.4995,
+      "step": 182000
+    },
+    {
+      "epoch": 36.39808536098923,
+      "grad_norm": 3.3019766807556152,
+      "learning_rate": 4.200588352612685e-05,
+      "loss": 4.4966,
+      "step": 182500
+    },
+    {
+      "epoch": 36.49780614280016,
+      "grad_norm": 3.263709545135498,
+      "learning_rate": 4.188123254886318e-05,
+      "loss": 4.5205,
+      "step": 183000
+    },
+    {
+      "epoch": 36.59752692461109,
+      "grad_norm": 3.4110920429229736,
+      "learning_rate": 4.1756830873554045e-05,
+      "loss": 4.5287,
+      "step": 183500
+    },
+    {
+      "epoch": 36.69724770642202,
+      "grad_norm": 3.379786729812622,
+      "learning_rate": 4.1632179896290393e-05,
+      "loss": 4.5255,
+      "step": 184000
+    },
+    {
+      "epoch": 36.79696848823295,
+      "grad_norm": 3.21069073677063,
+      "learning_rate": 4.150752891902673e-05,
+      "loss": 4.5143,
+      "step": 184500
+    },
+    {
+      "epoch": 36.89668927004388,
+      "grad_norm": 3.2103688716888428,
+      "learning_rate": 4.138287794176306e-05,
+      "loss": 4.5236,
+      "step": 185000
+    },
+    {
+      "epoch": 36.99641005185481,
+      "grad_norm": 3.1441774368286133,
+      "learning_rate": 4.125847626645393e-05,
+      "loss": 4.5418,
+      "step": 185500
+    },
+    {
+      "epoch": 37.09613083366573,
+      "grad_norm": 3.385601043701172,
+      "learning_rate": 4.113382528919027e-05,
+      "loss": 4.4761,
+      "step": 186000
+    },
+    {
+      "epoch": 37.19585161547666,
+      "grad_norm": 3.280444383621216,
+      "learning_rate": 4.100917431192661e-05,
+      "loss": 4.4938,
+      "step": 186500
+    },
+    {
+      "epoch": 37.29557239728759,
+      "grad_norm": 3.104619026184082,
+      "learning_rate": 4.088452333466294e-05,
+      "loss": 4.4833,
+      "step": 187000
+    },
+    {
+      "epoch": 37.39529317909852,
+      "grad_norm": 3.2329983711242676,
+      "learning_rate": 4.076012165935381e-05,
+      "loss": 4.494,
+      "step": 187500
+    },
+    {
+      "epoch": 37.49501396090945,
+      "grad_norm": 3.4772567749023438,
+      "learning_rate": 4.0635470682090146e-05,
+      "loss": 4.5045,
+      "step": 188000
+    },
+    {
+      "epoch": 37.594734742720384,
+      "grad_norm": 3.395953416824341,
+      "learning_rate": 4.051081970482649e-05,
+      "loss": 4.5083,
+      "step": 188500
+    },
+    {
+      "epoch": 37.694455524531314,
+      "grad_norm": 3.3525466918945312,
+      "learning_rate": 4.038616872756283e-05,
+      "loss": 4.4781,
+      "step": 189000
+    },
+    {
+      "epoch": 37.794176306342244,
+      "grad_norm": 3.308446168899536,
+      "learning_rate": 4.026176705225369e-05,
+      "loss": 4.5099,
+      "step": 189500
+    },
+    {
+      "epoch": 37.893897088153174,
+      "grad_norm": 3.25447940826416,
+      "learning_rate": 4.0137116074990025e-05,
+      "loss": 4.5189,
+      "step": 190000
+    },
+    {
+      "epoch": 37.9936178699641,
+      "grad_norm": 3.4862465858459473,
+      "learning_rate": 4.001246509772637e-05,
+      "loss": 4.5157,
+      "step": 190500
+    },
+    {
+      "epoch": 38.09333865177503,
+      "grad_norm": 3.549028158187866,
+      "learning_rate": 3.988781412046271e-05,
+      "loss": 4.4673,
+      "step": 191000
+    },
+    {
+      "epoch": 38.19305943358596,
+      "grad_norm": 3.362783670425415,
+      "learning_rate": 3.976341244515357e-05,
+      "loss": 4.4716,
+      "step": 191500
+    },
+    {
+      "epoch": 38.29278021539689,
+      "grad_norm": 3.235966205596924,
+      "learning_rate": 3.963876146788991e-05,
+      "loss": 4.4923,
+      "step": 192000
+    },
+    {
+      "epoch": 38.39250099720782,
+      "grad_norm": 3.627629518508911,
+      "learning_rate": 3.951411049062625e-05,
+      "loss": 4.5132,
+      "step": 192500
+    },
+    {
+      "epoch": 38.49222177901875,
+      "grad_norm": 3.3382019996643066,
+      "learning_rate": 3.938945951336259e-05,
+      "loss": 4.4827,
+      "step": 193000
+    },
+    {
+      "epoch": 38.59194256082968,
+      "grad_norm": 3.363459587097168,
+      "learning_rate": 3.9265057838053456e-05,
+      "loss": 4.4661,
+      "step": 193500
+    },
+    {
+      "epoch": 38.69166334264061,
+      "grad_norm": 3.1365175247192383,
+      "learning_rate": 3.914040686078979e-05,
+      "loss": 4.5025,
+      "step": 194000
+    },
+    {
+      "epoch": 38.79138412445153,
+      "grad_norm": 3.4474666118621826,
+      "learning_rate": 3.9015755883526125e-05,
+      "loss": 4.4787,
+      "step": 194500
+    },
+    {
+      "epoch": 38.89110490626246,
+      "grad_norm": 3.3024516105651855,
+      "learning_rate": 3.889110490626247e-05,
+      "loss": 4.4861,
+      "step": 195000
+    },
+    {
+      "epoch": 38.99082568807339,
+      "grad_norm": 3.238717555999756,
+      "learning_rate": 3.8766703230953336e-05,
+      "loss": 4.4912,
+      "step": 195500
+    },
+    {
+      "epoch": 39.09054646988432,
+      "grad_norm": 3.4745333194732666,
+      "learning_rate": 3.864205225368967e-05,
+      "loss": 4.4664,
+      "step": 196000
+    },
+    {
+      "epoch": 39.19026725169525,
+      "grad_norm": 3.440810441970825,
+      "learning_rate": 3.8517401276426005e-05,
+      "loss": 4.4892,
+      "step": 196500
+    },
+    {
+      "epoch": 39.289988033506184,
+      "grad_norm": 3.4101953506469727,
+      "learning_rate": 3.839275029916235e-05,
+      "loss": 4.4537,
+      "step": 197000
+    },
+    {
+      "epoch": 39.389708815317114,
+      "grad_norm": 3.3550708293914795,
+      "learning_rate": 3.826834862385321e-05,
+      "loss": 4.4677,
+      "step": 197500
+    },
+    {
+      "epoch": 39.489429597128044,
+      "grad_norm": 3.289698600769043,
+      "learning_rate": 3.814369764658955e-05,
+      "loss": 4.4651,
+      "step": 198000
+    },
+    {
+      "epoch": 39.58915037893897,
+      "grad_norm": 3.1596176624298096,
+      "learning_rate": 3.801904666932589e-05,
+      "loss": 4.4701,
+      "step": 198500
+    },
+    {
+      "epoch": 39.6888711607499,
+      "grad_norm": 3.2771639823913574,
+      "learning_rate": 3.7894395692062226e-05,
+      "loss": 4.4671,
+      "step": 199000
+    },
+    {
+      "epoch": 39.78859194256083,
+      "grad_norm": 3.5630061626434326,
+      "learning_rate": 3.776999401675309e-05,
+      "loss": 4.4655,
+      "step": 199500
+    },
+    {
+      "epoch": 39.88831272437176,
+      "grad_norm": 3.4128897190093994,
+      "learning_rate": 3.7645343039489436e-05,
+      "loss": 4.4844,
+      "step": 200000
+    },
+    {
+      "epoch": 39.98803350618269,
+      "grad_norm": 3.294849395751953,
+      "learning_rate": 3.752069206222577e-05,
+      "loss": 4.4722,
+      "step": 200500
+    },
+    {
+      "epoch": 40.0,
+      "step": 200560,
+      "total_flos": 977845223424000.0,
+      "train_loss": 1.1379991389100752,
+      "train_runtime": 2290.6772,
+      "train_samples_per_second": 1400.791,
+      "train_steps_per_second": 87.555
     }
   ],
   "logging_steps": 500,
+  "max_steps": 200560,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 977845223424000.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null