Upload README

Browse files

Files changed (6) hide show

all_results.json +13 -0
eval_results.json +8 -0
pytorch_model.bin +1 -1
train_results.json +8 -0
trainer_state.json +392 -218
training_args.bin +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 2.0,
+    "eval_loss": 2.286931276321411,
+    "eval_runtime": 121.01,
+    "eval_samples": 5228,
+    "eval_samples_per_second": 43.203,
+    "eval_steps_per_second": 21.602,
+    "train_loss": 2.9576020691869225,
+    "train_runtime": 16825.8656,
+    "train_samples": 99321,
+    "train_samples_per_second": 11.806,
+    "train_steps_per_second": 2.952
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "eval_loss": 2.286931276321411,
+    "eval_runtime": 121.01,
+    "eval_samples": 5228,
+    "eval_samples_per_second": 43.203,
+    "eval_steps_per_second": 21.602
+}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c5036386ed4486f3a87fabf078bfcee668492da9ecf76d8ecd26ad952712a88
 size 569345883

 version https://git-lfs.github.com/spec/v1
+oid sha256:574d66414db540453e6bc81cf0f6ca56a15bba602d0ade8b8e7cb1bb7455ad38
 size 569345883

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "train_loss": 2.9576020691869225,
+    "train_runtime": 16825.8656,
+    "train_samples": 99321,
+    "train_samples_per_second": 11.806,
+    "train_steps_per_second": 2.952
+}

trainer_state.json CHANGED Viewed

@@ -2,444 +2,618 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 2.0,
-  "global_step": 35296,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03,
-      "learning_rate": 4.9291704442429735e-05,
-      "loss": 3.9687,
       "step": 500
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 4.8583408884859475e-05,
-      "loss": 3.5426,
       "step": 1000
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 4.7875113327289215e-05,
-      "loss": 3.4562,
       "step": 1500
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 4.7166817769718955e-05,
-      "loss": 3.3986,
       "step": 2000
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 4.645852221214869e-05,
-      "loss": 3.321,
       "step": 2500
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.575022665457843e-05,
-      "loss": 3.2887,
       "step": 3000
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.504193109700816e-05,
-      "loss": 3.2784,
       "step": 3500
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 4.43336355394379e-05,
-      "loss": 3.243,
       "step": 4000
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.3625339981867633e-05,
-      "loss": 3.2217,
       "step": 4500
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 4.291704442429737e-05,
-      "loss": 3.2126,
       "step": 5000
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 4.220874886672711e-05,
-      "loss": 3.1933,
       "step": 5500
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 4.1500453309156846e-05,
-      "loss": 3.1519,
       "step": 6000
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 4.0792157751586586e-05,
-      "loss": 3.1423,
       "step": 6500
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 4.008386219401632e-05,
-      "loss": 3.1616,
       "step": 7000
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.937556663644606e-05,
-      "loss": 3.1374,
       "step": 7500
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 3.866727107887579e-05,
-      "loss": 3.1439,
       "step": 8000
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 3.795897552130553e-05,
-      "loss": 3.1552,
       "step": 8500
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 3.725067996373527e-05,
-      "loss": 3.0956,
       "step": 9000
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 3.654238440616501e-05,
-      "loss": 3.1429,
       "step": 9500
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 3.5834088848594744e-05,
-      "loss": 3.0959,
       "step": 10000
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 3.512579329102448e-05,
-      "loss": 3.1437,
       "step": 10500
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 3.441749773345422e-05,
-      "loss": 3.1038,
       "step": 11000
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 3.370920217588395e-05,
-      "loss": 3.0563,
       "step": 11500
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 3.300090661831369e-05,
-      "loss": 3.1094,
       "step": 12000
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 3.229261106074343e-05,
-      "loss": 3.079,
       "step": 12500
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 3.158431550317317e-05,
-      "loss": 3.0192,
       "step": 13000
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 3.08760199456029e-05,
-      "loss": 3.0335,
       "step": 13500
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 3.0167724388032642e-05,
-      "loss": 3.0375,
       "step": 14000
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 2.9459428830462375e-05,
-      "loss": 3.0548,
       "step": 14500
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 2.875113327289211e-05,
-      "loss": 3.0579,
       "step": 15000
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 2.804283771532185e-05,
-      "loss": 3.0377,
       "step": 15500
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 2.7334542157751584e-05,
-      "loss": 3.0029,
       "step": 16000
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 2.6626246600181327e-05,
-      "loss": 3.082,
       "step": 16500
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 2.591795104261106e-05,
-      "loss": 3.0316,
       "step": 17000
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 2.52096554850408e-05,
-      "loss": 3.0272,
       "step": 17500
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 2.4501359927470537e-05,
-      "loss": 2.9704,
       "step": 18000
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 2.3793064369900273e-05,
       "loss": 2.9398,
       "step": 18500
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 2.308476881233001e-05,
-      "loss": 3.0102,
       "step": 19000
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 2.2376473254759746e-05,
-      "loss": 2.985,
       "step": 19500
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 2.1668177697189486e-05,
-      "loss": 3.0293,
       "step": 20000
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 2.0959882139619222e-05,
-      "loss": 2.9974,
       "step": 20500
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 2.025158658204896e-05,
-      "loss": 2.9523,
       "step": 21000
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 1.9543291024478695e-05,
-      "loss": 2.9656,
       "step": 21500
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 1.883499546690843e-05,
-      "loss": 2.9834,
       "step": 22000
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 1.8126699909338168e-05,
-      "loss": 2.9476,
       "step": 22500
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 1.7418404351767904e-05,
-      "loss": 2.9707,
       "step": 23000
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 1.6710108794197644e-05,
-      "loss": 2.9315,
       "step": 23500
     },
     {
-      "epoch": 1.36,
-      "learning_rate": 1.600181323662738e-05,
-      "loss": 2.9589,
       "step": 24000
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 1.5293517679057117e-05,
-      "loss": 2.9504,
       "step": 24500
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 1.4585222121486855e-05,
-      "loss": 2.8795,
       "step": 25000
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 1.3876926563916593e-05,
-      "loss": 2.9312,
       "step": 25500
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 1.316863100634633e-05,
-      "loss": 2.9276,
       "step": 26000
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 1.2460335448776066e-05,
-      "loss": 2.9743,
       "step": 26500
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 1.1752039891205802e-05,
-      "loss": 2.9138,
       "step": 27000
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 1.104374433363554e-05,
-      "loss": 2.9842,
       "step": 27500
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 1.0335448776065278e-05,
-      "loss": 2.9718,
       "step": 28000
     },
     {
-      "epoch": 1.61,
-      "learning_rate": 9.627153218495013e-06,
-      "loss": 2.9959,
       "step": 28500
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 8.918857660924751e-06,
-      "loss": 2.9564,
       "step": 29000
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 8.210562103354488e-06,
-      "loss": 2.9187,
       "step": 29500
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 7.502266545784226e-06,
-      "loss": 2.9494,
       "step": 30000
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 6.793970988213963e-06,
-      "loss": 2.9408,
       "step": 30500
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 6.085675430643699e-06,
-      "loss": 2.9102,
       "step": 31000
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 5.377379873073437e-06,
-      "loss": 2.9376,
       "step": 31500
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 4.669084315503174e-06,
-      "loss": 2.8849,
       "step": 32000
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 3.96078875793291e-06,
-      "loss": 2.9623,
       "step": 32500
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 3.2524932003626475e-06,
-      "loss": 2.9852,
       "step": 33000
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 2.5441976427923843e-06,
-      "loss": 2.9666,
       "step": 33500
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 1.8359020852221214e-06,
-      "loss": 2.9323,
       "step": 34000
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 1.1276065276518586e-06,
-      "loss": 2.919,
       "step": 34500
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 4.1931097008159573e-07,
-      "loss": 2.9249,
       "step": 35000
     },
     {
       "epoch": 2.0,
-      "step": 35296,
-      "total_flos": 5.166178510204109e+16,
-      "train_loss": 3.064913959797144,
-      "train_runtime": 12676.5747,
-      "train_samples_per_second": 11.137,
-      "train_steps_per_second": 2.784
     }
   ],
-  "max_steps": 35296,
   "num_train_epochs": 2,
-  "total_flos": 5.166178510204109e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 2.0,
+  "global_step": 49662,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 4.9496596995690874e-05,
+      "loss": 4.191,
       "step": 500
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 4.899319399138174e-05,
+      "loss": 3.6438,
       "step": 1000
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 4.848979098707262e-05,
+      "loss": 3.5004,
       "step": 1500
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 4.798638798276348e-05,
+      "loss": 3.4531,
       "step": 2000
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.748298497845435e-05,
+      "loss": 3.3538,
       "step": 2500
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 4.6979581974145225e-05,
+      "loss": 3.306,
       "step": 3000
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.6476178969836096e-05,
+      "loss": 3.3472,
       "step": 3500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 4.597277596552697e-05,
+      "loss": 3.27,
       "step": 4000
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 4.546937296121783e-05,
+      "loss": 3.2383,
       "step": 4500
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 4.4965969956908704e-05,
+      "loss": 3.267,
       "step": 5000
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 4.4462566952599575e-05,
+      "loss": 3.1768,
       "step": 5500
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 4.395916394829045e-05,
+      "loss": 3.2163,
       "step": 6000
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 4.345576094398132e-05,
+      "loss": 3.1776,
       "step": 6500
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 4.295235793967219e-05,
+      "loss": 3.1992,
       "step": 7000
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 4.2448954935363055e-05,
+      "loss": 3.1558,
       "step": 7500
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 4.1945551931053926e-05,
+      "loss": 3.1966,
       "step": 8000
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 4.14421489267448e-05,
+      "loss": 3.0803,
       "step": 8500
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 4.093874592243567e-05,
+      "loss": 3.1247,
       "step": 9000
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 4.043534291812654e-05,
+      "loss": 3.07,
       "step": 9500
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 3.9931939913817405e-05,
+      "loss": 3.0711,
       "step": 10000
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 3.942853690950828e-05,
+      "loss": 3.0956,
       "step": 10500
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 3.892513390519915e-05,
+      "loss": 3.0501,
       "step": 11000
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 3.842173090089002e-05,
+      "loss": 3.0939,
       "step": 11500
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 3.791832789658089e-05,
+      "loss": 3.0085,
       "step": 12000
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 3.7414924892271756e-05,
+      "loss": 3.0134,
       "step": 12500
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 3.691152188796263e-05,
+      "loss": 2.9918,
       "step": 13000
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 3.64081188836535e-05,
+      "loss": 3.0535,
       "step": 13500
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 3.590471587934437e-05,
+      "loss": 3.0418,
       "step": 14000
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 3.540131287503524e-05,
+      "loss": 3.0113,
       "step": 14500
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 3.489790987072611e-05,
+      "loss": 3.0049,
       "step": 15000
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 3.439450686641698e-05,
+      "loss": 2.972,
       "step": 15500
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 3.389110386210785e-05,
+      "loss": 2.9912,
       "step": 16000
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 3.338770085779872e-05,
+      "loss": 2.9288,
       "step": 16500
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 3.288429785348959e-05,
+      "loss": 2.9458,
       "step": 17000
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 3.238089484918046e-05,
+      "loss": 2.9472,
       "step": 17500
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 3.187749184487133e-05,
+      "loss": 2.9206,
       "step": 18000
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 3.137408884056221e-05,
       "loss": 2.9398,
       "step": 18500
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 3.087068583625307e-05,
+      "loss": 2.8974,
       "step": 19000
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 3.0367282831943944e-05,
+      "loss": 2.9299,
       "step": 19500
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 2.986387982763481e-05,
+      "loss": 2.9514,
       "step": 20000
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 2.9360476823325683e-05,
+      "loss": 2.9516,
       "step": 20500
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 2.8857073819016555e-05,
+      "loss": 2.9539,
       "step": 21000
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 2.8353670814707423e-05,
+      "loss": 2.8521,
       "step": 21500
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 2.7850267810398294e-05,
+      "loss": 2.9156,
       "step": 22000
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 2.7346864806089162e-05,
+      "loss": 2.9362,
       "step": 22500
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 2.6843461801780034e-05,
+      "loss": 2.9097,
       "step": 23000
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 2.6340058797470905e-05,
+      "loss": 2.8943,
       "step": 23500
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 2.5836655793161773e-05,
+      "loss": 2.8789,
       "step": 24000
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 2.5333252788852645e-05,
+      "loss": 2.8557,
       "step": 24500
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 2.4829849784543516e-05,
+      "loss": 2.8613,
       "step": 25000
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 2.4326446780234385e-05,
+      "loss": 2.824,
       "step": 25500
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 2.3823043775925256e-05,
+      "loss": 2.8315,
       "step": 26000
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 2.3319640771616128e-05,
+      "loss": 2.8681,
       "step": 26500
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 2.2816237767306996e-05,
+      "loss": 2.8759,
       "step": 27000
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 2.2312834762997867e-05,
+      "loss": 2.8519,
       "step": 27500
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 2.1809431758688735e-05,
+      "loss": 2.8464,
       "step": 28000
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 2.1306028754379607e-05,
+      "loss": 2.8245,
       "step": 28500
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 2.080262575007048e-05,
+      "loss": 2.8525,
       "step": 29000
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 2.029922274576135e-05,
+      "loss": 2.8203,
       "step": 29500
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 1.9795819741452218e-05,
+      "loss": 2.8114,
       "step": 30000
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 1.9292416737143086e-05,
+      "loss": 2.8016,
       "step": 30500
     },
     {
+      "epoch": 1.25,
+      "learning_rate": 1.8789013732833958e-05,
+      "loss": 2.8404,
       "step": 31000
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 1.828561072852483e-05,
+      "loss": 2.9037,
       "step": 31500
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 1.77822077242157e-05,
+      "loss": 2.8383,
       "step": 32000
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 1.727880471990657e-05,
+      "loss": 2.8172,
       "step": 32500
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 1.677540171559744e-05,
+      "loss": 2.8394,
       "step": 33000
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 1.6271998711288312e-05,
+      "loss": 2.8408,
       "step": 33500
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 1.576859570697918e-05,
+      "loss": 2.8045,
       "step": 34000
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 1.526519270267005e-05,
+      "loss": 2.7904,
       "step": 34500
     },
     {
+      "epoch": 1.41,
+      "learning_rate": 1.476178969836092e-05,
+      "loss": 2.8345,
       "step": 35000
     },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.425838669405179e-05,
+      "loss": 2.8673,
+      "step": 35500
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.3754983689742662e-05,
+      "loss": 2.8761,
+      "step": 36000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.3251580685433532e-05,
+      "loss": 2.7778,
+      "step": 36500
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1.2748177681124402e-05,
+      "loss": 2.8206,
+      "step": 37000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.2244774676815272e-05,
+      "loss": 2.8209,
+      "step": 37500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.1741371672506142e-05,
+      "loss": 2.7834,
+      "step": 38000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.1237968668197011e-05,
+      "loss": 2.8633,
+      "step": 38500
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.0734565663887883e-05,
+      "loss": 2.8087,
+      "step": 39000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.0231162659578753e-05,
+      "loss": 2.7556,
+      "step": 39500
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.727759655269624e-06,
+      "loss": 2.7819,
+      "step": 40000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.224356650960492e-06,
+      "loss": 2.8478,
+      "step": 40500
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 8.720953646651364e-06,
+      "loss": 2.8253,
+      "step": 41000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 8.217550642342234e-06,
+      "loss": 2.7806,
+      "step": 41500
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 7.714147638033104e-06,
+      "loss": 2.8194,
+      "step": 42000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 7.210744633723974e-06,
+      "loss": 2.775,
+      "step": 42500
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 6.707341629414844e-06,
+      "loss": 2.7815,
+      "step": 43000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 6.2039386251057155e-06,
+      "loss": 2.7832,
+      "step": 43500
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 5.700535620796585e-06,
+      "loss": 2.8161,
+      "step": 44000
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 5.197132616487455e-06,
+      "loss": 2.7688,
+      "step": 44500
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 4.693729612178326e-06,
+      "loss": 2.7636,
+      "step": 45000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 4.1903266078691956e-06,
+      "loss": 2.8307,
+      "step": 45500
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 3.686923603560066e-06,
+      "loss": 2.7713,
+      "step": 46000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.1835205992509364e-06,
+      "loss": 2.7964,
+      "step": 46500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.6801175949418067e-06,
+      "loss": 2.8453,
+      "step": 47000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 2.176714590632677e-06,
+      "loss": 2.8389,
+      "step": 47500
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.6733115863235473e-06,
+      "loss": 2.7562,
+      "step": 48000
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.1699085820144176e-06,
+      "loss": 2.7791,
+      "step": 48500
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 6.665055777052878e-07,
+      "loss": 2.8059,
+      "step": 49000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 1.6310257339615804e-07,
+      "loss": 2.7683,
+      "step": 49500
+    },
     {
       "epoch": 2.0,
+      "step": 49662,
+      "total_flos": 6.899761783144858e+16,
+      "train_loss": 2.9576020691869225,
+      "train_runtime": 16825.8656,
+      "train_samples_per_second": 11.806,
+      "train_steps_per_second": 2.952
     }
   ],
+  "max_steps": 49662,
   "num_train_epochs": 2,
+  "total_flos": 6.899761783144858e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0d8ed85ff8cd08baa2a73a6ee8bb37699ab32ce9b5f55973550a4eedc53f248
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:88bb3a041395ab6ffaa536fed0426866cf5b0424ec08e81277f38538403dcb18
 size 3183