Updated model with double training data

Browse files

Files changed (8) hide show

config.json +1 -1
model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +3 -21
trainer_state.json +705 -149
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "opus-mt-fi-fi-finetuned-fi-to-rg/checkpoint-9000",
   "_num_labels": 3,
   "activation_dropout": 0.0,
   "activation_function": "swish",

 {
+  "_name_or_path": "Helsinki-NLP/opus-mt-fi-fi",
   "_num_labels": 3,
   "activation_dropout": 0.0,
   "activation_function": "swish",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70407919dbf934382deb1d0c6c1421f28f67d71b87290138b35d2cbcc60d6c42
 size 244313404

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e0d9ed67778042a67c313307e662ba8f9add0e624287c37815626401f5b71c0
 size 244313404

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:babcedfaa308860d141e6ec8d931022f8dbc63340ef0b36949d40e0223f3ea6e
 size 488516218

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0d7fd6466016e195b8d90ee81383f9734e0b069062adfe26bbc990503cc7495
 size 488516218

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b651ed337497ccc790f6c9d45dd8062f79869dd55c27d7638335585f82290f7d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:64bdd01ab4c43618c8944f65eaaeb1c4d64a0b88051183e7a9084053fff4c682
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98f172f931dd0e5c99920641ee2eafa5e22c4ab913eb4a09480a80cecf7634db
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:990e576c97d2c145e18ad15bc9d4c57052f1e2855c1656b07e47d358416b5401
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -1,23 +1,5 @@
 {
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
 }

trainer_state.json CHANGED Viewed

@@ -1,217 +1,773 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.911894273127754,
   "eval_steps": 500,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.55,
-      "learning_rate": 4.7246696035242295e-05,
-      "loss": 2.9573,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_bleu": 17.2961,
-      "eval_gen_len": 53.6889,
-      "eval_loss": 2.6540744304656982,
-      "eval_runtime": 49.9025,
-      "eval_samples_per_second": 4.509,
-      "eval_steps_per_second": 0.581,
-      "step": 908
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 4.449339207048459e-05,
-      "loss": 2.927,
       "step": 1000
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 4.1740088105726874e-05,
-      "loss": 2.7809,
       "step": 1500
     },
     {
-      "epoch": 2.0,
-      "eval_bleu": 19.3527,
-      "eval_gen_len": 42.6667,
-      "eval_loss": 2.5852272510528564,
-      "eval_runtime": 37.69,
-      "eval_samples_per_second": 5.97,
-      "eval_steps_per_second": 0.769,
-      "step": 1816
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 3.898678414096916e-05,
-      "loss": 2.7165,
       "step": 2000
     },
     {
-      "epoch": 2.75,
-      "learning_rate": 3.623348017621145e-05,
-      "loss": 2.6527,
       "step": 2500
     },
     {
-      "epoch": 3.0,
-      "eval_bleu": 18.53,
-      "eval_gen_len": 44.8044,
-      "eval_loss": 2.521505355834961,
-      "eval_runtime": 44.997,
-      "eval_samples_per_second": 5.0,
-      "eval_steps_per_second": 0.644,
-      "step": 2724
-    },
-    {
-      "epoch": 3.3,
-      "learning_rate": 3.3480176211453745e-05,
-      "loss": 2.5517,
       "step": 3000
     },
     {
-      "epoch": 3.85,
-      "learning_rate": 3.072687224669604e-05,
-      "loss": 2.5069,
       "step": 3500
     },
     {
-      "epoch": 4.0,
-      "eval_bleu": 21.0151,
-      "eval_gen_len": 39.6889,
-      "eval_loss": 2.480680227279663,
-      "eval_runtime": 35.165,
-      "eval_samples_per_second": 6.398,
-      "eval_steps_per_second": 0.825,
-      "step": 3632
-    },
-    {
-      "epoch": 4.41,
-      "learning_rate": 2.7973568281938327e-05,
-      "loss": 2.4257,
       "step": 4000
     },
     {
-      "epoch": 4.96,
-      "learning_rate": 2.522026431718062e-05,
-      "loss": 2.3976,
       "step": 4500
     },
     {
-      "epoch": 5.0,
-      "eval_bleu": 21.4466,
-      "eval_gen_len": 39.8667,
-      "eval_loss": 2.4499943256378174,
-      "eval_runtime": 31.2343,
-      "eval_samples_per_second": 7.204,
-      "eval_steps_per_second": 0.928,
-      "step": 4540
-    },
-    {
-      "epoch": 5.51,
-      "learning_rate": 2.246696035242291e-05,
-      "loss": 2.3175,
       "step": 5000
     },
     {
-      "epoch": 6.0,
-      "eval_bleu": 20.5303,
-      "eval_gen_len": 42.0044,
-      "eval_loss": 2.4212148189544678,
-      "eval_runtime": 35.5561,
-      "eval_samples_per_second": 6.328,
-      "eval_steps_per_second": 0.816,
-      "step": 5448
-    },
-    {
-      "epoch": 6.06,
-      "learning_rate": 1.97136563876652e-05,
-      "loss": 2.3049,
       "step": 5500
     },
     {
-      "epoch": 6.61,
-      "learning_rate": 1.696035242290749e-05,
-      "loss": 2.2268,
       "step": 6000
     },
     {
-      "epoch": 7.0,
-      "eval_bleu": 20.9986,
-      "eval_gen_len": 42.8578,
-      "eval_loss": 2.4010252952575684,
-      "eval_runtime": 35.0954,
-      "eval_samples_per_second": 6.411,
-      "eval_steps_per_second": 0.826,
-      "step": 6356
-    },
-    {
-      "epoch": 7.16,
-      "learning_rate": 1.420704845814978e-05,
-      "loss": 2.2282,
       "step": 6500
     },
     {
-      "epoch": 7.71,
-      "learning_rate": 1.1453744493392071e-05,
-      "loss": 2.1703,
       "step": 7000
     },
     {
-      "epoch": 8.0,
-      "eval_bleu": 22.8201,
-      "eval_gen_len": 36.8267,
-      "eval_loss": 2.3867766857147217,
-      "eval_runtime": 23.8243,
-      "eval_samples_per_second": 9.444,
-      "eval_steps_per_second": 1.217,
-      "step": 7264
-    },
-    {
-      "epoch": 8.26,
-      "learning_rate": 8.700440528634362e-06,
-      "loss": 2.1589,
       "step": 7500
     },
     {
-      "epoch": 8.81,
-      "learning_rate": 5.947136563876652e-06,
-      "loss": 2.1223,
       "step": 8000
     },
     {
-      "epoch": 9.0,
-      "eval_bleu": 22.9591,
-      "eval_gen_len": 37.3422,
-      "eval_loss": 2.3790900707244873,
-      "eval_runtime": 28.3931,
-      "eval_samples_per_second": 7.924,
-      "eval_steps_per_second": 1.021,
-      "step": 8172
-    },
-    {
-      "epoch": 9.36,
-      "learning_rate": 3.193832599118943e-06,
-      "loss": 2.0995,
       "step": 8500
     },
     {
-      "epoch": 9.91,
-      "learning_rate": 4.4052863436123357e-07,
-      "loss": 2.1029,
       "step": 9000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 9080,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2122263810146304.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 25.31645569620253,
   "eval_steps": 500,
+  "global_step": 42000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.3,
+      "learning_rate": 4.969861362266426e-05,
+      "loss": 3.7006,
       "step": 500
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 4.939722724532851e-05,
+      "loss": 3.5872,
       "step": 1000
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 4.909584086799277e-05,
+      "loss": 3.4617,
       "step": 1500
     },
     {
+      "epoch": 1.0,
+      "eval_bleu": 12.3227,
+      "eval_gen_len": 54.6075,
+      "eval_loss": 3.1113245487213135,
+      "eval_runtime": 122.2496,
+      "eval_samples_per_second": 3.272,
+      "eval_steps_per_second": 0.409,
+      "step": 1659
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 4.8794454490657024e-05,
+      "loss": 3.298,
       "step": 2000
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 4.849306811332128e-05,
+      "loss": 3.2018,
       "step": 2500
     },
     {
+      "epoch": 1.81,
+      "learning_rate": 4.8191681735985535e-05,
+      "loss": 3.1014,
       "step": 3000
     },
     {
+      "epoch": 2.0,
+      "eval_bleu": 15.8487,
+      "eval_gen_len": 50.1125,
+      "eval_loss": 2.8111488819122314,
+      "eval_runtime": 92.4044,
+      "eval_samples_per_second": 4.329,
+      "eval_steps_per_second": 0.541,
+      "step": 3318
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 4.789029535864979e-05,
+      "loss": 2.9998,
       "step": 3500
     },
     {
+      "epoch": 2.41,
+      "learning_rate": 4.7588908981314046e-05,
+      "loss": 2.883,
       "step": 4000
     },
     {
+      "epoch": 2.71,
+      "learning_rate": 4.7287522603978304e-05,
+      "loss": 2.8409,
       "step": 4500
     },
     {
+      "epoch": 3.0,
+      "eval_bleu": 20.5509,
+      "eval_gen_len": 43.98,
+      "eval_loss": 2.617112398147583,
+      "eval_runtime": 70.0674,
+      "eval_samples_per_second": 5.709,
+      "eval_steps_per_second": 0.714,
+      "step": 4977
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 4.6986136226642556e-05,
+      "loss": 2.8043,
       "step": 5000
     },
     {
+      "epoch": 3.32,
+      "learning_rate": 4.6684749849306815e-05,
+      "loss": 2.6486,
       "step": 5500
     },
     {
+      "epoch": 3.62,
+      "learning_rate": 4.638336347197107e-05,
+      "loss": 2.6127,
       "step": 6000
     },
     {
+      "epoch": 3.92,
+      "learning_rate": 4.6081977094635326e-05,
+      "loss": 2.5718,
       "step": 6500
     },
     {
+      "epoch": 4.0,
+      "eval_bleu": 21.5273,
+      "eval_gen_len": 40.8575,
+      "eval_loss": 2.4335193634033203,
+      "eval_runtime": 62.0368,
+      "eval_samples_per_second": 6.448,
+      "eval_steps_per_second": 0.806,
+      "step": 6636
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 4.5780590717299585e-05,
+      "loss": 2.4535,
       "step": 7000
     },
     {
+      "epoch": 4.52,
+      "learning_rate": 4.547920433996384e-05,
+      "loss": 2.4269,
       "step": 7500
     },
     {
+      "epoch": 4.82,
+      "learning_rate": 4.5177817962628096e-05,
+      "loss": 2.3852,
       "step": 8000
     },
     {
+      "epoch": 5.0,
+      "eval_bleu": 24.0185,
+      "eval_gen_len": 38.945,
+      "eval_loss": 2.2908990383148193,
+      "eval_runtime": 53.5509,
+      "eval_samples_per_second": 7.47,
+      "eval_steps_per_second": 0.934,
+      "step": 8295
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 4.487643158529235e-05,
+      "loss": 2.3305,
       "step": 8500
     },
     {
+      "epoch": 5.42,
+      "learning_rate": 4.45750452079566e-05,
+      "loss": 2.2361,
       "step": 9000
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 4.427365883062086e-05,
+      "loss": 2.2201,
+      "step": 9500
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 25.0722,
+      "eval_gen_len": 38.4525,
+      "eval_loss": 2.2150681018829346,
+      "eval_runtime": 47.2306,
+      "eval_samples_per_second": 8.469,
+      "eval_steps_per_second": 1.059,
+      "step": 9954
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 4.397227245328511e-05,
+      "loss": 2.1955,
+      "step": 10000
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 4.367088607594937e-05,
+      "loss": 2.0928,
+      "step": 10500
+    },
+    {
+      "epoch": 6.63,
+      "learning_rate": 4.336949969861363e-05,
+      "loss": 2.0947,
+      "step": 11000
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 4.306811332127788e-05,
+      "loss": 2.0583,
+      "step": 11500
+    },
+    {
+      "epoch": 7.0,
+      "eval_bleu": 26.051,
+      "eval_gen_len": 40.0775,
+      "eval_loss": 2.1219234466552734,
+      "eval_runtime": 55.6386,
+      "eval_samples_per_second": 7.189,
+      "eval_steps_per_second": 0.899,
+      "step": 11613
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 4.276672694394214e-05,
+      "loss": 1.9657,
+      "step": 12000
+    },
+    {
+      "epoch": 7.53,
+      "learning_rate": 4.246534056660639e-05,
+      "loss": 1.9594,
+      "step": 12500
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 4.216395418927065e-05,
+      "loss": 1.9464,
+      "step": 13000
+    },
+    {
+      "epoch": 8.0,
+      "eval_bleu": 27.8486,
+      "eval_gen_len": 39.54,
+      "eval_loss": 2.0415802001953125,
+      "eval_runtime": 50.0785,
+      "eval_samples_per_second": 7.987,
+      "eval_steps_per_second": 0.998,
+      "step": 13272
+    },
+    {
+      "epoch": 8.14,
+      "learning_rate": 4.186256781193491e-05,
+      "loss": 1.8901,
+      "step": 13500
+    },
+    {
+      "epoch": 8.44,
+      "learning_rate": 4.1561181434599153e-05,
+      "loss": 1.8331,
+      "step": 14000
+    },
+    {
+      "epoch": 8.74,
+      "learning_rate": 4.125979505726341e-05,
+      "loss": 1.8273,
+      "step": 14500
+    },
+    {
+      "epoch": 9.0,
+      "eval_bleu": 28.6882,
+      "eval_gen_len": 38.97,
+      "eval_loss": 1.9714975357055664,
+      "eval_runtime": 47.8353,
+      "eval_samples_per_second": 8.362,
+      "eval_steps_per_second": 1.045,
+      "step": 14931
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 4.095840867992767e-05,
+      "loss": 1.8071,
+      "step": 15000
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 4.065702230259192e-05,
+      "loss": 1.724,
+      "step": 15500
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 4.035563592525618e-05,
+      "loss": 1.7173,
+      "step": 16000
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 4.0054249547920434e-05,
+      "loss": 1.7341,
+      "step": 16500
+    },
+    {
+      "epoch": 10.0,
+      "eval_bleu": 29.4158,
+      "eval_gen_len": 39.27,
+      "eval_loss": 1.922670602798462,
+      "eval_runtime": 48.3901,
+      "eval_samples_per_second": 8.266,
+      "eval_steps_per_second": 1.033,
+      "step": 16590
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 3.975286317058469e-05,
+      "loss": 1.6432,
+      "step": 17000
+    },
+    {
+      "epoch": 10.55,
+      "learning_rate": 3.945147679324895e-05,
+      "loss": 1.6414,
+      "step": 17500
+    },
+    {
+      "epoch": 10.85,
+      "learning_rate": 3.9150090415913203e-05,
+      "loss": 1.6285,
+      "step": 18000
+    },
+    {
+      "epoch": 11.0,
+      "eval_bleu": 29.6336,
+      "eval_gen_len": 39.7025,
+      "eval_loss": 1.8723887205123901,
+      "eval_runtime": 49.1746,
+      "eval_samples_per_second": 8.134,
+      "eval_steps_per_second": 1.017,
+      "step": 18249
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 3.884870403857746e-05,
+      "loss": 1.5753,
+      "step": 18500
+    },
+    {
+      "epoch": 11.45,
+      "learning_rate": 3.8547317661241714e-05,
+      "loss": 1.5525,
+      "step": 19000
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 3.8245931283905966e-05,
+      "loss": 1.5466,
+      "step": 19500
+    },
+    {
+      "epoch": 12.0,
+      "eval_bleu": 31.3296,
+      "eval_gen_len": 39.8675,
+      "eval_loss": 1.816349744796753,
+      "eval_runtime": 49.6256,
+      "eval_samples_per_second": 8.06,
+      "eval_steps_per_second": 1.008,
+      "step": 19908
+    },
+    {
+      "epoch": 12.06,
+      "learning_rate": 3.7944544906570225e-05,
+      "loss": 1.5254,
+      "step": 20000
+    },
+    {
+      "epoch": 12.36,
+      "learning_rate": 3.764315852923448e-05,
+      "loss": 1.4676,
+      "step": 20500
+    },
+    {
+      "epoch": 12.66,
+      "learning_rate": 3.7341772151898736e-05,
+      "loss": 1.4678,
+      "step": 21000
+    },
+    {
+      "epoch": 12.96,
+      "learning_rate": 3.7040385774562995e-05,
+      "loss": 1.4607,
+      "step": 21500
+    },
+    {
+      "epoch": 13.0,
+      "eval_bleu": 31.7515,
+      "eval_gen_len": 38.405,
+      "eval_loss": 1.7929939031600952,
+      "eval_runtime": 44.5172,
+      "eval_samples_per_second": 8.985,
+      "eval_steps_per_second": 1.123,
+      "step": 21567
+    },
+    {
+      "epoch": 13.26,
+      "learning_rate": 3.6738999397227247e-05,
+      "loss": 1.3787,
+      "step": 22000
+    },
+    {
+      "epoch": 13.56,
+      "learning_rate": 3.6437613019891505e-05,
+      "loss": 1.4049,
+      "step": 22500
+    },
+    {
+      "epoch": 13.86,
+      "learning_rate": 3.613622664255576e-05,
+      "loss": 1.385,
+      "step": 23000
+    },
+    {
+      "epoch": 14.0,
+      "eval_bleu": 32.458,
+      "eval_gen_len": 39.4675,
+      "eval_loss": 1.7518789768218994,
+      "eval_runtime": 49.1331,
+      "eval_samples_per_second": 8.141,
+      "eval_steps_per_second": 1.018,
+      "step": 23226
+    },
+    {
+      "epoch": 14.17,
+      "learning_rate": 3.5834840265220016e-05,
+      "loss": 1.3403,
+      "step": 23500
+    },
+    {
+      "epoch": 14.47,
+      "learning_rate": 3.553345388788427e-05,
+      "loss": 1.3166,
+      "step": 24000
+    },
+    {
+      "epoch": 14.77,
+      "learning_rate": 3.523206751054853e-05,
+      "loss": 1.321,
+      "step": 24500
+    },
+    {
+      "epoch": 15.0,
+      "eval_bleu": 32.9411,
+      "eval_gen_len": 38.8025,
+      "eval_loss": 1.7194263935089111,
+      "eval_runtime": 45.6686,
+      "eval_samples_per_second": 8.759,
+      "eval_steps_per_second": 1.095,
+      "step": 24885
+    },
+    {
+      "epoch": 15.07,
+      "learning_rate": 3.493068113321278e-05,
+      "loss": 1.2976,
+      "step": 25000
+    },
+    {
+      "epoch": 15.37,
+      "learning_rate": 3.462929475587703e-05,
+      "loss": 1.2358,
+      "step": 25500
+    },
+    {
+      "epoch": 15.67,
+      "learning_rate": 3.432790837854129e-05,
+      "loss": 1.2592,
+      "step": 26000
+    },
+    {
+      "epoch": 15.97,
+      "learning_rate": 3.402652200120555e-05,
+      "loss": 1.2662,
+      "step": 26500
+    },
+    {
+      "epoch": 16.0,
+      "eval_bleu": 33.8478,
+      "eval_gen_len": 39.1275,
+      "eval_loss": 1.6950603723526,
+      "eval_runtime": 49.9911,
+      "eval_samples_per_second": 8.001,
+      "eval_steps_per_second": 1.0,
+      "step": 26544
+    },
+    {
+      "epoch": 16.27,
+      "learning_rate": 3.37251356238698e-05,
+      "loss": 1.1963,
+      "step": 27000
+    },
+    {
+      "epoch": 16.58,
+      "learning_rate": 3.342374924653406e-05,
+      "loss": 1.2002,
+      "step": 27500
+    },
+    {
+      "epoch": 16.88,
+      "learning_rate": 3.312236286919831e-05,
+      "loss": 1.1939,
+      "step": 28000
+    },
+    {
+      "epoch": 17.0,
+      "eval_bleu": 34.5277,
+      "eval_gen_len": 39.0225,
+      "eval_loss": 1.685713529586792,
+      "eval_runtime": 49.4943,
+      "eval_samples_per_second": 8.082,
+      "eval_steps_per_second": 1.01,
+      "step": 28203
+    },
+    {
+      "epoch": 17.18,
+      "learning_rate": 3.282097649186257e-05,
+      "loss": 1.1459,
+      "step": 28500
+    },
+    {
+      "epoch": 17.48,
+      "learning_rate": 3.251959011452683e-05,
+      "loss": 1.1326,
+      "step": 29000
+    },
+    {
+      "epoch": 17.78,
+      "learning_rate": 3.221820373719108e-05,
+      "loss": 1.1406,
+      "step": 29500
+    },
+    {
+      "epoch": 18.0,
+      "eval_bleu": 35.8691,
+      "eval_gen_len": 38.76,
+      "eval_loss": 1.6470690965652466,
+      "eval_runtime": 45.2962,
+      "eval_samples_per_second": 8.831,
+      "eval_steps_per_second": 1.104,
+      "step": 29862
+    },
+    {
+      "epoch": 18.08,
+      "learning_rate": 3.191681735985534e-05,
+      "loss": 1.1292,
+      "step": 30000
+    },
+    {
+      "epoch": 18.38,
+      "learning_rate": 3.161543098251959e-05,
+      "loss": 1.071,
+      "step": 30500
+    },
+    {
+      "epoch": 18.69,
+      "learning_rate": 3.1314044605183844e-05,
+      "loss": 1.0918,
+      "step": 31000
+    },
+    {
+      "epoch": 18.99,
+      "learning_rate": 3.10126582278481e-05,
+      "loss": 1.0759,
+      "step": 31500
+    },
+    {
+      "epoch": 19.0,
+      "eval_bleu": 36.4448,
+      "eval_gen_len": 38.6925,
+      "eval_loss": 1.6456927061080933,
+      "eval_runtime": 46.4772,
+      "eval_samples_per_second": 8.606,
+      "eval_steps_per_second": 1.076,
+      "step": 31521
+    },
+    {
+      "epoch": 19.29,
+      "learning_rate": 3.0711271850512355e-05,
+      "loss": 1.0193,
+      "step": 32000
+    },
+    {
+      "epoch": 19.59,
+      "learning_rate": 3.0409885473176613e-05,
+      "loss": 1.0248,
+      "step": 32500
+    },
+    {
+      "epoch": 19.89,
+      "learning_rate": 3.010849909584087e-05,
+      "loss": 1.0378,
+      "step": 33000
+    },
+    {
+      "epoch": 20.0,
+      "eval_bleu": 37.2905,
+      "eval_gen_len": 38.945,
+      "eval_loss": 1.6285927295684814,
+      "eval_runtime": 49.741,
+      "eval_samples_per_second": 8.042,
+      "eval_steps_per_second": 1.005,
+      "step": 33180
+    },
+    {
+      "epoch": 20.19,
+      "learning_rate": 2.9807112718505124e-05,
+      "loss": 0.9915,
+      "step": 33500
+    },
+    {
+      "epoch": 20.49,
+      "learning_rate": 2.9505726341169383e-05,
+      "loss": 0.9848,
+      "step": 34000
+    },
+    {
+      "epoch": 20.8,
+      "learning_rate": 2.9204339963833638e-05,
+      "loss": 0.9851,
+      "step": 34500
+    },
+    {
+      "epoch": 21.0,
+      "eval_bleu": 38.4264,
+      "eval_gen_len": 38.7175,
+      "eval_loss": 1.5997543334960938,
+      "eval_runtime": 44.5032,
+      "eval_samples_per_second": 8.988,
+      "eval_steps_per_second": 1.124,
+      "step": 34839
+    },
+    {
+      "epoch": 21.1,
+      "learning_rate": 2.8902953586497894e-05,
+      "loss": 0.97,
+      "step": 35000
+    },
+    {
+      "epoch": 21.4,
+      "learning_rate": 2.8601567209162146e-05,
+      "loss": 0.9436,
+      "step": 35500
+    },
+    {
+      "epoch": 21.7,
+      "learning_rate": 2.83001808318264e-05,
+      "loss": 0.9372,
+      "step": 36000
+    },
+    {
+      "epoch": 22.0,
+      "eval_bleu": 37.9614,
+      "eval_gen_len": 38.9425,
+      "eval_loss": 1.607030987739563,
+      "eval_runtime": 47.0014,
+      "eval_samples_per_second": 8.51,
+      "eval_steps_per_second": 1.064,
+      "step": 36498
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 2.7998794454490656e-05,
+      "loss": 0.9437,
+      "step": 36500
+    },
+    {
+      "epoch": 22.3,
+      "learning_rate": 2.7697408077154912e-05,
+      "loss": 0.8917,
+      "step": 37000
+    },
+    {
+      "epoch": 22.6,
+      "learning_rate": 2.7396021699819167e-05,
+      "loss": 0.8692,
+      "step": 37500
+    },
+    {
+      "epoch": 22.91,
+      "learning_rate": 2.7094635322483426e-05,
+      "loss": 0.9191,
+      "step": 38000
+    },
+    {
+      "epoch": 23.0,
+      "eval_bleu": 38.8655,
+      "eval_gen_len": 38.8825,
+      "eval_loss": 1.5746939182281494,
+      "eval_runtime": 50.4993,
+      "eval_samples_per_second": 7.921,
+      "eval_steps_per_second": 0.99,
+      "step": 38157
+    },
+    {
+      "epoch": 23.21,
+      "learning_rate": 2.679324894514768e-05,
+      "loss": 0.8555,
+      "step": 38500
+    },
+    {
+      "epoch": 23.51,
+      "learning_rate": 2.6491862567811937e-05,
+      "loss": 0.8533,
+      "step": 39000
+    },
+    {
+      "epoch": 23.81,
+      "learning_rate": 2.6190476190476192e-05,
+      "loss": 0.8673,
+      "step": 39500
+    },
+    {
+      "epoch": 24.0,
+      "eval_bleu": 39.4605,
+      "eval_gen_len": 39.0175,
+      "eval_loss": 1.5650146007537842,
+      "eval_runtime": 50.8092,
+      "eval_samples_per_second": 7.873,
+      "eval_steps_per_second": 0.984,
+      "step": 39816
+    },
+    {
+      "epoch": 24.11,
+      "learning_rate": 2.5889089813140448e-05,
+      "loss": 0.841,
+      "step": 40000
+    },
+    {
+      "epoch": 24.41,
+      "learning_rate": 2.5587703435804706e-05,
+      "loss": 0.8155,
+      "step": 40500
+    },
+    {
+      "epoch": 24.71,
+      "learning_rate": 2.5286317058468955e-05,
+      "loss": 0.811,
+      "step": 41000
+    },
+    {
+      "epoch": 25.0,
+      "eval_bleu": 39.6804,
+      "eval_gen_len": 38.77,
+      "eval_loss": 1.5603779554367065,
+      "eval_runtime": 45.7389,
+      "eval_samples_per_second": 8.745,
+      "eval_steps_per_second": 1.093,
+      "step": 41475
+    },
+    {
+      "epoch": 25.02,
+      "learning_rate": 2.4984930681133214e-05,
+      "loss": 0.8335,
+      "step": 41500
+    },
+    {
+      "epoch": 25.32,
+      "learning_rate": 2.468354430379747e-05,
+      "loss": 0.7688,
+      "step": 42000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 82950,
+  "num_train_epochs": 50,
   "save_steps": 500,
+  "total_flos": 1.0127259403812864e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dac49814691ca1f48770eb6a35c6117165ddb6d2fb57f0f26e611d5cdd1837e5
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc6327ecfefde560bb383925438f7fcfc8ca830dcd7bddc21f875fc51eed7e44
 size 4728