MUNasir
/

umsuka-en-zu

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.3929173693086,
+  "global_step": 11500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.84,
+      "learning_rate": 9.578414839797639e-06,
+      "loss": 0.3136,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 17.1673,
+      "eval_gen_len": 43.5832,
+      "eval_loss": 2.7004430294036865,
+      "eval_runtime": 263.1603,
+      "eval_samples_per_second": 3.792,
+      "eval_steps_per_second": 0.475,
+      "step": 593
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 9.156829679595279e-06,
+      "loss": 0.2962,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 17.2012,
+      "eval_gen_len": 43.6693,
+      "eval_loss": 2.719139814376831,
+      "eval_runtime": 263.247,
+      "eval_samples_per_second": 3.791,
+      "eval_steps_per_second": 0.475,
+      "step": 1186
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 8.735244519392918e-06,
+      "loss": 0.2927,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 17.2291,
+      "eval_gen_len": 43.482,
+      "eval_loss": 2.7412936687469482,
+      "eval_runtime": 260.7955,
+      "eval_samples_per_second": 3.827,
+      "eval_steps_per_second": 0.479,
+      "step": 1779
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 8.313659359190556e-06,
+      "loss": 0.2677,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 17.135,
+      "eval_gen_len": 43.5862,
+      "eval_loss": 2.7617862224578857,
+      "eval_runtime": 261.1749,
+      "eval_samples_per_second": 3.821,
+      "eval_steps_per_second": 0.479,
+      "step": 2372
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 7.892074198988196e-06,
+      "loss": 0.2591,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 17.5543,
+      "eval_gen_len": 43.5922,
+      "eval_loss": 2.7780115604400635,
+      "eval_runtime": 262.647,
+      "eval_samples_per_second": 3.8,
+      "eval_steps_per_second": 0.476,
+      "step": 2965
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 7.470489038785835e-06,
+      "loss": 0.2473,
+      "step": 3000
+    },
+    {
+      "epoch": 5.9,
+      "learning_rate": 7.048903878583474e-06,
+      "loss": 0.2282,
+      "step": 3500
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 17.226,
+      "eval_gen_len": 43.6703,
+      "eval_loss": 2.794311761856079,
+      "eval_runtime": 263.8826,
+      "eval_samples_per_second": 3.782,
+      "eval_steps_per_second": 0.474,
+      "step": 3558
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 6.6273187183811136e-06,
+      "loss": 0.2244,
+      "step": 4000
+    },
+    {
+      "epoch": 7.0,
+      "eval_bleu": 17.615,
+      "eval_gen_len": 43.6934,
+      "eval_loss": 2.808680295944214,
+      "eval_runtime": 264.0527,
+      "eval_samples_per_second": 3.78,
+      "eval_steps_per_second": 0.473,
+      "step": 4151
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 6.2057335581787524e-06,
+      "loss": 0.2196,
+      "step": 4500
+    },
+    {
+      "epoch": 8.0,
+      "eval_bleu": 17.3227,
+      "eval_gen_len": 43.7715,
+      "eval_loss": 2.825133800506592,
+      "eval_runtime": 281.974,
+      "eval_samples_per_second": 3.539,
+      "eval_steps_per_second": 0.443,
+      "step": 4744
+    },
+    {
+      "epoch": 8.43,
+      "learning_rate": 5.784148397976391e-06,
+      "loss": 0.2101,
+      "step": 5000
+    },
+    {
+      "epoch": 9.0,
+      "eval_bleu": 17.5072,
+      "eval_gen_len": 43.7084,
+      "eval_loss": 2.834676742553711,
+      "eval_runtime": 263.2231,
+      "eval_samples_per_second": 3.791,
+      "eval_steps_per_second": 0.475,
+      "step": 5337
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 5.362563237774031e-06,
+      "loss": 0.2077,
+      "step": 5500
+    },
+    {
+      "epoch": 10.0,
+      "eval_bleu": 17.5712,
+      "eval_gen_len": 43.8597,
+      "eval_loss": 2.842376708984375,
+      "eval_runtime": 270.4686,
+      "eval_samples_per_second": 3.69,
+      "eval_steps_per_second": 0.462,
+      "step": 5930
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 4.94097807757167e-06,
+      "loss": 0.2034,
+      "step": 6000
+    },
+    {
+      "epoch": 10.96,
+      "learning_rate": 4.519392917369309e-06,
+      "loss": 0.1968,
+      "step": 6500
+    },
+    {
+      "epoch": 11.0,
+      "eval_bleu": 17.6007,
+      "eval_gen_len": 43.6994,
+      "eval_loss": 2.851884365081787,
+      "eval_runtime": 261.9767,
+      "eval_samples_per_second": 3.809,
+      "eval_steps_per_second": 0.477,
+      "step": 6523
+    },
+    {
+      "epoch": 11.8,
+      "learning_rate": 4.097807757166948e-06,
+      "loss": 0.1902,
+      "step": 7000
+    },
+    {
+      "epoch": 12.0,
+      "eval_bleu": 17.6333,
+      "eval_gen_len": 43.6924,
+      "eval_loss": 2.8614132404327393,
+      "eval_runtime": 263.2972,
+      "eval_samples_per_second": 3.79,
+      "eval_steps_per_second": 0.475,
+      "step": 7116
+    },
+    {
+      "epoch": 12.65,
+      "learning_rate": 3.676222596964587e-06,
+      "loss": 0.198,
+      "step": 7500
+    },
+    {
+      "epoch": 13.0,
+      "eval_bleu": 17.6153,
+      "eval_gen_len": 43.7034,
+      "eval_loss": 2.865877866744995,
+      "eval_runtime": 261.219,
+      "eval_samples_per_second": 3.821,
+      "eval_steps_per_second": 0.479,
+      "step": 7709
+    },
+    {
+      "epoch": 13.49,
+      "learning_rate": 3.2546374367622263e-06,
+      "loss": 0.1861,
+      "step": 8000
+    },
+    {
+      "epoch": 14.0,
+      "eval_bleu": 17.5959,
+      "eval_gen_len": 43.7154,
+      "eval_loss": 2.873347043991089,
+      "eval_runtime": 260.1505,
+      "eval_samples_per_second": 3.836,
+      "eval_steps_per_second": 0.48,
+      "step": 8302
+    },
+    {
+      "epoch": 14.33,
+      "learning_rate": 2.8330522765598656e-06,
+      "loss": 0.1956,
+      "step": 8500
+    },
+    {
+      "epoch": 15.0,
+      "eval_bleu": 17.6169,
+      "eval_gen_len": 43.7164,
+      "eval_loss": 2.876323938369751,
+      "eval_runtime": 261.1714,
+      "eval_samples_per_second": 3.821,
+      "eval_steps_per_second": 0.479,
+      "step": 8895
+    },
+    {
+      "epoch": 15.18,
+      "learning_rate": 2.4114671163575045e-06,
+      "loss": 0.1924,
+      "step": 9000
+    },
+    {
+      "epoch": 16.0,
+      "eval_bleu": 17.5443,
+      "eval_gen_len": 43.7194,
+      "eval_loss": 2.880269765853882,
+      "eval_runtime": 261.8101,
+      "eval_samples_per_second": 3.812,
+      "eval_steps_per_second": 0.477,
+      "step": 9488
+    },
+    {
+      "epoch": 16.02,
+      "learning_rate": 1.9898819561551434e-06,
+      "loss": 0.1946,
+      "step": 9500
+    },
+    {
+      "epoch": 16.86,
+      "learning_rate": 1.5682967959527825e-06,
+      "loss": 0.1946,
+      "step": 10000
+    },
+    {
+      "epoch": 17.0,
+      "eval_bleu": 17.577,
+      "eval_gen_len": 43.6142,
+      "eval_loss": 2.8834807872772217,
+      "eval_runtime": 259.2401,
+      "eval_samples_per_second": 3.85,
+      "eval_steps_per_second": 0.482,
+      "step": 10081
+    },
+    {
+      "epoch": 17.71,
+      "learning_rate": 1.1467116357504218e-06,
+      "loss": 0.1987,
+      "step": 10500
+    },
+    {
+      "epoch": 18.0,
+      "eval_bleu": 17.5677,
+      "eval_gen_len": 43.6623,
+      "eval_loss": 2.8818464279174805,
+      "eval_runtime": 269.8962,
+      "eval_samples_per_second": 3.698,
+      "eval_steps_per_second": 0.463,
+      "step": 10674
+    },
+    {
+      "epoch": 18.55,
+      "learning_rate": 7.251264755480608e-07,
+      "loss": 0.2011,
+      "step": 11000
+    },
+    {
+      "epoch": 19.0,
+      "eval_bleu": 17.6118,
+      "eval_gen_len": 43.7395,
+      "eval_loss": 2.882765531539917,
+      "eval_runtime": 265.3175,
+      "eval_samples_per_second": 3.762,
+      "eval_steps_per_second": 0.471,
+      "step": 11267
+    },
+    {
+      "epoch": 19.39,
+      "learning_rate": 3.0354131534569986e-07,
+      "loss": 0.2049,
+      "step": 11500
+    }
+  ],
+  "max_steps": 11860,
+  "num_train_epochs": 20,
+  "total_flos": 1623592378957824.0,
+  "trial_name": null,
+  "trial_params": null
+}