JessicaOjo
/

mt5-asr-corrector-hau

+{
+  "best_global_step": 1632,
+  "best_metric": 1.5434752702713013,
+  "best_model_checkpoint": "./mt5_base/afri_loss/hau/checkpoint-1632",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 2448,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_bleu": 11.0428,
+      "eval_gen_len": 19.9161,
+      "eval_loss": 1.777604103088379,
+      "eval_runtime": 30.3524,
+      "eval_samples_per_second": 20.427,
+      "eval_steps_per_second": 2.57,
+      "eval_wer": 0.6495,
+      "step": 408
+    },
+    {
+      "epoch": 1.2254901960784315,
+      "grad_norm": 3.150831460952759,
+      "learning_rate": 4.694240196078432e-05,
+      "loss": 4.2043,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 12.0593,
+      "eval_gen_len": 19.9355,
+      "eval_loss": 1.6548242568969727,
+      "eval_runtime": 27.9266,
+      "eval_samples_per_second": 22.201,
+      "eval_steps_per_second": 2.793,
+      "eval_wer": 0.6258,
+      "step": 816
+    },
+    {
+      "epoch": 2.450980392156863,
+      "grad_norm": 1.5954734086990356,
+      "learning_rate": 4.3878676470588234e-05,
+      "loss": 0.6735,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 12.2009,
+      "eval_gen_len": 19.9355,
+      "eval_loss": 1.661535382270813,
+      "eval_runtime": 27.9118,
+      "eval_samples_per_second": 22.213,
+      "eval_steps_per_second": 2.795,
+      "eval_wer": 0.628,
+      "step": 1224
+    },
+    {
+      "epoch": 3.6764705882352944,
+      "grad_norm": 1.46583092212677,
+      "learning_rate": 4.081495098039216e-05,
+      "loss": 0.5464,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 12.3959,
+      "eval_gen_len": 19.9339,
+      "eval_loss": 1.5434752702713013,
+      "eval_runtime": 28.2519,
+      "eval_samples_per_second": 21.945,
+      "eval_steps_per_second": 2.761,
+      "eval_wer": 0.6297,
+      "step": 1632
+    },
+    {
+      "epoch": 4.901960784313726,
+      "grad_norm": 1.8919347524642944,
+      "learning_rate": 3.775122549019608e-05,
+      "loss": 0.4793,
+      "step": 2000
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 12.5111,
+      "eval_gen_len": 19.9323,
+      "eval_loss": 1.552480697631836,
+      "eval_runtime": 27.9429,
+      "eval_samples_per_second": 22.188,
+      "eval_steps_per_second": 2.791,
+      "eval_wer": 0.6303,
+      "step": 2040
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 12.4327,
+      "eval_gen_len": 19.9323,
+      "eval_loss": 1.5919784307479858,
+      "eval_runtime": 29.0796,
+      "eval_samples_per_second": 21.321,
+      "eval_steps_per_second": 2.682,
+      "eval_wer": 0.6308,
+      "step": 2448
+    },
+    {
+      "epoch": 6.0,
+      "step": 2448,
+      "total_flos": 3428147830947840.0,
+      "train_loss": 1.285437066570606,
+      "train_runtime": 691.8942,
+      "train_samples_per_second": 94.205,
+      "train_steps_per_second": 11.794
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 8160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 50000.0,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 2
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3428147830947840.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}