End of training

Browse files

Files changed (4) hide show

all_results.json +14 -0
eval_results.json +9 -0
train_results.json +8 -0
trainer_state.json +571 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 14.98,
+    "eval_loss": 3.5894014835357666,
+    "eval_runtime": 450.0701,
+    "eval_samples": 760,
+    "eval_samples_per_second": 1.689,
+    "eval_steps_per_second": 0.211,
+    "eval_wer": 1.0,
+    "train_loss": 3.4999793866615154,
+    "train_runtime": 312015.5793,
+    "train_samples": 11660,
+    "train_samples_per_second": 0.561,
+    "train_steps_per_second": 0.017
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 14.98,
+    "eval_loss": 3.5894014835357666,
+    "eval_runtime": 450.0701,
+    "eval_samples": 760,
+    "eval_samples_per_second": 1.689,
+    "eval_steps_per_second": 0.211,
+    "eval_wer": 1.0
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 14.98,
+    "train_loss": 3.4999793866615154,
+    "train_runtime": 312015.5793,
+    "train_samples": 11660,
+    "train_samples_per_second": 0.561,
+    "train_steps_per_second": 0.017
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,571 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 14.979423868312757,
+  "global_step": 5460,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.27,
+      "eval_loss": 3.9210281372070312,
+      "eval_runtime": 448.3805,
+      "eval_samples_per_second": 1.695,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 3.437487840652466,
+      "eval_runtime": 462.5222,
+      "eval_samples_per_second": 1.643,
+      "eval_steps_per_second": 0.205,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 3.4355854988098145,
+      "eval_runtime": 445.9044,
+      "eval_samples_per_second": 1.704,
+      "eval_steps_per_second": 0.213,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 3.404470920562744,
+      "eval_runtime": 449.0136,
+      "eval_samples_per_second": 1.693,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0003,
+      "loss": 4.1866,
+      "step": 500
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 3.469388961791992,
+      "eval_runtime": 449.2348,
+      "eval_samples_per_second": 1.692,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 3.626600503921509,
+      "eval_runtime": 464.0791,
+      "eval_samples_per_second": 1.638,
+      "eval_steps_per_second": 0.205,
+      "eval_wer": 1.0,
+      "step": 600
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 3.5694096088409424,
+      "eval_runtime": 447.3938,
+      "eval_samples_per_second": 1.699,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 700
+    },
+    {
+      "epoch": 2.19,
+      "eval_loss": 3.5733487606048584,
+      "eval_runtime": 461.0959,
+      "eval_samples_per_second": 1.648,
+      "eval_steps_per_second": 0.206,
+      "eval_wer": 1.0,
+      "step": 800
+    },
+    {
+      "epoch": 2.47,
+      "eval_loss": 3.638136625289917,
+      "eval_runtime": 444.2877,
+      "eval_samples_per_second": 1.711,
+      "eval_steps_per_second": 0.214,
+      "eval_wer": 1.0,
+      "step": 900
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.000269758064516129,
+      "loss": 3.4376,
+      "step": 1000
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 3.6604056358337402,
+      "eval_runtime": 462.2298,
+      "eval_samples_per_second": 1.644,
+      "eval_steps_per_second": 0.206,
+      "eval_wer": 1.0,
+      "step": 1000
+    },
+    {
+      "epoch": 3.02,
+      "eval_loss": 3.5868148803710938,
+      "eval_runtime": 450.5266,
+      "eval_samples_per_second": 1.687,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 1100
+    },
+    {
+      "epoch": 3.29,
+      "eval_loss": 3.4987645149230957,
+      "eval_runtime": 449.645,
+      "eval_samples_per_second": 1.69,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 1200
+    },
+    {
+      "epoch": 3.57,
+      "eval_loss": 3.540862798690796,
+      "eval_runtime": 450.1553,
+      "eval_samples_per_second": 1.688,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 1300
+    },
+    {
+      "epoch": 3.84,
+      "eval_loss": 3.488347053527832,
+      "eval_runtime": 451.4108,
+      "eval_samples_per_second": 1.684,
+      "eval_steps_per_second": 0.21,
+      "eval_wer": 1.0,
+      "step": 1400
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 0.00023951612903225802,
+      "loss": 3.4365,
+      "step": 1500
+    },
+    {
+      "epoch": 4.12,
+      "eval_loss": 3.61248517036438,
+      "eval_runtime": 448.6902,
+      "eval_samples_per_second": 1.694,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 1500
+    },
+    {
+      "epoch": 4.39,
+      "eval_loss": 3.6123130321502686,
+      "eval_runtime": 447.7696,
+      "eval_samples_per_second": 1.697,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 1600
+    },
+    {
+      "epoch": 4.66,
+      "eval_loss": 3.5978219509124756,
+      "eval_runtime": 448.356,
+      "eval_samples_per_second": 1.695,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 1700
+    },
+    {
+      "epoch": 4.94,
+      "eval_loss": 3.5693321228027344,
+      "eval_runtime": 449.3628,
+      "eval_samples_per_second": 1.691,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 1800
+    },
+    {
+      "epoch": 5.21,
+      "eval_loss": 3.565913677215576,
+      "eval_runtime": 448.6809,
+      "eval_samples_per_second": 1.694,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 1900
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 0.0002092741935483871,
+      "loss": 3.4339,
+      "step": 2000
+    },
+    {
+      "epoch": 5.49,
+      "eval_loss": 3.6234426498413086,
+      "eval_runtime": 452.867,
+      "eval_samples_per_second": 1.678,
+      "eval_steps_per_second": 0.21,
+      "eval_wer": 1.0,
+      "step": 2000
+    },
+    {
+      "epoch": 5.76,
+      "eval_loss": 3.5997350215911865,
+      "eval_runtime": 465.9828,
+      "eval_samples_per_second": 1.631,
+      "eval_steps_per_second": 0.204,
+      "eval_wer": 1.0,
+      "step": 2100
+    },
+    {
+      "epoch": 6.04,
+      "eval_loss": 3.6529293060302734,
+      "eval_runtime": 469.5273,
+      "eval_samples_per_second": 1.619,
+      "eval_steps_per_second": 0.202,
+      "eval_wer": 1.0,
+      "step": 2200
+    },
+    {
+      "epoch": 6.31,
+      "eval_loss": 3.57804274559021,
+      "eval_runtime": 466.8404,
+      "eval_samples_per_second": 1.628,
+      "eval_steps_per_second": 0.203,
+      "eval_wer": 1.0,
+      "step": 2300
+    },
+    {
+      "epoch": 6.58,
+      "eval_loss": 3.5843563079833984,
+      "eval_runtime": 462.6509,
+      "eval_samples_per_second": 1.643,
+      "eval_steps_per_second": 0.205,
+      "eval_wer": 1.0,
+      "step": 2400
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 0.00017903225806451613,
+      "loss": 3.4333,
+      "step": 2500
+    },
+    {
+      "epoch": 6.86,
+      "eval_loss": 3.5792107582092285,
+      "eval_runtime": 465.647,
+      "eval_samples_per_second": 1.632,
+      "eval_steps_per_second": 0.204,
+      "eval_wer": 1.0,
+      "step": 2500
+    },
+    {
+      "epoch": 7.13,
+      "eval_loss": 3.5468063354492188,
+      "eval_runtime": 451.1451,
+      "eval_samples_per_second": 1.685,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 2600
+    },
+    {
+      "epoch": 7.41,
+      "eval_loss": 3.56913161277771,
+      "eval_runtime": 448.1922,
+      "eval_samples_per_second": 1.696,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 2700
+    },
+    {
+      "epoch": 7.68,
+      "eval_loss": 3.5407586097717285,
+      "eval_runtime": 447.5005,
+      "eval_samples_per_second": 1.698,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 2800
+    },
+    {
+      "epoch": 7.96,
+      "eval_loss": 3.5482022762298584,
+      "eval_runtime": 449.8306,
+      "eval_samples_per_second": 1.69,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 2900
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 0.00014879032258064516,
+      "loss": 3.4294,
+      "step": 3000
+    },
+    {
+      "epoch": 8.23,
+      "eval_loss": 3.6070499420166016,
+      "eval_runtime": 456.2387,
+      "eval_samples_per_second": 1.666,
+      "eval_steps_per_second": 0.208,
+      "eval_wer": 1.0,
+      "step": 3000
+    },
+    {
+      "epoch": 8.5,
+      "eval_loss": 3.5904996395111084,
+      "eval_runtime": 449.7992,
+      "eval_samples_per_second": 1.69,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 3100
+    },
+    {
+      "epoch": 8.78,
+      "eval_loss": 3.601818799972534,
+      "eval_runtime": 451.1158,
+      "eval_samples_per_second": 1.685,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 3200
+    },
+    {
+      "epoch": 9.05,
+      "eval_loss": 3.632572889328003,
+      "eval_runtime": 465.9266,
+      "eval_samples_per_second": 1.631,
+      "eval_steps_per_second": 0.204,
+      "eval_wer": 1.0,
+      "step": 3300
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 3.6213583946228027,
+      "eval_runtime": 464.4391,
+      "eval_samples_per_second": 1.636,
+      "eval_steps_per_second": 0.205,
+      "eval_wer": 1.0,
+      "step": 3400
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 0.00011854838709677418,
+      "loss": 3.4293,
+      "step": 3500
+    },
+    {
+      "epoch": 9.6,
+      "eval_loss": 3.6371841430664062,
+      "eval_runtime": 464.9582,
+      "eval_samples_per_second": 1.635,
+      "eval_steps_per_second": 0.204,
+      "eval_wer": 1.0,
+      "step": 3500
+    },
+    {
+      "epoch": 9.88,
+      "eval_loss": 3.62145733833313,
+      "eval_runtime": 461.084,
+      "eval_samples_per_second": 1.648,
+      "eval_steps_per_second": 0.206,
+      "eval_wer": 1.0,
+      "step": 3600
+    },
+    {
+      "epoch": 10.15,
+      "eval_loss": 3.5106494426727295,
+      "eval_runtime": 456.7101,
+      "eval_samples_per_second": 1.664,
+      "eval_steps_per_second": 0.208,
+      "eval_wer": 1.0,
+      "step": 3700
+    },
+    {
+      "epoch": 10.43,
+      "eval_loss": 3.5065886974334717,
+      "eval_runtime": 450.4612,
+      "eval_samples_per_second": 1.687,
+      "eval_steps_per_second": 0.211,
+      "eval_wer": 1.0,
+      "step": 3800
+    },
+    {
+      "epoch": 10.7,
+      "eval_loss": 3.53520131111145,
+      "eval_runtime": 457.5107,
+      "eval_samples_per_second": 1.661,
+      "eval_steps_per_second": 0.208,
+      "eval_wer": 1.0,
+      "step": 3900
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 8.830645161290322e-05,
+      "loss": 3.4295,
+      "step": 4000
+    },
+    {
+      "epoch": 10.97,
+      "eval_loss": 3.5129199028015137,
+      "eval_runtime": 459.6878,
+      "eval_samples_per_second": 1.653,
+      "eval_steps_per_second": 0.207,
+      "eval_wer": 1.0,
+      "step": 4000
+    },
+    {
+      "epoch": 11.25,
+      "eval_loss": 3.638355016708374,
+      "eval_runtime": 446.4108,
+      "eval_samples_per_second": 1.702,
+      "eval_steps_per_second": 0.213,
+      "eval_wer": 1.0,
+      "step": 4100
+    },
+    {
+      "epoch": 11.52,
+      "eval_loss": 3.601942539215088,
+      "eval_runtime": 446.1008,
+      "eval_samples_per_second": 1.704,
+      "eval_steps_per_second": 0.213,
+      "eval_wer": 1.0,
+      "step": 4200
+    },
+    {
+      "epoch": 11.8,
+      "eval_loss": 3.5876448154449463,
+      "eval_runtime": 447.6952,
+      "eval_samples_per_second": 1.698,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 4300
+    },
+    {
+      "epoch": 12.07,
+      "eval_loss": 3.6206564903259277,
+      "eval_runtime": 452.4358,
+      "eval_samples_per_second": 1.68,
+      "eval_steps_per_second": 0.21,
+      "eval_wer": 1.0,
+      "step": 4400
+    },
+    {
+      "epoch": 12.35,
+      "learning_rate": 5.806451612903225e-05,
+      "loss": 3.4252,
+      "step": 4500
+    },
+    {
+      "epoch": 12.35,
+      "eval_loss": 3.599799633026123,
+      "eval_runtime": 465.361,
+      "eval_samples_per_second": 1.633,
+      "eval_steps_per_second": 0.204,
+      "eval_wer": 1.0,
+      "step": 4500
+    },
+    {
+      "epoch": 12.62,
+      "eval_loss": 3.621551513671875,
+      "eval_runtime": 464.2483,
+      "eval_samples_per_second": 1.637,
+      "eval_steps_per_second": 0.205,
+      "eval_wer": 1.0,
+      "step": 4600
+    },
+    {
+      "epoch": 12.89,
+      "eval_loss": 3.6072838306427,
+      "eval_runtime": 451.6809,
+      "eval_samples_per_second": 1.683,
+      "eval_steps_per_second": 0.21,
+      "eval_wer": 1.0,
+      "step": 4700
+    },
+    {
+      "epoch": 13.17,
+      "eval_loss": 3.5566837787628174,
+      "eval_runtime": 462.9799,
+      "eval_samples_per_second": 1.642,
+      "eval_steps_per_second": 0.205,
+      "eval_wer": 1.0,
+      "step": 4800
+    },
+    {
+      "epoch": 13.44,
+      "eval_loss": 3.5745246410369873,
+      "eval_runtime": 462.9458,
+      "eval_samples_per_second": 1.642,
+      "eval_steps_per_second": 0.205,
+      "eval_wer": 1.0,
+      "step": 4900
+    },
+    {
+      "epoch": 13.72,
+      "learning_rate": 2.7822580645161288e-05,
+      "loss": 3.4274,
+      "step": 5000
+    },
+    {
+      "epoch": 13.72,
+      "eval_loss": 3.57381010055542,
+      "eval_runtime": 463.0152,
+      "eval_samples_per_second": 1.641,
+      "eval_steps_per_second": 0.205,
+      "eval_wer": 1.0,
+      "step": 5000
+    },
+    {
+      "epoch": 13.99,
+      "eval_loss": 3.59135103225708,
+      "eval_runtime": 451.4651,
+      "eval_samples_per_second": 1.683,
+      "eval_steps_per_second": 0.21,
+      "eval_wer": 1.0,
+      "step": 5100
+    },
+    {
+      "epoch": 14.27,
+      "eval_loss": 3.6004159450531006,
+      "eval_runtime": 448.4459,
+      "eval_samples_per_second": 1.695,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 5200
+    },
+    {
+      "epoch": 14.54,
+      "eval_loss": 3.596832036972046,
+      "eval_runtime": 447.5291,
+      "eval_samples_per_second": 1.698,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 5300
+    },
+    {
+      "epoch": 14.81,
+      "eval_loss": 3.590834856033325,
+      "eval_runtime": 448.4053,
+      "eval_samples_per_second": 1.695,
+      "eval_steps_per_second": 0.212,
+      "eval_wer": 1.0,
+      "step": 5400
+    },
+    {
+      "epoch": 14.98,
+      "step": 5460,
+      "total_flos": 7.431985836399704e+18,
+      "train_loss": 3.4999793866615154,
+      "train_runtime": 312015.5793,
+      "train_samples_per_second": 0.561,
+      "train_steps_per_second": 0.017
+    }
+  ],
+  "max_steps": 5460,
+  "num_train_epochs": 15,
+  "total_flos": 7.431985836399704e+18,
+  "trial_name": null,
+  "trial_params": null
+}