End of training

Browse files

Files changed (4) hide show

all_results.json +15 -0
eval_results.json +10 -0
train_results.json +8 -0
trainer_state.json +475 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 30.0,
+    "eval_accuracy": 0.34544270255066545,
+    "eval_loss": 5.19140625,
+    "eval_runtime": 17.6309,
+    "eval_samples": 33,
+    "eval_samples_per_second": 1.872,
+    "eval_steps_per_second": 0.964,
+    "perplexity": 179.7211081206401,
+    "train_loss": 0.9585201793246799,
+    "train_runtime": 34763.239,
+    "train_samples": 569,
+    "train_samples_per_second": 0.491,
+    "train_steps_per_second": 0.062
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 30.0,
+    "eval_accuracy": 0.34544270255066545,
+    "eval_loss": 5.19140625,
+    "eval_runtime": 17.6309,
+    "eval_samples": 33,
+    "eval_samples_per_second": 1.872,
+    "eval_steps_per_second": 0.964,
+    "perplexity": 179.7211081206401
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 30.0,
+    "train_loss": 0.9585201793246799,
+    "train_runtime": 34763.239,
+    "train_samples": 569,
+    "train_samples_per_second": 0.491,
+    "train_steps_per_second": 0.062
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,475 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 30.0,
+  "global_step": 2160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.460078226683871e-06,
+      "loss": 2.7512,
+      "step": 72
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.44510073870112954,
+      "eval_loss": 2.787109375,
+      "eval_runtime": 18.5116,
+      "eval_samples_per_second": 1.783,
+      "eval_steps_per_second": 0.918,
+      "step": 72
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 9.044669251868498e-06,
+      "loss": 2.6444,
+      "step": 144
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.4452339713697799,
+      "eval_loss": 2.783203125,
+      "eval_runtime": 18.5412,
+      "eval_samples_per_second": 1.78,
+      "eval_steps_per_second": 0.917,
+      "step": 144
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 9.889958263070431e-06,
+      "loss": 2.5407,
+      "step": 216
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.4428653905937736,
+      "eval_loss": 2.79296875,
+      "eval_runtime": 18.4591,
+      "eval_samples_per_second": 1.788,
+      "eval_steps_per_second": 0.921,
+      "step": 216
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 1e-05,
+      "loss": 2.4257,
+      "step": 288
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.44107415138191886,
+      "eval_loss": 2.8125,
+      "eval_runtime": 18.5254,
+      "eval_samples_per_second": 1.781,
+      "eval_steps_per_second": 0.918,
+      "step": 288
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 1e-05,
+      "loss": 2.3014,
+      "step": 360
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.43765451288655977,
+      "eval_loss": 2.84765625,
+      "eval_runtime": 18.5185,
+      "eval_samples_per_second": 1.782,
+      "eval_steps_per_second": 0.918,
+      "step": 360
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 1e-05,
+      "loss": 2.1749,
+      "step": 432
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.43281372592559697,
+      "eval_loss": 2.89453125,
+      "eval_runtime": 18.5101,
+      "eval_samples_per_second": 1.783,
+      "eval_steps_per_second": 0.918,
+      "step": 432
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 1e-05,
+      "loss": 2.0323,
+      "step": 504
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.42555994729907776,
+      "eval_loss": 2.966796875,
+      "eval_runtime": 18.5207,
+      "eval_samples_per_second": 1.782,
+      "eval_steps_per_second": 0.918,
+      "step": 504
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1e-05,
+      "loss": 1.8754,
+      "step": 576
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.41968290624861215,
+      "eval_loss": 3.03515625,
+      "eval_runtime": 18.573,
+      "eval_samples_per_second": 1.777,
+      "eval_steps_per_second": 0.915,
+      "step": 576
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1e-05,
+      "loss": 1.7043,
+      "step": 648
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.41167414249974094,
+      "eval_loss": 3.150390625,
+      "eval_runtime": 18.4823,
+      "eval_samples_per_second": 1.785,
+      "eval_steps_per_second": 0.92,
+      "step": 648
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1e-05,
+      "loss": 1.5224,
+      "step": 720
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.4029103936285177,
+      "eval_loss": 3.27734375,
+      "eval_runtime": 18.4802,
+      "eval_samples_per_second": 1.786,
+      "eval_steps_per_second": 0.92,
+      "step": 720
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 1e-05,
+      "loss": 1.3273,
+      "step": 792
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.3945315391333955,
+      "eval_loss": 3.4140625,
+      "eval_runtime": 18.5141,
+      "eval_samples_per_second": 1.782,
+      "eval_steps_per_second": 0.918,
+      "step": 792
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 1e-05,
+      "loss": 1.1364,
+      "step": 864
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.3868780625009252,
+      "eval_loss": 3.5625,
+      "eval_runtime": 18.5756,
+      "eval_samples_per_second": 1.777,
+      "eval_steps_per_second": 0.915,
+      "step": 864
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 1e-05,
+      "loss": 0.9499,
+      "step": 936
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.37838077896700273,
+      "eval_loss": 3.7421875,
+      "eval_runtime": 18.5107,
+      "eval_samples_per_second": 1.783,
+      "eval_steps_per_second": 0.918,
+      "step": 936
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 1e-05,
+      "loss": 0.7793,
+      "step": 1008
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.3730514722209886,
+      "eval_loss": 3.890625,
+      "eval_runtime": 18.5108,
+      "eval_samples_per_second": 1.783,
+      "eval_steps_per_second": 0.918,
+      "step": 1008
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 1e-05,
+      "loss": 0.6176,
+      "step": 1080
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.3668635549436722,
+      "eval_loss": 4.0625,
+      "eval_runtime": 18.5067,
+      "eval_samples_per_second": 1.783,
+      "eval_steps_per_second": 0.919,
+      "step": 1080
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 1e-05,
+      "loss": 0.4873,
+      "step": 1152
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.3629702002931119,
+      "eval_loss": 4.18359375,
+      "eval_runtime": 18.5287,
+      "eval_samples_per_second": 1.781,
+      "eval_steps_per_second": 0.917,
+      "step": 1152
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 1e-05,
+      "loss": 0.3717,
+      "step": 1224
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.35892880934405114,
+      "eval_loss": 4.328125,
+      "eval_runtime": 18.5472,
+      "eval_samples_per_second": 1.779,
+      "eval_steps_per_second": 0.917,
+      "step": 1224
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 1e-05,
+      "loss": 0.2797,
+      "step": 1296
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.35636778137999436,
+      "eval_loss": 4.45703125,
+      "eval_runtime": 18.5342,
+      "eval_samples_per_second": 1.78,
+      "eval_steps_per_second": 0.917,
+      "step": 1296
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 1e-05,
+      "loss": 0.2054,
+      "step": 1368
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.35386596793533776,
+      "eval_loss": 4.5703125,
+      "eval_runtime": 18.528,
+      "eval_samples_per_second": 1.781,
+      "eval_steps_per_second": 0.918,
+      "step": 1368
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 1e-05,
+      "loss": 0.1517,
+      "step": 1440
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.35250403398913416,
+      "eval_loss": 4.671875,
+      "eval_runtime": 18.5032,
+      "eval_samples_per_second": 1.783,
+      "eval_steps_per_second": 0.919,
+      "step": 1440
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 1e-05,
+      "loss": 0.1115,
+      "step": 1512
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.3511272964130805,
+      "eval_loss": 4.75390625,
+      "eval_runtime": 18.5217,
+      "eval_samples_per_second": 1.782,
+      "eval_steps_per_second": 0.918,
+      "step": 1512
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0854,
+      "step": 1584
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.349424878980326,
+      "eval_loss": 4.8359375,
+      "eval_runtime": 18.5249,
+      "eval_samples_per_second": 1.781,
+      "eval_steps_per_second": 0.918,
+      "step": 1584
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0669,
+      "step": 1656
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.3491880209027253,
+      "eval_loss": 4.90625,
+      "eval_runtime": 18.4803,
+      "eval_samples_per_second": 1.786,
+      "eval_steps_per_second": 0.92,
+      "step": 1656
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0494,
+      "step": 1728
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.34858107207887373,
+      "eval_loss": 4.9609375,
+      "eval_runtime": 18.5244,
+      "eval_samples_per_second": 1.781,
+      "eval_steps_per_second": 0.918,
+      "step": 1728
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0377,
+      "step": 1800
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.34721913813267014,
+      "eval_loss": 5.02734375,
+      "eval_runtime": 18.5337,
+      "eval_samples_per_second": 1.781,
+      "eval_steps_per_second": 0.917,
+      "step": 1800
+    },
+    {
+      "epoch": 26.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0302,
+      "step": 1872
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.3470562982043197,
+      "eval_loss": 5.0625,
+      "eval_runtime": 18.5204,
+      "eval_samples_per_second": 1.782,
+      "eval_steps_per_second": 0.918,
+      "step": 1872
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 1e-05,
+      "loss": 0.026,
+      "step": 1944
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.34550191707006556,
+      "eval_loss": 5.140625,
+      "eval_runtime": 18.5342,
+      "eval_samples_per_second": 1.78,
+      "eval_steps_per_second": 0.917,
+      "step": 1944
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0255,
+      "step": 2016
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.3465381711595683,
+      "eval_loss": 5.12109375,
+      "eval_runtime": 18.5435,
+      "eval_samples_per_second": 1.78,
+      "eval_steps_per_second": 0.917,
+      "step": 2016
+    },
+    {
+      "epoch": 29.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0241,
+      "step": 2088
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.34662699293866855,
+      "eval_loss": 5.13671875,
+      "eval_runtime": 18.5168,
+      "eval_samples_per_second": 1.782,
+      "eval_steps_per_second": 0.918,
+      "step": 2088
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0197,
+      "step": 2160
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.34544270255066545,
+      "eval_loss": 5.19140625,
+      "eval_runtime": 18.5141,
+      "eval_samples_per_second": 1.782,
+      "eval_steps_per_second": 0.918,
+      "step": 2160
+    },
+    {
+      "epoch": 30.0,
+      "step": 2160,
+      "total_flos": 2.5392640149159936e+17,
+      "train_loss": 0.9585201793246799,
+      "train_runtime": 34763.239,
+      "train_samples_per_second": 0.491,
+      "train_steps_per_second": 0.062
+    }
+  ],
+  "max_steps": 2160,
+  "num_train_epochs": 30,
+  "total_flos": 2.5392640149159936e+17,
+  "trial_name": null,
+  "trial_params": null
+}