End of training

Browse files

Files changed (5) hide show

all_results.json +15 -0
eval_results.json +9 -0
runs/May09_11-10-30_ml-machine/events.out.tfevents.1715259169.ml-machine.2004.1 +3 -0
train_results.json +9 -0
trainer_state.json +155 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 5.0,
+    "eval_exact_match": 61.125,
+    "eval_f1": 75.55577348115898,
+    "eval_runtime": 87.5964,
+    "eval_samples": 3858,
+    "eval_samples_per_second": 44.043,
+    "eval_steps_per_second": 1.575,
+    "total_flos": 6.354793682009856e+16,
+    "train_loss": 1.2508642091341544,
+    "train_runtime": 5889.9617,
+    "train_samples": 18247,
+    "train_samples_per_second": 15.49,
+    "train_steps_per_second": 0.553
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 5.0,
+    "eval_exact_match": 61.125,
+    "eval_f1": 75.55577348115898,
+    "eval_runtime": 87.5964,
+    "eval_samples": 3858,
+    "eval_samples_per_second": 44.043,
+    "eval_steps_per_second": 1.575
+}

runs/May09_11-10-30_ml-machine/events.out.tfevents.1715259169.ml-machine.2004.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3314bba6a3beb8cc4ac8ab0473b10db1f2b1e1d2a03f0305751f6bd1a7afba57
+size 412

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 5.0,
+    "total_flos": 6.354793682009856e+16,
+    "train_loss": 1.2508642091341544,
+    "train_runtime": 5889.9617,
+    "train_samples": 18247,
+    "train_samples_per_second": 15.49,
+    "train_steps_per_second": 0.553
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,155 @@

+{
+  "best_metric": 75.55577348115898,
+  "best_model_checkpoint": "/root/turkic_qa/en_kaz_models/en_kaz_xlm_roberta_large_model/checkpoint-3260",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 3260,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "step": 652,
+      "train_exact_match": 55.94405594405595,
+      "train_f1": 73.63671036317213,
+      "train_runtime": 28.1019,
+      "train_samples_per_second": 43.663,
+      "train_steps_per_second": 1.566
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 41.142127990722656,
+      "learning_rate": 1e-05,
+      "loss": 3.2057,
+      "step": 652
+    },
+    {
+      "epoch": 1.0,
+      "eval_exact_match": 51.65625,
+      "eval_f1": 68.43543312331303,
+      "eval_runtime": 88.3369,
+      "eval_samples_per_second": 43.674,
+      "eval_steps_per_second": 1.562,
+      "step": 652
+    },
+    {
+      "epoch": 2.0,
+      "step": 1304,
+      "train_exact_match": 67.53246753246754,
+      "train_f1": 82.24342151350066,
+      "train_runtime": 28.5968,
+      "train_samples_per_second": 43.396,
+      "train_steps_per_second": 1.574
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 36.88103103637695,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 1.172,
+      "step": 1304
+    },
+    {
+      "epoch": 2.0,
+      "eval_exact_match": 56.875,
+      "eval_f1": 73.03642440401033,
+      "eval_runtime": 88.3326,
+      "eval_samples_per_second": 43.676,
+      "eval_steps_per_second": 1.562,
+      "step": 1304
+    },
+    {
+      "epoch": 3.0,
+      "step": 1956,
+      "train_exact_match": 78.92107892107892,
+      "train_f1": 90.2235322381411,
+      "train_runtime": 27.7189,
+      "train_samples_per_second": 43.508,
+      "train_steps_per_second": 1.587
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 38.58055877685547,
+      "learning_rate": 5e-06,
+      "loss": 0.8237,
+      "step": 1956
+    },
+    {
+      "epoch": 3.0,
+      "eval_exact_match": 60.5625,
+      "eval_f1": 75.47199499569918,
+      "eval_runtime": 88.109,
+      "eval_samples_per_second": 43.787,
+      "eval_steps_per_second": 1.566,
+      "step": 1956
+    },
+    {
+      "epoch": 4.0,
+      "step": 2608,
+      "train_exact_match": 82.11788211788212,
+      "train_f1": 92.67663132485467,
+      "train_runtime": 29.1938,
+      "train_samples_per_second": 43.16,
+      "train_steps_per_second": 1.541
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 34.8208122253418,
+      "learning_rate": 2.5e-06,
+      "loss": 0.588,
+      "step": 2608
+    },
+    {
+      "epoch": 4.0,
+      "eval_exact_match": 60.65625,
+      "eval_f1": 75.1934488142968,
+      "eval_runtime": 89.1778,
+      "eval_samples_per_second": 43.262,
+      "eval_steps_per_second": 1.547,
+      "step": 2608
+    },
+    {
+      "epoch": 5.0,
+      "step": 3260,
+      "train_exact_match": 85.61438561438561,
+      "train_f1": 94.19636283438837,
+      "train_runtime": 27.8587,
+      "train_samples_per_second": 43.433,
+      "train_steps_per_second": 1.579
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 31.479175567626953,
+      "learning_rate": 0.0,
+      "loss": 0.465,
+      "step": 3260
+    },
+    {
+      "epoch": 5.0,
+      "eval_exact_match": 61.125,
+      "eval_f1": 75.55577348115898,
+      "eval_runtime": 88.1654,
+      "eval_samples_per_second": 43.759,
+      "eval_steps_per_second": 1.565,
+      "step": 3260
+    },
+    {
+      "epoch": 5.0,
+      "step": 3260,
+      "total_flos": 6.354793682009856e+16,
+      "train_loss": 1.2508642091341544,
+      "train_runtime": 5889.9617,
+      "train_samples_per_second": 15.49,
+      "train_steps_per_second": 0.553
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 3260,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 6.354793682009856e+16,
+  "train_batch_size": 28,
+  "trial_name": null,
+  "trial_params": null
+}