nlp04
/

kobart_64_1e-4_datav2_min30_lp5.0_temperature1.0

+{
+    "epoch": 5.0,
+    "train_loss": 1.8752608189770101,
+    "train_runtime": 3750.4732,
+    "train_samples": 42367,
+    "train_samples_per_second": 56.482,
+    "train_steps_per_second": 0.883
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "train_loss": 1.8752608189770101,
+    "train_runtime": 3750.4732,
+    "train_samples": 42367,
+    "train_samples_per_second": 56.482,
+    "train_steps_per_second": 0.883
+}

train_results.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+epoch = 5.0
+train_loss = 1.8752608189770101
+train_runtime = 3750.4732
+train_samples = 42367
+train_samples_per_second = 56.482
+train_steps_per_second = 0.883

trainer_state.json ADDED Viewed

	@@ -0,0 +1,223 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 3310,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15,
+      "learning_rate": 3.0211480362537764e-05,
+      "loss": 4.4677,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 6.042296072507553e-05,
+      "loss": 2.5435,
+      "step": 200
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 9.063444108761329e-05,
+      "loss": 2.3907,
+      "step": 300
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 9.768378650553878e-05,
+      "loss": 2.3512,
+      "step": 400
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 9.432695535414569e-05,
+      "loss": 2.2985,
+      "step": 500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 9.097012420275261e-05,
+      "loss": 2.2725,
+      "step": 600
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 8.761329305135952e-05,
+      "loss": 2.1304,
+      "step": 700
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 8.425646189996644e-05,
+      "loss": 2.0167,
+      "step": 800
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 8.089963074857335e-05,
+      "loss": 2.012,
+      "step": 900
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.754279959718025e-05,
+      "loss": 2.0222,
+      "step": 1000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 7.418596844578718e-05,
+      "loss": 2.0025,
+      "step": 1100
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 7.08291372943941e-05,
+      "loss": 1.9882,
+      "step": 1200
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 6.747230614300101e-05,
+      "loss": 1.9818,
+      "step": 1300
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 6.411547499160793e-05,
+      "loss": 1.801,
+      "step": 1400
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 6.0758643840214836e-05,
+      "loss": 1.7425,
+      "step": 1500
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.740181268882176e-05,
+      "loss": 1.7365,
+      "step": 1600
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 5.404498153742867e-05,
+      "loss": 1.7492,
+      "step": 1700
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 5.068815038603558e-05,
+      "loss": 1.7643,
+      "step": 1800
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 4.73313192346425e-05,
+      "loss": 1.7484,
+      "step": 1900
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 4.397448808324942e-05,
+      "loss": 1.7074,
+      "step": 2000
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 4.0617656931856326e-05,
+      "loss": 1.5297,
+      "step": 2100
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 3.726082578046324e-05,
+      "loss": 1.537,
+      "step": 2200
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 3.3903994629070156e-05,
+      "loss": 1.5549,
+      "step": 2300
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 3.054716347767708e-05,
+      "loss": 1.558,
+      "step": 2400
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 2.719033232628399e-05,
+      "loss": 1.5524,
+      "step": 2500
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 2.3833501174890905e-05,
+      "loss": 1.5582,
+      "step": 2600
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 2.0476670023497817e-05,
+      "loss": 1.4789,
+      "step": 2700
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 1.7119838872104735e-05,
+      "loss": 1.3989,
+      "step": 2800
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 1.3763007720711649e-05,
+      "loss": 1.4037,
+      "step": 2900
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 1.0406176569318564e-05,
+      "loss": 1.4044,
+      "step": 3000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 7.0493454179254795e-06,
+      "loss": 1.4148,
+      "step": 3100
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 3.6925142665323938e-06,
+      "loss": 1.4082,
+      "step": 3200
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 3.356831151393085e-07,
+      "loss": 1.4053,
+      "step": 3300
+    },
+    {
+      "epoch": 5.0,
+      "step": 3310,
+      "total_flos": 5.435050739908608e+16,
+      "train_loss": 1.8752608189770101,
+      "train_runtime": 3750.4732,
+      "train_samples_per_second": 56.482,
+      "train_steps_per_second": 0.883
+    }
+  ],
+  "max_steps": 3310,
+  "num_train_epochs": 5,
+  "total_flos": 5.435050739908608e+16,
+  "trial_name": null,
+  "trial_params": null
+}