navjordj
/

flan-t5-small_en-no

@@ -1,15 +1,15 @@
 {
-    "epoch": 0.01,
-    "eval_bleu": 0.0331,
-    "eval_gen_len": 124.5707,
-    "eval_loss": 3.317145347595215,
-    "eval_runtime": 75.5891,
-    "eval_samples": 622,
-    "eval_samples_per_second": 8.229,
-    "eval_steps_per_second": 1.032,
-    "train_loss": 3.6924142456054687,
-    "train_runtime": 9.393,
     "train_samples": 62107,
-    "train_samples_per_second": 85.17,
-    "train_steps_per_second": 10.646
 }

 {
+    "epoch": 3.0,
+    "eval_bleu": 3.1263,
+    "eval_gen_len": 101.3243,
+    "eval_loss": 2.2739031314849854,
+    "eval_runtime": 177.4487,
+    "eval_samples": 12422,
+    "eval_samples_per_second": 70.003,
+    "eval_steps_per_second": 0.552,
+    "train_loss": 2.8308688191229425,
+    "train_runtime": 860.89,
     "train_samples": 62107,
+    "train_samples_per_second": 216.428,
+    "train_steps_per_second": 0.847
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 0.01,
-    "eval_bleu": 0.0331,
-    "eval_gen_len": 124.5707,
-    "eval_loss": 3.317145347595215,
-    "eval_runtime": 75.5891,
-    "eval_samples": 622,
-    "eval_samples_per_second": 8.229,
-    "eval_steps_per_second": 1.032
 }

 {
+    "epoch": 3.0,
+    "eval_bleu": 3.1263,
+    "eval_gen_len": 101.3243,
+    "eval_loss": 2.2739031314849854,
+    "eval_runtime": 177.4487,
+    "eval_samples": 12422,
+    "eval_samples_per_second": 70.003,
+    "eval_steps_per_second": 0.552
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.01,
-    "train_loss": 3.6924142456054687,
-    "train_runtime": 9.393,
     "train_samples": 62107,
-    "train_samples_per_second": 85.17,
-    "train_steps_per_second": 10.646
 }

 {
+    "epoch": 3.0,
+    "train_loss": 2.8308688191229425,
+    "train_runtime": 860.89,
     "train_samples": 62107,
+    "train_samples_per_second": 216.428,
+    "train_steps_per_second": 0.847
 }

trainer_state.json CHANGED Viewed

@@ -1,25 +1,31 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01287995878413189,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
-      "step": 100,
-      "total_flos": 19701488959488.0,
-      "train_loss": 3.6924142456054687,
-      "train_runtime": 9.393,
-      "train_samples_per_second": 85.17,
-      "train_steps_per_second": 10.646
     }
   ],
-  "max_steps": 100,
-  "num_train_epochs": 1,
-  "total_flos": 19701488959488.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "global_step": 729,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 2.06,
+      "learning_rate": 1.570644718792867e-05,
+      "loss": 2.9439,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "step": 729,
+      "total_flos": 6806063508836352.0,
+      "train_loss": 2.8308688191229425,
+      "train_runtime": 860.89,
+      "train_samples_per_second": 216.428,
+      "train_steps_per_second": 0.847
     }
   ],
+  "max_steps": 729,
+  "num_train_epochs": 3,
+  "total_flos": 6806063508836352.0,
   "trial_name": null,
   "trial_params": null
 }