AlekseyKorshuk
/

amazon-reviews-input-output

@@ -1,15 +1,15 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.003719512195121951,
-    "eval_loss": 13.134621620178223,
-    "eval_runtime": 7.7183,
     "eval_samples": 100,
-    "eval_samples_per_second": 12.956,
-    "eval_steps_per_second": 0.518,
-    "perplexity": 506166.8414857262,
-    "train_loss": 1.9150060657411814,
-    "train_runtime": 30.0037,
     "train_samples": 1000,
-    "train_samples_per_second": 33.329,
-    "train_steps_per_second": 1.067
 }

 {
+    "epoch": 0.99,
+    "eval_accuracy": 0.08528455284552845,
+    "eval_loss": 0.20656633377075195,
+    "eval_runtime": 2.0736,
     "eval_samples": 100,
+    "eval_samples_per_second": 48.225,
+    "eval_steps_per_second": 1.929,
+    "perplexity": 1.2294492855192867,
+    "train_loss": 1.0375519144919612,
+    "train_runtime": 119.5105,
     "train_samples": 1000,
+    "train_samples_per_second": 8.367,
+    "train_steps_per_second": 0.259
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,10 @@
 {
-    "eval_accuracy": 0.003719512195121951,
-    "eval_loss": 13.134621620178223,
-    "eval_runtime": 7.7183,
     "eval_samples": 100,
-    "eval_samples_per_second": 12.956,
-    "eval_steps_per_second": 0.518,
-    "perplexity": 506166.8414857262
 }

 {
+    "epoch": 0.99,
+    "eval_accuracy": 0.08528455284552845,
+    "eval_loss": 0.20656633377075195,
+    "eval_runtime": 2.0736,
     "eval_samples": 100,
+    "eval_samples_per_second": 48.225,
+    "eval_steps_per_second": 1.929,
+    "perplexity": 1.2294492855192867
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 1.9150060657411814,
-    "train_runtime": 30.0037,
     "train_samples": 1000,
-    "train_samples_per_second": 33.329,
-    "train_steps_per_second": 1.067
 }

 {
+    "epoch": 0.99,
+    "train_loss": 1.0375519144919612,
+    "train_runtime": 119.5105,
     "train_samples": 1000,
+    "train_samples_per_second": 8.367,
+    "train_steps_per_second": 0.259
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "global_step": 32,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,37 +10,37 @@
     {
       "epoch": 0.03,
       "learning_rate": 5e-05,
-      "loss": 13.8997,
       "step": 1
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 1.5625e-05,
-      "loss": 1.9481,
       "step": 25
     },
     {
-      "epoch": 0.78,
-      "eval_accuracy": 0.08502032520325203,
-      "eval_loss": 0.215184286236763,
-      "eval_runtime": 1.9024,
-      "eval_samples_per_second": 52.566,
-      "eval_steps_per_second": 2.103,
       "step": 25
     },
     {
-      "epoch": 1.0,
-      "step": 32,
-      "total_flos": 946476810240000.0,
-      "train_loss": 1.9150060657411814,
-      "train_runtime": 30.0037,
-      "train_samples_per_second": 33.329,
-      "train_steps_per_second": 1.067
     }
   ],
-  "max_steps": 32,
   "num_train_epochs": 1,
-  "total_flos": 946476810240000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.992,
+  "global_step": 31,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.03,
       "learning_rate": 5e-05,
+      "loss": 13.7576,
       "step": 1
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 1.129032258064516e-05,
+      "loss": 0.761,
       "step": 25
     },
     {
+      "epoch": 0.8,
+      "eval_accuracy": 0.0851829268292683,
+      "eval_loss": 0.21037571132183075,
+      "eval_runtime": 1.8873,
+      "eval_samples_per_second": 52.986,
+      "eval_steps_per_second": 2.119,
       "step": 25
     },
     {
+      "epoch": 0.99,
+      "step": 31,
+      "total_flos": 938904995758080.0,
+      "train_loss": 1.0375519144919612,
+      "train_runtime": 119.5105,
+      "train_samples_per_second": 8.367,
+      "train_steps_per_second": 0.259
     }
   ],
+  "max_steps": 31,
   "num_train_epochs": 1,
+  "total_flos": 938904995758080.0,
   "trial_name": null,
   "trial_params": null
 }