marinone94
/

xls-r-300m-sv-robust

@@ -1,14 +1,14 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 3.82973051071167,
-    "eval_runtime": 132.808,
     "eval_samples": 4620,
-    "eval_samples_per_second": 34.787,
-    "eval_steps_per_second": 4.352,
     "eval_wer": 1.0,
-    "train_loss": 7.050228030182595,
-    "train_runtime": 437.537,
     "train_samples": 11030,
-    "train_samples_per_second": 25.209,
-    "train_steps_per_second": 0.786
 }

 {
+    "epoch": 2.0,
+    "eval_loss": 2.91414213180542,
+    "eval_runtime": 133.9783,
     "eval_samples": 4620,
+    "eval_samples_per_second": 34.483,
+    "eval_steps_per_second": 4.314,
     "eval_wer": 1.0,
+    "train_loss": 3.289040254992108,
+    "train_runtime": 1292.4856,
     "train_samples": 11030,
+    "train_samples_per_second": 17.068,
+    "train_steps_per_second": 0.532
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 3.82973051071167,
-    "eval_runtime": 132.808,
     "eval_samples": 4620,
-    "eval_samples_per_second": 34.787,
-    "eval_steps_per_second": 4.352,
     "eval_wer": 1.0
 }

 {
+    "epoch": 2.0,
+    "eval_loss": 2.91414213180542,
+    "eval_runtime": 133.9783,
     "eval_samples": 4620,
+    "eval_samples_per_second": 34.483,
+    "eval_steps_per_second": 4.314,
     "eval_wer": 1.0
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed159635bd947770842e25d915d8157fd198d2f06d5db2476c6663627e3beee7
 size 1262075377

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c01bc756f9d54db8c90d48e01252abf1115ffe23b3c7297aa9b48389b4e9132
 size 1262075377

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 7.050228030182595,
-    "train_runtime": 437.537,
     "train_samples": 11030,
-    "train_samples_per_second": 25.209,
-    "train_steps_per_second": 0.786
 }

 {
+    "epoch": 2.0,
+    "train_loss": 3.289040254992108,
+    "train_runtime": 1292.4856,
     "train_samples": 11030,
+    "train_samples_per_second": 17.068,
+    "train_steps_per_second": 0.532
 }

trainer_state.json CHANGED Viewed

@@ -1,43 +1,70 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9978245105148659,
-  "global_step": 344,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.29,
-      "learning_rate": 3.7125e-06,
-      "loss": 12.2666,
       "step": 100
     },
     {
       "epoch": 0.58,
-      "learning_rate": 7.4625e-06,
-      "loss": 6.1937,
       "step": 200
     },
     {
       "epoch": 0.87,
-      "learning_rate": 1.1212499999999998e-05,
-      "loss": 4.1366,
       "step": 300
     },
     {
-      "epoch": 1.0,
-      "step": 344,
-      "total_flos": 1.0141067319340954e+18,
-      "train_loss": 7.050228030182595,
-      "train_runtime": 437.537,
-      "train_samples_per_second": 25.209,
-      "train_steps_per_second": 0.786
     }
   ],
-  "max_steps": 344,
-  "num_train_epochs": 1,
-  "total_flos": 1.0141067319340954e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.997824510514866,
+  "global_step": 688,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.29,
+      "learning_rate": 6.613023952095809e-05,
+      "loss": 5.1206,
       "step": 100
     },
     {
       "epoch": 0.58,
+      "learning_rate": 5.490269461077844e-05,
+      "loss": 3.0901,
       "step": 200
     },
     {
       "epoch": 0.87,
+      "learning_rate": 4.36751497005988e-05,
+      "loss": 3.0224,
       "step": 300
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 3.244760479041916e-05,
+      "loss": 2.9922,
+      "step": 400
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 2.1220059880239517e-05,
+      "loss": 2.9357,
+      "step": 500
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 2.9458744525909424,
+      "eval_runtime": 138.8724,
+      "eval_samples_per_second": 33.268,
+      "eval_steps_per_second": 4.162,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 9.99251497005988e-06,
+      "loss": 2.9153,
+      "step": 600
+    },
+    {
+      "epoch": 2.0,
+      "step": 688,
+      "total_flos": 2.0290377210557414e+18,
+      "train_loss": 3.289040254992108,
+      "train_runtime": 1292.4856,
+      "train_samples_per_second": 17.068,
+      "train_steps_per_second": 0.532
     }
   ],
+  "max_steps": 688,
+  "num_train_epochs": 2,
+  "total_flos": 2.0290377210557414e+18,
   "trial_name": null,
   "trial_params": null
 }