Model save

Browse files

Files changed (8) hide show

README.md +5 -5
adapter_model.safetensors +1 -1
all_results.json +7 -7
eval_results.json +4 -4
runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705750682.98f107f1aa39.59272.4 +2 -2
runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705753939.98f107f1aa39.59272.5 +3 -0
train_results.json +3 -3
trainer_state.json +28 -28

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1380
 ## Model description
@@ -53,10 +53,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.2298        | 0.24  | 10   | 1.1998          |
-| 1.1885        | 0.47  | 20   | 1.1653          |
-| 1.1674        | 0.71  | 30   | 1.1437          |
-| 1.1425        | 0.94  | 40   | 1.1381          |
 ### Framework versions

 This model was trained from scratch on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0960
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.1426        | 0.24  | 10   | 1.1188          |
+| 1.1231        | 0.47  | 20   | 1.1059          |
+| 1.1179        | 0.71  | 30   | 1.0980          |
+| 1.0996        | 0.94  | 40   | 1.0960          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dcf27382f9343aea17e111337d9c6094ac2dc8a3fbe7fcf22382e0762086c07
 size 26361536

 version https://git-lfs.github.com/spec/v1
+oid sha256:b77423e9e5c77df262228b9f295ec2abea364b28a2bab5fb18c4cee6d7b02eb2
 size 26361536

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 0.99,
-    "eval_loss": 1.1380302906036377,
-    "eval_runtime": 24.4133,
     "eval_samples": 662,
-    "eval_samples_per_second": 5.284,
-    "eval_steps_per_second": 1.761,
-    "train_loss": 1.1835048993428547,
-    "train_runtime": 3217.2275,
     "train_samples": 25778,
-    "train_samples_per_second": 1.58,
     "train_steps_per_second": 0.013
 }

 {
     "epoch": 0.99,
+    "eval_loss": 1.0960137844085693,
+    "eval_runtime": 24.5095,
     "eval_samples": 662,
+    "eval_samples_per_second": 5.263,
+    "eval_steps_per_second": 1.754,
+    "train_loss": 1.1202537786392939,
+    "train_runtime": 3231.7229,
     "train_samples": 25778,
+    "train_samples_per_second": 1.573,
     "train_steps_per_second": 0.013
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.99,
-    "eval_loss": 1.1380302906036377,
-    "eval_runtime": 24.4133,
     "eval_samples": 662,
-    "eval_samples_per_second": 5.284,
-    "eval_steps_per_second": 1.761
 }

 {
     "epoch": 0.99,
+    "eval_loss": 1.0960137844085693,
+    "eval_runtime": 24.5095,
     "eval_samples": 662,
+    "eval_samples_per_second": 5.263,
+    "eval_steps_per_second": 1.754
 }

runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705750682.98f107f1aa39.59272.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3302fa769112ff2ca196cf2d893c9a4f1a22adf744dd15b17da99e6f72411ad6
-size 5829

 version https://git-lfs.github.com/spec/v1
+oid sha256:abeb8e13bed27601bddd443f99fda8e56512b3be9d32ffeaa9dcb792961a7819
+size 7325

runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705753939.98f107f1aa39.59272.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a846cd015e10aaaac27acf02b1f97fda3c0f61fb8939c4b4caee0d7c27a80aef
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.99,
-    "train_loss": 1.1835048993428547,
-    "train_runtime": 3217.2275,
     "train_samples": 25778,
-    "train_samples_per_second": 1.58,
     "train_steps_per_second": 0.013
 }

 {
     "epoch": 0.99,
+    "train_loss": 1.1202537786392939,
+    "train_runtime": 3231.7229,
     "train_samples": 25778,
+    "train_samples_per_second": 1.573,
     "train_steps_per_second": 0.013
 }

trainer_state.json CHANGED Viewed

@@ -11,96 +11,96 @@
     {
       "epoch": 0.02,
       "learning_rate": 4.9930094929529506e-05,
-      "loss": 1.2348,
       "step": 1
     },
     {
       "epoch": 0.12,
       "learning_rate": 4.827184371610511e-05,
-      "loss": 1.2258,
       "step": 5
     },
     {
       "epoch": 0.24,
       "learning_rate": 4.332629679574566e-05,
-      "loss": 1.2298,
       "step": 10
     },
     {
       "epoch": 0.24,
-      "eval_loss": 1.1997809410095215,
-      "eval_runtime": 24.4233,
-      "eval_samples_per_second": 5.282,
-      "eval_steps_per_second": 1.761,
       "step": 10
     },
     {
       "epoch": 0.35,
       "learning_rate": 3.5847093477938956e-05,
-      "loss": 1.2091,
       "step": 15
     },
     {
       "epoch": 0.47,
       "learning_rate": 2.686825233966061e-05,
-      "loss": 1.1885,
       "step": 20
     },
     {
       "epoch": 0.47,
-      "eval_loss": 1.1652644872665405,
-      "eval_runtime": 24.4242,
-      "eval_samples_per_second": 5.282,
-      "eval_steps_per_second": 1.761,
       "step": 20
     },
     {
       "epoch": 0.59,
       "learning_rate": 1.7631120639727393e-05,
-      "loss": 1.1647,
       "step": 25
     },
     {
       "epoch": 0.71,
       "learning_rate": 9.412754953531663e-06,
-      "loss": 1.1674,
       "step": 30
     },
     {
       "epoch": 0.71,
-      "eval_loss": 1.1437482833862305,
-      "eval_runtime": 24.4259,
-      "eval_samples_per_second": 5.281,
-      "eval_steps_per_second": 1.76,
       "step": 30
     },
     {
       "epoch": 0.83,
       "learning_rate": 3.3493649053890326e-06,
-      "loss": 1.151,
       "step": 35
     },
     {
       "epoch": 0.94,
       "learning_rate": 2.7922934437178695e-07,
-      "loss": 1.1425,
       "step": 40
     },
     {
       "epoch": 0.94,
-      "eval_loss": 1.1380583047866821,
-      "eval_runtime": 24.4167,
-      "eval_samples_per_second": 5.283,
-      "eval_steps_per_second": 1.761,
       "step": 40
     },
     {
       "epoch": 0.99,
       "step": 42,
       "total_flos": 6.447644673468006e+16,
-      "train_loss": 1.1835048993428547,
-      "train_runtime": 3217.2275,
-      "train_samples_per_second": 1.58,
       "train_steps_per_second": 0.013
     }
   ],

     {
       "epoch": 0.02,
       "learning_rate": 4.9930094929529506e-05,
+      "loss": 1.1464,
       "step": 1
     },
     {
       "epoch": 0.12,
       "learning_rate": 4.827184371610511e-05,
+      "loss": 1.1371,
       "step": 5
     },
     {
       "epoch": 0.24,
       "learning_rate": 4.332629679574566e-05,
+      "loss": 1.1426,
       "step": 10
     },
     {
       "epoch": 0.24,
+      "eval_loss": 1.1187583208084106,
+      "eval_runtime": 24.53,
+      "eval_samples_per_second": 5.259,
+      "eval_steps_per_second": 1.753,
       "step": 10
     },
     {
       "epoch": 0.35,
       "learning_rate": 3.5847093477938956e-05,
+      "loss": 1.1312,
       "step": 15
     },
     {
       "epoch": 0.47,
       "learning_rate": 2.686825233966061e-05,
+      "loss": 1.1231,
       "step": 20
     },
     {
       "epoch": 0.47,
+      "eval_loss": 1.105903148651123,
+      "eval_runtime": 24.5343,
+      "eval_samples_per_second": 5.258,
+      "eval_steps_per_second": 1.753,
       "step": 20
     },
     {
       "epoch": 0.59,
       "learning_rate": 1.7631120639727393e-05,
+      "loss": 1.1075,
       "step": 25
     },
     {
       "epoch": 0.71,
       "learning_rate": 9.412754953531663e-06,
+      "loss": 1.1179,
       "step": 30
     },
     {
       "epoch": 0.71,
+      "eval_loss": 1.0980486869812012,
+      "eval_runtime": 24.5445,
+      "eval_samples_per_second": 5.256,
+      "eval_steps_per_second": 1.752,
       "step": 30
     },
     {
       "epoch": 0.83,
       "learning_rate": 3.3493649053890326e-06,
+      "loss": 1.1059,
       "step": 35
     },
     {
       "epoch": 0.94,
       "learning_rate": 2.7922934437178695e-07,
+      "loss": 1.0996,
       "step": 40
     },
     {
       "epoch": 0.94,
+      "eval_loss": 1.0960252285003662,
+      "eval_runtime": 24.5306,
+      "eval_samples_per_second": 5.259,
+      "eval_steps_per_second": 1.753,
       "step": 40
     },
     {
       "epoch": 0.99,
       "step": 42,
       "total_flos": 6.447644673468006e+16,
+      "train_loss": 1.1202537786392939,
+      "train_runtime": 3231.7229,
+      "train_samples_per_second": 1.573,
       "train_steps_per_second": 0.013
     }
   ],