Model save

Browse files

Files changed (8) hide show

README.md +5 -5
adapter_model.safetensors +1 -1
all_results.json +7 -7
eval_results.json +4 -4
runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705753968.98f107f1aa39.59272.6 +3 -0
runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705757227.98f107f1aa39.59272.7 +3 -0
train_results.json +3 -3
trainer_state.json +28 -28

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0960
 ## Model description
@@ -53,10 +53,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.1426        | 0.24  | 10   | 1.1188          |
-| 1.1231        | 0.47  | 20   | 1.1059          |
-| 1.1179        | 0.71  | 30   | 1.0980          |
-| 1.0996        | 0.94  | 40   | 1.0960          |
 ### Framework versions

 This model was trained from scratch on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0652
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.1071        | 0.24  | 10   | 1.0860          |
+| 1.0907        | 0.47  | 20   | 1.0738          |
+| 1.0866        | 0.71  | 30   | 1.0668          |
+| 1.0689        | 0.94  | 40   | 1.0651          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b77423e9e5c77df262228b9f295ec2abea364b28a2bab5fb18c4cee6d7b02eb2
 size 26361536

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9b9f19a24a946876ca90aac25fd050ca7663b33d4fd45b3c2892c13eab09e43
 size 26361536

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 0.99,
-    "eval_loss": 1.0960137844085693,
-    "eval_runtime": 24.5095,
     "eval_samples": 662,
-    "eval_samples_per_second": 5.263,
-    "eval_steps_per_second": 1.754,
-    "train_loss": 1.1202537786392939,
-    "train_runtime": 3231.7229,
     "train_samples": 25778,
-    "train_samples_per_second": 1.573,
     "train_steps_per_second": 0.013
 }

 {
     "epoch": 0.99,
+    "eval_loss": 1.065171241760254,
+    "eval_runtime": 24.5369,
     "eval_samples": 662,
+    "eval_samples_per_second": 5.257,
+    "eval_steps_per_second": 1.752,
+    "train_loss": 1.086761324178605,
+    "train_runtime": 3234.0471,
     "train_samples": 25778,
+    "train_samples_per_second": 1.572,
     "train_steps_per_second": 0.013
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.99,
-    "eval_loss": 1.0960137844085693,
-    "eval_runtime": 24.5095,
     "eval_samples": 662,
-    "eval_samples_per_second": 5.263,
-    "eval_steps_per_second": 1.754
 }

 {
     "epoch": 0.99,
+    "eval_loss": 1.065171241760254,
+    "eval_runtime": 24.5369,
     "eval_samples": 662,
+    "eval_samples_per_second": 5.257,
+    "eval_steps_per_second": 1.752
 }

runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705753968.98f107f1aa39.59272.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8d04a6f1a20f74d8f3422d034e15890256809aa0ad8dde02bc2e290a2f6c23e
+size 7325

runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705757227.98f107f1aa39.59272.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69ff3272d7f81aae2f826dfac3b2bb721af5873dd7c85fc894e73e349ed3cc20
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.99,
-    "train_loss": 1.1202537786392939,
-    "train_runtime": 3231.7229,
     "train_samples": 25778,
-    "train_samples_per_second": 1.573,
     "train_steps_per_second": 0.013
 }

 {
     "epoch": 0.99,
+    "train_loss": 1.086761324178605,
+    "train_runtime": 3234.0471,
     "train_samples": 25778,
+    "train_samples_per_second": 1.572,
     "train_steps_per_second": 0.013
 }

trainer_state.json CHANGED Viewed

@@ -11,96 +11,96 @@
     {
       "epoch": 0.02,
       "learning_rate": 4.9930094929529506e-05,
-      "loss": 1.1464,
       "step": 1
     },
     {
       "epoch": 0.12,
       "learning_rate": 4.827184371610511e-05,
-      "loss": 1.1371,
       "step": 5
     },
     {
       "epoch": 0.24,
       "learning_rate": 4.332629679574566e-05,
-      "loss": 1.1426,
       "step": 10
     },
     {
       "epoch": 0.24,
-      "eval_loss": 1.1187583208084106,
-      "eval_runtime": 24.53,
-      "eval_samples_per_second": 5.259,
-      "eval_steps_per_second": 1.753,
       "step": 10
     },
     {
       "epoch": 0.35,
       "learning_rate": 3.5847093477938956e-05,
-      "loss": 1.1312,
       "step": 15
     },
     {
       "epoch": 0.47,
       "learning_rate": 2.686825233966061e-05,
-      "loss": 1.1231,
       "step": 20
     },
     {
       "epoch": 0.47,
-      "eval_loss": 1.105903148651123,
-      "eval_runtime": 24.5343,
-      "eval_samples_per_second": 5.258,
-      "eval_steps_per_second": 1.753,
       "step": 20
     },
     {
       "epoch": 0.59,
       "learning_rate": 1.7631120639727393e-05,
-      "loss": 1.1075,
       "step": 25
     },
     {
       "epoch": 0.71,
       "learning_rate": 9.412754953531663e-06,
-      "loss": 1.1179,
       "step": 30
     },
     {
       "epoch": 0.71,
-      "eval_loss": 1.0980486869812012,
-      "eval_runtime": 24.5445,
-      "eval_samples_per_second": 5.256,
-      "eval_steps_per_second": 1.752,
       "step": 30
     },
     {
       "epoch": 0.83,
       "learning_rate": 3.3493649053890326e-06,
-      "loss": 1.1059,
       "step": 35
     },
     {
       "epoch": 0.94,
       "learning_rate": 2.7922934437178695e-07,
-      "loss": 1.0996,
       "step": 40
     },
     {
       "epoch": 0.94,
-      "eval_loss": 1.0960252285003662,
-      "eval_runtime": 24.5306,
-      "eval_samples_per_second": 5.259,
-      "eval_steps_per_second": 1.753,
       "step": 40
     },
     {
       "epoch": 0.99,
       "step": 42,
       "total_flos": 6.447644673468006e+16,
-      "train_loss": 1.1202537786392939,
-      "train_runtime": 3231.7229,
-      "train_samples_per_second": 1.573,
       "train_steps_per_second": 0.013
     }
   ],

     {
       "epoch": 0.02,
       "learning_rate": 4.9930094929529506e-05,
+      "loss": 1.1016,
       "step": 1
     },
     {
       "epoch": 0.12,
       "learning_rate": 4.827184371610511e-05,
+      "loss": 1.0942,
       "step": 5
     },
     {
       "epoch": 0.24,
       "learning_rate": 4.332629679574566e-05,
+      "loss": 1.1071,
       "step": 10
     },
     {
       "epoch": 0.24,
+      "eval_loss": 1.0860216617584229,
+      "eval_runtime": 24.5643,
+      "eval_samples_per_second": 5.252,
+      "eval_steps_per_second": 1.751,
       "step": 10
     },
     {
       "epoch": 0.35,
       "learning_rate": 3.5847093477938956e-05,
+      "loss": 1.0982,
       "step": 15
     },
     {
       "epoch": 0.47,
       "learning_rate": 2.686825233966061e-05,
+      "loss": 1.0907,
       "step": 20
     },
     {
       "epoch": 0.47,
+      "eval_loss": 1.0737882852554321,
+      "eval_runtime": 24.5637,
+      "eval_samples_per_second": 5.252,
+      "eval_steps_per_second": 1.751,
       "step": 20
     },
     {
       "epoch": 0.59,
       "learning_rate": 1.7631120639727393e-05,
+      "loss": 1.0756,
       "step": 25
     },
     {
       "epoch": 0.71,
       "learning_rate": 9.412754953531663e-06,
+      "loss": 1.0866,
       "step": 30
     },
     {
       "epoch": 0.71,
+      "eval_loss": 1.0668362379074097,
+      "eval_runtime": 24.554,
+      "eval_samples_per_second": 5.254,
+      "eval_steps_per_second": 1.751,
       "step": 30
     },
     {
       "epoch": 0.83,
       "learning_rate": 3.3493649053890326e-06,
+      "loss": 1.0749,
       "step": 35
     },
     {
       "epoch": 0.94,
       "learning_rate": 2.7922934437178695e-07,
+      "loss": 1.0689,
       "step": 40
     },
     {
       "epoch": 0.94,
+      "eval_loss": 1.0651096105575562,
+      "eval_runtime": 24.5601,
+      "eval_samples_per_second": 5.252,
+      "eval_steps_per_second": 1.751,
       "step": 40
     },
     {
       "epoch": 0.99,
       "step": 42,
       "total_flos": 6.447644673468006e+16,
+      "train_loss": 1.086761324178605,
+      "train_runtime": 3234.0471,
+      "train_samples_per_second": 1.572,
       "train_steps_per_second": 0.013
     }
   ],