Model save

Browse files

Files changed (7) hide show

README.md +1 -1
all_results.json +14 -14
eval_results.json +10 -10
model.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +102 -12
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -37,7 +37,7 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 3.0
 ### Training results

 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 7.0
 ### Training results

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
-    "epoch": 1.0,
-    "eval_gen_len": 78.04093919325707,
-    "eval_loss": 1.0967354774475098,
-    "eval_rouge1": 9.6103,
-    "eval_rouge2": 3.2602,
-    "eval_rougeL": 9.4833,
-    "eval_rougeLsum": 9.5204,
-    "eval_runtime": 305.3578,
     "eval_samples": 1661,
-    "eval_samples_per_second": 5.44,
-    "eval_steps_per_second": 1.362,
-    "train_loss": 1.3809210790793738,
-    "train_runtime": 2386.364,
     "train_samples": 14964,
-    "train_samples_per_second": 6.271,
-    "train_steps_per_second": 1.568
 }

 {
+    "epoch": 3.0,
+    "eval_gen_len": 81.00240818783865,
+    "eval_loss": 1.0256497859954834,
+    "eval_rouge1": 11.0948,
+    "eval_rouge2": 3.7099,
+    "eval_rougeL": 10.8859,
+    "eval_rougeLsum": 10.9048,
+    "eval_runtime": 310.5094,
     "eval_samples": 1661,
+    "eval_samples_per_second": 5.349,
+    "eval_steps_per_second": 1.34,
+    "train_loss": 0.5631158361882754,
+    "train_runtime": 5240.7351,
     "train_samples": 14964,
+    "train_samples_per_second": 8.566,
+    "train_steps_per_second": 2.141
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 1.0,
-    "eval_gen_len": 78.04093919325707,
-    "eval_loss": 1.0967354774475098,
-    "eval_rouge1": 9.6103,
-    "eval_rouge2": 3.2602,
-    "eval_rougeL": 9.4833,
-    "eval_rougeLsum": 9.5204,
-    "eval_runtime": 305.3578,
     "eval_samples": 1661,
-    "eval_samples_per_second": 5.44,
-    "eval_steps_per_second": 1.362
 }

 {
+    "epoch": 3.0,
+    "eval_gen_len": 81.00240818783865,
+    "eval_loss": 1.0256497859954834,
+    "eval_rouge1": 11.0948,
+    "eval_rouge2": 3.7099,
+    "eval_rougeL": 10.8859,
+    "eval_rougeLsum": 10.9048,
+    "eval_runtime": 310.5094,
     "eval_samples": 1661,
+    "eval_samples_per_second": 5.349,
+    "eval_steps_per_second": 1.34
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37846d11c8151954bf5997b55c431a0d3e59a1f8018b9c208ebb8eed603b171c
 size 2444578688

 version https://git-lfs.github.com/spec/v1
+oid sha256:489ffc4b625aae8b37eacc9372da4e7fb224d61ccfb879c9c242053baecad364
 size 2444578688

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 1.3809210790793738,
-    "train_runtime": 2386.364,
     "train_samples": 14964,
-    "train_samples_per_second": 6.271,
-    "train_steps_per_second": 1.568
 }

 {
+    "epoch": 3.0,
+    "train_loss": 0.5631158361882754,
+    "train_runtime": 5240.7351,
     "train_samples": 14964,
+    "train_samples_per_second": 8.566,
+    "train_steps_per_second": 2.141
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 3741,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -51,21 +51,111 @@
       "step": 3500
     },
     {
-      "epoch": 1.0,
-      "step": 3741,
-      "total_flos": 1.70456184471552e+16,
-      "train_loss": 1.3809210790793738,
-      "train_runtime": 2386.364,
-      "train_samples_per_second": 6.271,
-      "train_steps_per_second": 1.568
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3741,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 1.70456184471552e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 11223,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 3500
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 3.217945290920431e-05,
+      "loss": 1.1143,
+      "step": 4000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 2.995188452285485e-05,
+      "loss": 1.0045,
+      "step": 4500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 2.772431613650539e-05,
+      "loss": 0.9933,
+      "step": 5000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 2.549674775015593e-05,
+      "loss": 0.9654,
+      "step": 5500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.326917936380647e-05,
+      "loss": 0.9793,
+      "step": 6000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.104161097745701e-05,
+      "loss": 0.979,
+      "step": 6500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.8814042591107548e-05,
+      "loss": 0.9534,
+      "step": 7000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.658647420475809e-05,
+      "loss": 0.9262,
+      "step": 7500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.4358905818408625e-05,
+      "loss": 0.6403,
+      "step": 8000
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.2131337432059165e-05,
+      "loss": 0.6348,
+      "step": 8500
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 9.903769045709705e-06,
+      "loss": 0.6605,
+      "step": 9000
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 7.676200659360243e-06,
+      "loss": 0.6282,
+      "step": 9500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 5.448632273010781e-06,
+      "loss": 0.632,
+      "step": 10000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 3.2210638866613206e-06,
+      "loss": 0.6298,
+      "step": 10500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 9.934955003118596e-07,
+      "loss": 0.6261,
+      "step": 11000
+    },
+    {
+      "epoch": 3.0,
+      "step": 11223,
+      "total_flos": 5.117130085328486e+16,
+      "train_loss": 0.5631158361882754,
+      "train_runtime": 5240.7351,
+      "train_samples_per_second": 8.566,
+      "train_steps_per_second": 2.141
     }
   ],
   "logging_steps": 500,
+  "max_steps": 11223,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 5.117130085328486e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fea473a216aa9aa4b033031c9e8f1485df505e03a5b11e6cee03b585b064ee7
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:88aa6844593b382092effed6f9be95b0657dbbe8f2c35be0770510ab0bddcbb6
 size 5048