Model save

Browse files

Files changed (5) hide show

all_results.json +5 -5
tokenizer.json +6 -1
train_results.json +5 -5
trainer_state.json +12 -150
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 2.0967203749837324,
-    "train_runtime": 2434.7534,
     "train_samples": 62107,
-    "train_samples_per_second": 76.526,
-    "train_steps_per_second": 4.783
 }

 {
+    "epoch": 0.01,
+    "train_loss": 3.6924142456054687,
+    "train_runtime": 10.341,
     "train_samples": 62107,
+    "train_samples_per_second": 77.362,
+    "train_steps_per_second": 9.67
 }

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 128,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 2.0967203749837324,
-    "train_runtime": 2434.7534,
     "train_samples": 62107,
-    "train_samples_per_second": 76.526,
-    "train_steps_per_second": 4.783
 }

 {
+    "epoch": 0.01,
+    "train_loss": 3.6924142456054687,
+    "train_runtime": 10.341,
     "train_samples": 62107,
+    "train_samples_per_second": 77.362,
+    "train_steps_per_second": 9.67
 }

trainer_state.json CHANGED Viewed

@@ -1,163 +1,25 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "global_step": 11646,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.13,
-      "learning_rate": 4.7853340202644685e-05,
-      "loss": 3.1971,
-      "step": 500
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 4.570668040528937e-05,
-      "loss": 2.7354,
-      "step": 1000
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 4.356002060793406e-05,
-      "loss": 2.5217,
-      "step": 1500
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 4.1413360810578746e-05,
-      "loss": 2.3945,
-      "step": 2000
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 3.926670101322343e-05,
-      "loss": 2.2924,
-      "step": 2500
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 3.712004121586811e-05,
-      "loss": 2.2309,
-      "step": 3000
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 3.4973381418512793e-05,
-      "loss": 2.1581,
-      "step": 3500
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 3.282672162115748e-05,
-      "loss": 2.1062,
-      "step": 4000
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 3.0680061823802165e-05,
-      "loss": 2.0668,
-      "step": 4500
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 2.8533402026446848e-05,
-      "loss": 2.017,
-      "step": 5000
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 2.6386742229091534e-05,
-      "loss": 1.9905,
-      "step": 5500
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 2.424008243173622e-05,
-      "loss": 1.9665,
-      "step": 6000
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 2.2093422634380902e-05,
-      "loss": 1.9443,
-      "step": 6500
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 1.994676283702559e-05,
-      "loss": 1.9293,
-      "step": 7000
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 1.7800103039670274e-05,
-      "loss": 1.8996,
-      "step": 7500
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 1.5653443242314956e-05,
-      "loss": 1.8974,
-      "step": 8000
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 1.3506783444959644e-05,
-      "loss": 1.8627,
-      "step": 8500
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 1.1360123647604328e-05,
-      "loss": 1.868,
-      "step": 9000
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 9.213463850249012e-06,
-      "loss": 1.8579,
-      "step": 9500
-    },
-    {
-      "epoch": 2.58,
-      "learning_rate": 7.066804052893698e-06,
-      "loss": 1.8435,
-      "step": 10000
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 4.9201442555383824e-06,
-      "loss": 1.8395,
-      "step": 10500
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 2.7734844581830675e-06,
-      "loss": 1.8345,
-      "step": 11000
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 6.26824660827752e-07,
-      "loss": 1.8475,
-      "step": 11500
-    },
-    {
-      "epoch": 3.0,
-      "step": 11646,
-      "total_flos": 5065259927605248.0,
-      "train_loss": 2.0967203749837324,
-      "train_runtime": 2434.7534,
-      "train_samples_per_second": 76.526,
-      "train_steps_per_second": 4.783
     }
   ],
-  "max_steps": 11646,
-  "num_train_epochs": 3,
-  "total_flos": 5065259927605248.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01287995878413189,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "step": 100,
+      "total_flos": 19701488959488.0,
+      "train_loss": 3.6924142456054687,
+      "train_runtime": 10.341,
+      "train_samples_per_second": 77.362,
+      "train_steps_per_second": 9.67
     }
   ],
+  "max_steps": 100,
+  "num_train_epochs": 1,
+  "total_flos": 19701488959488.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b073f1c34a6d9d29417c68b7cb004fbc40f0fd3ffab51d8c9fcaae20ffb3423
 size 3515

 version https://git-lfs.github.com/spec/v1
+oid sha256:d190fa24deb5ce9547e445f8d59cb6f296f3e35503e5600f11ef2b45a7ff4532
 size 3515