End of training

Browse files

Files changed (10) hide show

README.md +16 -13
all_results.json +11 -11
config.json +10 -10
eval_results.json +6 -6
model.safetensors +1 -1
runs/Apr26_13-16-15_60e8964599d3/events.out.tfevents.1714137383.60e8964599d3.35.0 +3 -0
runs/Apr26_13-16-15_60e8964599d3/events.out.tfevents.1714139135.60e8964599d3.35.1 +3 -0
train_results.json +6 -6
trainer_state.json +204 -128
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/hubert-base-ls960](https://huggingface.co/facebook/hubert-base-ls960) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3189
-- Accuracy: 0.9444
 ## Model description
@@ -52,17 +52,20 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.7722        | 1.0   | 223  | 0.4733          | 0.8434   |
-| 0.4755        | 2.0   | 446  | 0.4240          | 0.8687   |
-| 0.3262        | 3.0   | 669  | 0.2939          | 0.9343   |
-| 0.2642        | 4.0   | 892  | 0.3087          | 0.9293   |
-| 0.191         | 5.0   | 1115 | 0.3079          | 0.9394   |
-| 0.1534        | 6.0   | 1338 | 0.3134          | 0.9394   |
-| 0.1571        | 7.0   | 1561 | 0.4009          | 0.9293   |
-| 0.1328        | 8.0   | 1784 | 0.3189          | 0.9444   |
-| 0.1567        | 9.0   | 2007 | 0.4089          | 0.9192   |
-| 0.1043        | 10.0  | 2230 | 0.3429          | 0.9343   |
-| 0.1161        | 11.0  | 2453 | 0.3534          | 0.9394   |
 ### Framework versions

 This model is a fine-tuned version of [facebook/hubert-base-ls960](https://huggingface.co/facebook/hubert-base-ls960) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2980
+- Accuracy: 0.9545
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 1.1628        | 1.0   | 223  | 0.7126          | 0.7727   |
+| 0.6562        | 2.0   | 446  | 0.5069          | 0.8485   |
+| 0.4199        | 3.0   | 669  | 0.3570          | 0.8990   |
+| 0.325         | 4.0   | 892  | 0.2092          | 0.9394   |
+| 0.2217        | 5.0   | 1115 | 0.2392          | 0.9444   |
+| 0.1831        | 6.0   | 1338 | 0.2754          | 0.9293   |
+| 0.1598        | 7.0   | 1561 | 0.3294          | 0.9343   |
+| 0.1676        | 8.0   | 1784 | 0.2669          | 0.9495   |
+| 0.1597        | 9.0   | 2007 | 0.3438          | 0.9293   |
+| 0.1132        | 10.0  | 2230 | 0.3159          | 0.9444   |
+| 0.1224        | 11.0  | 2453 | 0.2980          | 0.9545   |
+| 0.095         | 12.0  | 2676 | 0.2970          | 0.9444   |
+| 0.1087        | 13.0  | 2899 | 0.3449          | 0.9343   |
+| 0.1254        | 14.0  | 3122 | 0.3198          | 0.9444   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 11.0,
-    "eval_accuracy": 0.9444444179534912,
-    "eval_loss": 0.3189202845096588,
-    "eval_runtime": 9.0656,
-    "eval_samples_per_second": 21.841,
-    "eval_steps_per_second": 5.515,
-    "total_flos": 6.273609670944864e+17,
-    "train_loss": 0.2735439113728912,
-    "train_runtime": 1317.5896,
     "train_samples": 1781,
-    "train_samples_per_second": 20.276,
-    "train_steps_per_second": 2.539
 }

 {
+    "epoch": 14.0,
+    "eval_accuracy": 0.9545454382896423,
+    "eval_loss": 0.29796990752220154,
+    "eval_runtime": 8.9823,
+    "eval_samples_per_second": 22.043,
+    "eval_steps_per_second": 5.566,
+    "total_flos": 7.9842219974856e+17,
+    "train_loss": 0.30023268478028214,
+    "train_runtime": 1742.0026,
     "train_samples": 1781,
+    "train_samples_per_second": 15.336,
+    "train_steps_per_second": 1.92
 }

config.json CHANGED Viewed

@@ -53,20 +53,20 @@
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "id2label": {
-    "0": "Neutral",
-    "1": "Fearful",
-    "2": "Happy",
-    "3": "Sad",
-    "4": "Angry"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
-    "Neutral": 0,
-    "Fearful": 1,
-    "Happy": 2,
-    "Sad": 3,
-    "Angry": 4
   },
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.1,

   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "id2label": {
+    "0": "01Neutral",
+    "1": "02Fearful",
+    "2": "03Happy",
+    "3": "04Sad",
+    "4": "05Angry"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
+    "01Neutral": 0,
+    "02Fearful": 1,
+    "03Happy": 2,
+    "04Sad": 3,
+    "05Angry": 4
   },
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.1,

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 11.0,
-    "eval_accuracy": 0.9444444179534912,
-    "eval_loss": 0.3189202845096588,
-    "eval_runtime": 9.0656,
-    "eval_samples_per_second": 21.841,
-    "eval_steps_per_second": 5.515
 }

 {
+    "epoch": 14.0,
+    "eval_accuracy": 0.9545454382896423,
+    "eval_loss": 0.29796990752220154,
+    "eval_runtime": 8.9823,
+    "eval_samples_per_second": 22.043,
+    "eval_steps_per_second": 5.566
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9ca5e862fb246d7eaa7bfe0560a4177c3c1b4da82ae4c7765071e7b5f8402b5
 size 379890236

 version https://git-lfs.github.com/spec/v1
+oid sha256:5823ad5dc453f63bc711ccd08c86437beecb7c407032319c5660cf83beb4b2fd
 size 379890236

runs/Apr26_13-16-15_60e8964599d3/events.out.tfevents.1714137383.60e8964599d3.35.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dc75d4da3ec31eec728b4ec220ce2370e52770367a3ff760027c9b8782c8e90
+size 17226

runs/Apr26_13-16-15_60e8964599d3/events.out.tfevents.1714139135.60e8964599d3.35.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f9a7e227a5da52a6596d6b0f73bbcb80b399ac6e1ebdbe2c906f1682b73f3e8
+size 734

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 11.0,
-    "total_flos": 6.273609670944864e+17,
-    "train_loss": 0.2735439113728912,
-    "train_runtime": 1317.5896,
     "train_samples": 1781,
-    "train_samples_per_second": 20.276,
-    "train_steps_per_second": 2.539
 }

 {
+    "epoch": 14.0,
+    "total_flos": 7.9842219974856e+17,
+    "train_loss": 0.30023268478028214,
+    "train_runtime": 1742.0026,
     "train_samples": 1781,
+    "train_samples_per_second": 15.336,
+    "train_steps_per_second": 1.92
 }

trainer_state.json CHANGED Viewed

@@ -1,297 +1,373 @@
 {
-  "best_metric": 0.9444444179534912,
-  "best_model_checkpoint": "/kaggle/working/ckpts/checkpoint-1784",
-  "epoch": 11.0,
   "eval_steps": 500,
-  "global_step": 2453,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.45,
-      "grad_norm": 3.8796565532684326,
       "learning_rate": 9.701046337817639e-06,
-      "loss": 1.0979,
       "step": 100
     },
     {
       "epoch": 0.9,
-      "grad_norm": 2.6467082500457764,
-      "learning_rate": 9.4050822122571e-06,
-      "loss": 0.7722,
       "step": 200
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8434343338012695,
-      "eval_loss": 0.4733273386955261,
-      "eval_runtime": 9.4201,
-      "eval_samples_per_second": 21.019,
-      "eval_steps_per_second": 5.308,
       "step": 223
     },
     {
       "epoch": 1.35,
-      "grad_norm": 20.371318817138672,
       "learning_rate": 9.106128550074738e-06,
-      "loss": 0.5871,
       "step": 300
     },
     {
       "epoch": 1.79,
-      "grad_norm": 3.244633674621582,
       "learning_rate": 8.807174887892378e-06,
-      "loss": 0.4755,
       "step": 400
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.868686854839325,
-      "eval_loss": 0.42396825551986694,
-      "eval_runtime": 9.3161,
-      "eval_samples_per_second": 21.254,
-      "eval_steps_per_second": 5.367,
       "step": 446
     },
     {
       "epoch": 2.24,
-      "grad_norm": 8.883748054504395,
       "learning_rate": 8.51121076233184e-06,
-      "loss": 0.377,
       "step": 500
     },
     {
       "epoch": 2.69,
-      "grad_norm": 1.6546649932861328,
-      "learning_rate": 8.2152466367713e-06,
-      "loss": 0.3262,
       "step": 600
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9343434572219849,
-      "eval_loss": 0.2939111590385437,
-      "eval_runtime": 9.4493,
-      "eval_samples_per_second": 20.954,
-      "eval_steps_per_second": 5.291,
       "step": 669
     },
     {
       "epoch": 3.14,
-      "grad_norm": 7.946984767913818,
       "learning_rate": 7.916292974588939e-06,
-      "loss": 0.2347,
       "step": 700
     },
     {
       "epoch": 3.59,
-      "grad_norm": 9.960402488708496,
       "learning_rate": 7.617339312406578e-06,
-      "loss": 0.2642,
       "step": 800
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9292929172515869,
-      "eval_loss": 0.3087417781352997,
-      "eval_runtime": 9.224,
-      "eval_samples_per_second": 21.466,
-      "eval_steps_per_second": 5.421,
       "step": 892
     },
     {
       "epoch": 4.04,
-      "grad_norm": 87.66458129882812,
       "learning_rate": 7.318385650224216e-06,
-      "loss": 0.2608,
       "step": 900
     },
     {
       "epoch": 4.48,
-      "grad_norm": 42.06097412109375,
       "learning_rate": 7.019431988041854e-06,
-      "loss": 0.213,
       "step": 1000
     },
     {
       "epoch": 4.93,
-      "grad_norm": 21.227588653564453,
-      "learning_rate": 6.723467862481315e-06,
-      "loss": 0.191,
       "step": 1100
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.939393937587738,
-      "eval_loss": 0.30786794424057007,
-      "eval_runtime": 9.2259,
-      "eval_samples_per_second": 21.461,
-      "eval_steps_per_second": 5.42,
       "step": 1115
     },
     {
       "epoch": 5.38,
-      "grad_norm": 0.09492979198694229,
-      "learning_rate": 6.424514200298954e-06,
-      "loss": 0.1891,
       "step": 1200
     },
     {
       "epoch": 5.83,
-      "grad_norm": 22.492895126342773,
-      "learning_rate": 6.1255605381165925e-06,
-      "loss": 0.1534,
       "step": 1300
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.939393937587738,
-      "eval_loss": 0.3133719265460968,
-      "eval_runtime": 9.3193,
-      "eval_samples_per_second": 21.246,
-      "eval_steps_per_second": 5.365,
       "step": 1338
     },
     {
       "epoch": 6.28,
-      "grad_norm": 0.05382364243268967,
-      "learning_rate": 5.826606875934231e-06,
-      "loss": 0.1825,
       "step": 1400
     },
     {
       "epoch": 6.73,
-      "grad_norm": 5.18447732925415,
-      "learning_rate": 5.527653213751869e-06,
-      "loss": 0.1571,
       "step": 1500
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9292929172515869,
-      "eval_loss": 0.40089717507362366,
-      "eval_runtime": 9.2909,
-      "eval_samples_per_second": 21.311,
-      "eval_steps_per_second": 5.382,
       "step": 1561
     },
     {
       "epoch": 7.17,
-      "grad_norm": 0.036003902554512024,
       "learning_rate": 5.228699551569507e-06,
-      "loss": 0.1518,
       "step": 1600
     },
     {
       "epoch": 7.62,
-      "grad_norm": 0.10409737378358841,
       "learning_rate": 4.929745889387145e-06,
-      "loss": 0.1328,
       "step": 1700
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9444444179534912,
-      "eval_loss": 0.3189202845096588,
-      "eval_runtime": 9.3287,
-      "eval_samples_per_second": 21.225,
-      "eval_steps_per_second": 5.36,
       "step": 1784
     },
     {
       "epoch": 8.07,
-      "grad_norm": 6.580456733703613,
       "learning_rate": 4.630792227204783e-06,
-      "loss": 0.1127,
       "step": 1800
     },
     {
       "epoch": 8.52,
-      "grad_norm": 0.12464825063943863,
       "learning_rate": 4.3318385650224224e-06,
-      "loss": 0.1333,
       "step": 1900
     },
     {
       "epoch": 8.97,
-      "grad_norm": 127.78559112548828,
       "learning_rate": 4.03288490284006e-06,
-      "loss": 0.1567,
       "step": 2000
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9191918969154358,
-      "eval_loss": 0.40891000628471375,
-      "eval_runtime": 9.2849,
-      "eval_samples_per_second": 21.325,
-      "eval_steps_per_second": 5.385,
       "step": 2007
     },
     {
       "epoch": 9.42,
-      "grad_norm": 0.03460687771439552,
       "learning_rate": 3.7339312406576984e-06,
-      "loss": 0.1313,
       "step": 2100
     },
     {
       "epoch": 9.87,
-      "grad_norm": 3.1638216972351074,
       "learning_rate": 3.4349775784753366e-06,
-      "loss": 0.1043,
       "step": 2200
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9343434572219849,
-      "eval_loss": 0.34286314249038696,
-      "eval_runtime": 9.3365,
-      "eval_samples_per_second": 21.207,
-      "eval_steps_per_second": 5.355,
       "step": 2230
     },
     {
       "epoch": 10.31,
-      "grad_norm": 0.462053507566452,
       "learning_rate": 3.136023916292975e-06,
-      "loss": 0.1551,
       "step": 2300
     },
     {
       "epoch": 10.76,
-      "grad_norm": 0.5621947050094604,
       "learning_rate": 2.8370702541106134e-06,
-      "loss": 0.1161,
       "step": 2400
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.939393937587738,
-      "eval_loss": 0.3534471094608307,
-      "eval_runtime": 9.2307,
-      "eval_samples_per_second": 21.45,
-      "eval_steps_per_second": 5.417,
       "step": 2453
     },
     {
-      "epoch": 11.0,
-      "step": 2453,
-      "total_flos": 6.273609670944864e+17,
-      "train_loss": 0.2735439113728912,
-      "train_runtime": 1317.5896,
-      "train_samples_per_second": 20.276,
-      "train_steps_per_second": 2.539
     },
     {
-      "epoch": 11.0,
       "eval_accuracy": 0.9444444179534912,
-      "eval_loss": 0.3189202845096588,
-      "eval_runtime": 9.0656,
-      "eval_samples_per_second": 21.841,
-      "eval_steps_per_second": 5.515,
-      "step": 2453
     }
   ],
   "logging_steps": 100,
@@ -299,7 +375,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 15,
   "save_steps": 500,
-  "total_flos": 6.273609670944864e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9545454382896423,
+  "best_model_checkpoint": "/kaggle/working/ckpts/checkpoint-2453",
+  "epoch": 14.0,
   "eval_steps": 500,
+  "global_step": 3122,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.45,
+      "grad_norm": 2.3771965503692627,
       "learning_rate": 9.701046337817639e-06,
+      "loss": 1.5285,
       "step": 100
     },
     {
       "epoch": 0.9,
+      "grad_norm": 2.858564615249634,
+      "learning_rate": 9.402092675635277e-06,
+      "loss": 1.1628,
       "step": 200
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7727272510528564,
+      "eval_loss": 0.712559700012207,
+      "eval_runtime": 9.2054,
+      "eval_samples_per_second": 21.509,
+      "eval_steps_per_second": 5.432,
       "step": 223
     },
     {
       "epoch": 1.35,
+      "grad_norm": 12.418754577636719,
       "learning_rate": 9.106128550074738e-06,
+      "loss": 0.8286,
       "step": 300
     },
     {
       "epoch": 1.79,
+      "grad_norm": 7.768007755279541,
       "learning_rate": 8.807174887892378e-06,
+      "loss": 0.6562,
       "step": 400
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8484848737716675,
+      "eval_loss": 0.5068599581718445,
+      "eval_runtime": 9.5278,
+      "eval_samples_per_second": 20.781,
+      "eval_steps_per_second": 5.248,
       "step": 446
     },
     {
       "epoch": 2.24,
+      "grad_norm": 9.381482124328613,
       "learning_rate": 8.51121076233184e-06,
+      "loss": 0.5053,
       "step": 500
     },
     {
       "epoch": 2.69,
+      "grad_norm": 2.293752908706665,
+      "learning_rate": 8.212257100149478e-06,
+      "loss": 0.4199,
       "step": 600
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8989899158477783,
+      "eval_loss": 0.356963574886322,
+      "eval_runtime": 9.2472,
+      "eval_samples_per_second": 21.412,
+      "eval_steps_per_second": 5.407,
       "step": 669
     },
     {
       "epoch": 3.14,
+      "grad_norm": 23.293209075927734,
       "learning_rate": 7.916292974588939e-06,
+      "loss": 0.3121,
       "step": 700
     },
     {
       "epoch": 3.59,
+      "grad_norm": 3.8754687309265137,
       "learning_rate": 7.617339312406578e-06,
+      "loss": 0.325,
       "step": 800
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.939393937587738,
+      "eval_loss": 0.20920716226100922,
+      "eval_runtime": 9.2568,
+      "eval_samples_per_second": 21.39,
+      "eval_steps_per_second": 5.401,
       "step": 892
     },
     {
       "epoch": 4.04,
+      "grad_norm": 62.81392288208008,
       "learning_rate": 7.318385650224216e-06,
+      "loss": 0.2896,
       "step": 900
     },
     {
       "epoch": 4.48,
+      "grad_norm": 35.08163833618164,
       "learning_rate": 7.019431988041854e-06,
+      "loss": 0.2535,
       "step": 1000
     },
     {
       "epoch": 4.93,
+      "grad_norm": 14.269490242004395,
+      "learning_rate": 6.720478325859492e-06,
+      "loss": 0.2217,
       "step": 1100
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9444444179534912,
+      "eval_loss": 0.23924072086811066,
+      "eval_runtime": 9.2044,
+      "eval_samples_per_second": 21.511,
+      "eval_steps_per_second": 5.432,
       "step": 1115
     },
     {
       "epoch": 5.38,
+      "grad_norm": 0.41719043254852295,
+      "learning_rate": 6.421524663677131e-06,
+      "loss": 0.2165,
       "step": 1200
     },
     {
       "epoch": 5.83,
+      "grad_norm": 1.484471321105957,
+      "learning_rate": 6.1225710014947695e-06,
+      "loss": 0.1831,
       "step": 1300
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9292929172515869,
+      "eval_loss": 0.27538299560546875,
+      "eval_runtime": 9.1435,
+      "eval_samples_per_second": 21.655,
+      "eval_steps_per_second": 5.468,
       "step": 1338
     },
     {
       "epoch": 6.28,
+      "grad_norm": 0.09743738174438477,
+      "learning_rate": 5.823617339312408e-06,
+      "loss": 0.2059,
       "step": 1400
     },
     {
       "epoch": 6.73,
+      "grad_norm": 0.3065042793750763,
+      "learning_rate": 5.524663677130046e-06,
+      "loss": 0.1598,
       "step": 1500
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9343434572219849,
+      "eval_loss": 0.3294394910335541,
+      "eval_runtime": 9.1064,
+      "eval_samples_per_second": 21.743,
+      "eval_steps_per_second": 5.491,
       "step": 1561
     },
     {
       "epoch": 7.17,
+      "grad_norm": 0.05342373996973038,
       "learning_rate": 5.228699551569507e-06,
+      "loss": 0.1455,
       "step": 1600
     },
     {
       "epoch": 7.62,
+      "grad_norm": 1.5460679531097412,
       "learning_rate": 4.929745889387145e-06,
+      "loss": 0.1676,
       "step": 1700
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9494949579238892,
+      "eval_loss": 0.2668905258178711,
+      "eval_runtime": 9.2118,
+      "eval_samples_per_second": 21.494,
+      "eval_steps_per_second": 5.428,
       "step": 1784
     },
     {
       "epoch": 8.07,
+      "grad_norm": 17.537992477416992,
       "learning_rate": 4.630792227204783e-06,
+      "loss": 0.1762,
       "step": 1800
     },
     {
       "epoch": 8.52,
+      "grad_norm": 0.20349286496639252,
       "learning_rate": 4.3318385650224224e-06,
+      "loss": 0.1566,
       "step": 1900
     },
     {
       "epoch": 8.97,
+      "grad_norm": 15.300110816955566,
       "learning_rate": 4.03288490284006e-06,
+      "loss": 0.1597,
       "step": 2000
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9292929172515869,
+      "eval_loss": 0.34383586049079895,
+      "eval_runtime": 9.179,
+      "eval_samples_per_second": 21.571,
+      "eval_steps_per_second": 5.447,
       "step": 2007
     },
     {
       "epoch": 9.42,
+      "grad_norm": 0.4512959420681,
       "learning_rate": 3.7339312406576984e-06,
+      "loss": 0.1416,
       "step": 2100
     },
     {
       "epoch": 9.87,
+      "grad_norm": 0.7455862760543823,
       "learning_rate": 3.4349775784753366e-06,
+      "loss": 0.1132,
       "step": 2200
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9444444179534912,
+      "eval_loss": 0.31586208939552307,
+      "eval_runtime": 9.1631,
+      "eval_samples_per_second": 21.608,
+      "eval_steps_per_second": 5.457,
       "step": 2230
     },
     {
       "epoch": 10.31,
+      "grad_norm": 0.25966259837150574,
       "learning_rate": 3.136023916292975e-06,
+      "loss": 0.1654,
       "step": 2300
     },
     {
       "epoch": 10.76,
+      "grad_norm": 0.45347365736961365,
       "learning_rate": 2.8370702541106134e-06,
+      "loss": 0.1224,
       "step": 2400
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.9545454382896423,
+      "eval_loss": 0.29796990752220154,
+      "eval_runtime": 9.1354,
+      "eval_samples_per_second": 21.674,
+      "eval_steps_per_second": 5.473,
       "step": 2453
     },
     {
+      "epoch": 11.21,
+      "grad_norm": 27.043094635009766,
+      "learning_rate": 2.538116591928251e-06,
+      "loss": 0.1021,
+      "step": 2500
     },
     {
+      "epoch": 11.66,
+      "grad_norm": 72.37726593017578,
+      "learning_rate": 2.2391629297458894e-06,
+      "loss": 0.095,
+      "step": 2600
+    },
+    {
+      "epoch": 12.0,
       "eval_accuracy": 0.9444444179534912,
+      "eval_loss": 0.2970119118690491,
+      "eval_runtime": 9.1388,
+      "eval_samples_per_second": 21.666,
+      "eval_steps_per_second": 5.471,
+      "step": 2676
+    },
+    {
+      "epoch": 12.11,
+      "grad_norm": 0.6068007946014404,
+      "learning_rate": 1.940209267563528e-06,
+      "loss": 0.1307,
+      "step": 2700
+    },
+    {
+      "epoch": 12.56,
+      "grad_norm": 4.567564964294434,
+      "learning_rate": 1.641255605381166e-06,
+      "loss": 0.1087,
+      "step": 2800
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9343434572219849,
+      "eval_loss": 0.34486597776412964,
+      "eval_runtime": 9.3094,
+      "eval_samples_per_second": 21.269,
+      "eval_steps_per_second": 5.371,
+      "step": 2899
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 41.62958908081055,
+      "learning_rate": 1.3423019431988044e-06,
+      "loss": 0.0917,
+      "step": 2900
+    },
+    {
+      "epoch": 13.45,
+      "grad_norm": 0.026164406910538673,
+      "learning_rate": 1.0433482810164425e-06,
+      "loss": 0.0904,
+      "step": 3000
+    },
+    {
+      "epoch": 13.9,
+      "grad_norm": 52.47389221191406,
+      "learning_rate": 7.443946188340807e-07,
+      "loss": 0.1254,
+      "step": 3100
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9444444179534912,
+      "eval_loss": 0.31978654861450195,
+      "eval_runtime": 9.2595,
+      "eval_samples_per_second": 21.384,
+      "eval_steps_per_second": 5.4,
+      "step": 3122
+    },
+    {
+      "epoch": 14.0,
+      "step": 3122,
+      "total_flos": 7.9842219974856e+17,
+      "train_loss": 0.30023268478028214,
+      "train_runtime": 1742.0026,
+      "train_samples_per_second": 15.336,
+      "train_steps_per_second": 1.92
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9545454382896423,
+      "eval_loss": 0.29796990752220154,
+      "eval_runtime": 8.9823,
+      "eval_samples_per_second": 22.043,
+      "eval_steps_per_second": 5.566,
+      "step": 3122
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 15,
   "save_steps": 500,
+  "total_flos": 7.9842219974856e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de65037c614a22836253ad31eda6e76236b1e78bf69197af95578707a3ab6bbe
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4f11d524efea23fe3851521cb1d052cadfa01563a005deccc39e6b7563628ad
 size 4984