End of training

Browse files

Files changed (5) hide show

README.md +40 -45
adapter_model.safetensors +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +496 -649

README.md CHANGED Viewed

@@ -4,28 +4,19 @@ library_name: peft
 tags:
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
-metrics:
-- accuracy
 model-index:
-- name: Mistral-7B-v0.1_district-court-db
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# Mistral-7B-v0.1_district-court-db
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0358
-- Precision Micro: 0.8142
-- Precision Macro: 0.7222
-- Recall Micro: 0.8142
-- Recall Macro: 0.7126
-- F1 Micro: 0.8142
-- F1 Macro: 0.7098
-- Accuracy: 0.8142
 ## Model description
@@ -48,46 +39,50 @@ The following hyperparameters were used during training:
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.03
-- training_steps: 1450
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Precision Micro | Precision Macro | Recall Micro | Recall Macro | F1 Micro | F1 Macro | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:---------------:|:---------------:|:------------:|:------------:|:--------:|:--------:|:--------:|
-| 0.1255        | 0.04  | 50   | 0.2459          | 0.2330          | 0.0980          | 0.2330       | 0.0939       | 0.2330   | 0.0773   | 0.2330   |
-| 0.1076        | 0.08  | 100  | 0.1451          | 0.4075          | 0.1951          | 0.4075       | 0.1846       | 0.4075   | 0.1681   | 0.4075   |
-| 0.066         | 0.12  | 150  | 0.1095          | 0.5387          | 0.3493          | 0.5387       | 0.2872       | 0.5387   | 0.2780   | 0.5387   |
-| 0.0699        | 0.16  | 200  | 0.0901          | 0.6208          | 0.3837          | 0.6208       | 0.3992       | 0.6208   | 0.3798   | 0.6208   |
-| 0.066         | 0.2   | 250  | 0.0883          | 0.6104          | 0.4544          | 0.6104       | 0.4312       | 0.6104   | 0.4135   | 0.6104   |
-| 0.0452        | 0.24  | 300  | 0.0879          | 0.6877          | 0.5649          | 0.6877       | 0.5135       | 0.6877   | 0.5092   | 0.6877   |
-| 0.0545        | 0.28  | 350  | 0.0761          | 0.6764          | 0.5194          | 0.6764       | 0.5288       | 0.6764   | 0.5040   | 0.6764   |
-| 0.0647        | 0.32  | 400  | 0.0665          | 0.7340          | 0.6193          | 0.7340       | 0.5252       | 0.7340   | 0.5493   | 0.7340   |
-| 0.056         | 0.36  | 450  | 0.0514          | 0.7396          | 0.6097          | 0.7396       | 0.5767       | 0.7396   | 0.5672   | 0.7396   |
-| 0.0513        | 0.4   | 500  | 0.0479          | 0.7613          | 0.6384          | 0.7613       | 0.6145       | 0.7613   | 0.6020   | 0.7613   |
-| 0.0501        | 0.44  | 550  | 0.0502          | 0.7509          | 0.6245          | 0.7509       | 0.6167       | 0.7509   | 0.6075   | 0.7509   |
-| 0.0533        | 0.48  | 600  | 0.0481          | 0.7642          | 0.6500          | 0.7642       | 0.6139       | 0.7642   | 0.6073   | 0.7642   |
-| 0.0462        | 0.52  | 650  | 0.0473          | 0.7481          | 0.5942          | 0.7481       | 0.5740       | 0.7481   | 0.5679   | 0.7481   |
-| 0.0496        | 0.56  | 700  | 0.0419          | 0.7972          | 0.6678          | 0.7972       | 0.6480       | 0.7972   | 0.6518   | 0.7972   |
-| 0.0614        | 0.6   | 750  | 0.0489          | 0.7774          | 0.6678          | 0.7774       | 0.6360       | 0.7774   | 0.6308   | 0.7774   |
-| 0.0468        | 0.64  | 800  | 0.0443          | 0.7830          | 0.6435          | 0.7830       | 0.6816       | 0.7830   | 0.6494   | 0.7830   |
-| 0.0477        | 0.68  | 850  | 0.0420          | 0.7972          | 0.7040          | 0.7972       | 0.6567       | 0.7972   | 0.6663   | 0.7972   |
-| 0.0519        | 0.72  | 900  | 0.0463          | 0.7632          | 0.6519          | 0.7632       | 0.6291       | 0.7632   | 0.6292   | 0.7632   |
-| 0.0453        | 0.76  | 950  | 0.0429          | 0.7802          | 0.6757          | 0.7802       | 0.6698       | 0.7802   | 0.6564   | 0.7802   |
-| 0.0452        | 0.79  | 1000 | 0.0471          | 0.7377          | 0.6182          | 0.7377       | 0.6300       | 0.7377   | 0.6049   | 0.7377   |
-| 0.0367        | 0.83  | 1050 | 0.0388          | 0.7981          | 0.6857          | 0.7981       | 0.6992       | 0.7981   | 0.6801   | 0.7981   |
-| 0.0377        | 0.87  | 1100 | 0.0382          | 0.8             | 0.6636          | 0.8          | 0.6698       | 0.8000   | 0.6591   | 0.8      |
-| 0.0429        | 0.91  | 1150 | 0.0398          | 0.7953          | 0.6924          | 0.7953       | 0.6441       | 0.7953   | 0.6466   | 0.7953   |
-| 0.0451        | 0.95  | 1200 | 0.0378          | 0.7943          | 0.6713          | 0.7943       | 0.6538       | 0.7943   | 0.6535   | 0.7943   |
-| 0.0347        | 0.99  | 1250 | 0.0413          | 0.7840          | 0.6735          | 0.7840       | 0.6450       | 0.7840   | 0.6331   | 0.7840   |
-| 0.0378        | 1.03  | 1300 | 0.0377          | 0.8047          | 0.7109          | 0.8047       | 0.6387       | 0.8047   | 0.6489   | 0.8047   |
-| 0.0357        | 1.07  | 1350 | 0.0386          | 0.8028          | 0.6899          | 0.8028       | 0.6559       | 0.8028   | 0.6649   | 0.8028   |
-| 0.0418        | 1.11  | 1400 | 0.0368          | 0.7962          | 0.7114          | 0.7962       | 0.6942       | 0.7962   | 0.6910   | 0.7962   |
-| 0.0293        | 1.15  | 1450 | 0.0358          | 0.8142          | 0.7222          | 0.8142       | 0.7126       | 0.8142   | 0.7098   | 0.8142   |
 ### Framework versions

 tags:
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
+- name: Mistral-7B-v0.1_caselaw
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# Mistral-7B-v0.1_caselaw
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1640
 ## Model description
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 2.0
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.2324        | 0.07  | 50   | 1.2373          |
+| 1.2114        | 0.13  | 100  | 1.2199          |
+| 1.1831        | 0.2   | 150  | 1.2111          |
+| 1.2027        | 0.26  | 200  | 1.2048          |
+| 1.1827        | 0.33  | 250  | 1.2001          |
+| 1.1696        | 0.39  | 300  | 1.1973          |
+| 1.2186        | 0.46  | 350  | 1.1938          |
+| 1.1795        | 0.52  | 400  | 1.1919          |
+| 1.2167        | 0.59  | 450  | 1.1884          |
+| 1.1992        | 0.66  | 500  | 1.1840          |
+| 1.2032        | 0.72  | 550  | 1.1824          |
+| 1.1841        | 0.79  | 600  | 1.1798          |
+| 1.166         | 0.85  | 650  | 1.1789          |
+| 1.1641        | 0.92  | 700  | 1.1761          |
+| 1.1859        | 0.98  | 750  | 1.1752          |
+| 1.132         | 1.05  | 800  | 1.1736          |
+| 1.1461        | 1.12  | 850  | 1.1724          |
+| 1.0965        | 1.18  | 900  | 1.1726          |
+| 1.1064        | 1.25  | 950  | 1.1724          |
+| 1.123         | 1.31  | 1000 | 1.1729          |
+| 1.1079        | 1.38  | 1050 | 1.1695          |
+| 1.12          | 1.44  | 1100 | 1.1707          |
+| 1.1288        | 1.51  | 1150 | 1.1693          |
+| 1.133         | 1.57  | 1200 | 1.1676          |
+| 1.1647        | 1.64  | 1250 | 1.1693          |
+| 1.1269        | 1.71  | 1300 | 1.1658          |
+| 1.1332        | 1.77  | 1350 | 1.1657          |
+| 1.1276        | 1.84  | 1400 | 1.1681          |
+| 1.1361        | 1.9   | 1450 | 1.1633          |
+| 1.1205        | 1.97  | 1500 | 1.1640          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e45b46710ea888a4dc454788bc0b057c6410011048773120d0a6de4f1e81f5b
 size 335605144

 version https://git-lfs.github.com/spec/v1
+oid sha256:a87aa1c22b9194aebc5bf0d5bfa563c8300e1a6549621dbf298d2728fc3e3a70
 size 335605144

all_results.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-    "epoch": 1.15,
     "eval_accuracy": 0.8141509433962264,
     "eval_f1_macro": 0.7097996478763092,
     "eval_f1_micro": 0.8141509433962264,
@@ -11,8 +11,8 @@
     "eval_runtime": 66.7734,
     "eval_samples_per_second": 15.875,
     "eval_steps_per_second": 3.969,
-    "train_loss": 0.07879953698865298,
-    "train_runtime": 5948.326,
-    "train_samples_per_second": 3.9,
-    "train_steps_per_second": 0.244
 }

 {
+    "epoch": 2.0,
     "eval_accuracy": 0.8141509433962264,
     "eval_f1_macro": 0.7097996478763092,
     "eval_f1_micro": 0.8141509433962264,
     "eval_runtime": 66.7734,
     "eval_samples_per_second": 15.875,
     "eval_steps_per_second": 3.969,
+    "train_loss": 1.1488912840840697,
+    "train_runtime": 10306.9039,
+    "train_samples_per_second": 9.463,
+    "train_steps_per_second": 0.148
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 1.15,
-    "train_loss": 0.07879953698865298,
-    "train_runtime": 5948.326,
-    "train_samples_per_second": 3.9,
-    "train_steps_per_second": 0.244
 }

 {
+    "epoch": 2.0,
+    "train_loss": 1.1488912840840697,
+    "train_runtime": 10306.9039,
+    "train_samples_per_second": 9.463,
+    "train_steps_per_second": 0.148
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1523941982912775,
   "eval_steps": 50,
-  "global_step": 1450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,1324 +11,1171 @@
     {
       "epoch": 0.01,
       "learning_rate": 3e-05,
-      "loss": 2.0927,
       "step": 10
     },
     {
-      "epoch": 0.02,
       "learning_rate": 3e-05,
-      "loss": 0.267,
       "step": 20
     },
     {
-      "epoch": 0.02,
       "learning_rate": 3e-05,
-      "loss": 0.1926,
       "step": 30
     },
     {
-      "epoch": 0.03,
       "learning_rate": 3e-05,
-      "loss": 0.1601,
       "step": 40
     },
     {
-      "epoch": 0.04,
       "learning_rate": 3e-05,
-      "loss": 0.1255,
       "step": 50
     },
     {
-      "epoch": 0.04,
-      "eval_accuracy": 0.2330188679245283,
-      "eval_f1_macro": 0.07731831394851697,
-      "eval_f1_micro": 0.2330188679245283,
-      "eval_loss": 0.24590551853179932,
-      "eval_precision_macro": 0.09801465635567799,
-      "eval_precision_micro": 0.2330188679245283,
-      "eval_recall_macro": 0.0939265996231733,
-      "eval_recall_micro": 0.2330188679245283,
-      "eval_runtime": 67.1714,
-      "eval_samples_per_second": 15.781,
-      "eval_steps_per_second": 3.945,
       "step": 50
     },
     {
-      "epoch": 0.05,
       "learning_rate": 3e-05,
-      "loss": 0.6981,
       "step": 60
     },
     {
-      "epoch": 0.06,
       "learning_rate": 3e-05,
-      "loss": 0.1356,
       "step": 70
     },
     {
-      "epoch": 0.06,
       "learning_rate": 3e-05,
-      "loss": 0.0993,
       "step": 80
     },
     {
-      "epoch": 0.07,
       "learning_rate": 3e-05,
-      "loss": 0.1038,
       "step": 90
     },
     {
-      "epoch": 0.08,
       "learning_rate": 3e-05,
-      "loss": 0.1076,
       "step": 100
     },
     {
-      "epoch": 0.08,
-      "eval_accuracy": 0.4075471698113208,
-      "eval_f1_macro": 0.1681261191284492,
-      "eval_f1_micro": 0.4075471698113208,
-      "eval_loss": 0.14505280554294586,
-      "eval_precision_macro": 0.19505399860785297,
-      "eval_precision_micro": 0.4075471698113208,
-      "eval_recall_macro": 0.18462138174503467,
-      "eval_recall_micro": 0.4075471698113208,
-      "eval_runtime": 67.1009,
-      "eval_samples_per_second": 15.797,
-      "eval_steps_per_second": 3.949,
       "step": 100
     },
     {
-      "epoch": 0.09,
       "learning_rate": 3e-05,
-      "loss": 0.331,
       "step": 110
     },
     {
-      "epoch": 0.1,
       "learning_rate": 3e-05,
-      "loss": 0.0809,
       "step": 120
     },
     {
-      "epoch": 0.1,
       "learning_rate": 3e-05,
-      "loss": 0.0812,
       "step": 130
     },
     {
-      "epoch": 0.11,
       "learning_rate": 3e-05,
-      "loss": 0.0601,
       "step": 140
     },
     {
-      "epoch": 0.12,
       "learning_rate": 3e-05,
-      "loss": 0.066,
       "step": 150
     },
     {
-      "epoch": 0.12,
-      "eval_accuracy": 0.5386792452830189,
-      "eval_f1_macro": 0.2780127225833117,
-      "eval_f1_micro": 0.5386792452830189,
-      "eval_loss": 0.10953618586063385,
-      "eval_precision_macro": 0.3493311966119182,
-      "eval_precision_micro": 0.5386792452830189,
-      "eval_recall_macro": 0.2871523900319283,
-      "eval_recall_micro": 0.5386792452830189,
-      "eval_runtime": 67.0903,
-      "eval_samples_per_second": 15.8,
-      "eval_steps_per_second": 3.95,
       "step": 150
     },
     {
-      "epoch": 0.13,
       "learning_rate": 3e-05,
-      "loss": 0.2732,
       "step": 160
     },
     {
-      "epoch": 0.14,
       "learning_rate": 3e-05,
-      "loss": 0.0754,
       "step": 170
     },
     {
-      "epoch": 0.14,
       "learning_rate": 3e-05,
-      "loss": 0.0649,
       "step": 180
     },
     {
-      "epoch": 0.15,
       "learning_rate": 3e-05,
-      "loss": 0.0674,
       "step": 190
     },
     {
-      "epoch": 0.16,
       "learning_rate": 3e-05,
-      "loss": 0.0699,
       "step": 200
     },
     {
-      "epoch": 0.16,
-      "eval_accuracy": 0.620754716981132,
-      "eval_f1_macro": 0.3797608124202816,
-      "eval_f1_micro": 0.620754716981132,
-      "eval_loss": 0.09009388834238052,
-      "eval_precision_macro": 0.3837197141355178,
-      "eval_precision_micro": 0.620754716981132,
-      "eval_recall_macro": 0.39915842112719735,
-      "eval_recall_micro": 0.620754716981132,
-      "eval_runtime": 67.0671,
-      "eval_samples_per_second": 15.805,
-      "eval_steps_per_second": 3.951,
       "step": 200
     },
     {
-      "epoch": 0.17,
       "learning_rate": 3e-05,
-      "loss": 0.1946,
       "step": 210
     },
     {
-      "epoch": 0.17,
       "learning_rate": 3e-05,
-      "loss": 0.0657,
       "step": 220
     },
     {
-      "epoch": 0.18,
       "learning_rate": 3e-05,
-      "loss": 0.0547,
       "step": 230
     },
     {
-      "epoch": 0.19,
       "learning_rate": 3e-05,
-      "loss": 0.0615,
       "step": 240
     },
     {
-      "epoch": 0.2,
       "learning_rate": 3e-05,
-      "loss": 0.066,
       "step": 250
     },
     {
-      "epoch": 0.2,
-      "eval_accuracy": 0.6103773584905661,
-      "eval_f1_macro": 0.41348516498355786,
-      "eval_f1_micro": 0.6103773584905661,
-      "eval_loss": 0.08832413703203201,
-      "eval_precision_macro": 0.45439839834135715,
-      "eval_precision_micro": 0.6103773584905661,
-      "eval_recall_macro": 0.4312111435526721,
-      "eval_recall_micro": 0.6103773584905661,
-      "eval_runtime": 66.9345,
-      "eval_samples_per_second": 15.836,
-      "eval_steps_per_second": 3.959,
       "step": 250
     },
     {
-      "epoch": 0.21,
       "learning_rate": 3e-05,
-      "loss": 0.1494,
       "step": 260
     },
     {
-      "epoch": 0.21,
       "learning_rate": 3e-05,
-      "loss": 0.0655,
       "step": 270
     },
     {
-      "epoch": 0.22,
       "learning_rate": 3e-05,
-      "loss": 0.06,
       "step": 280
     },
     {
-      "epoch": 0.23,
       "learning_rate": 3e-05,
-      "loss": 0.0616,
       "step": 290
     },
     {
-      "epoch": 0.24,
       "learning_rate": 3e-05,
-      "loss": 0.0452,
       "step": 300
     },
     {
-      "epoch": 0.24,
-      "eval_accuracy": 0.6877358490566038,
-      "eval_f1_macro": 0.5091555575082085,
-      "eval_f1_micro": 0.6877358490566038,
-      "eval_loss": 0.08789286762475967,
-      "eval_precision_macro": 0.5649217974276287,
-      "eval_precision_micro": 0.6877358490566038,
-      "eval_recall_macro": 0.513496327466451,
-      "eval_recall_micro": 0.6877358490566038,
-      "eval_runtime": 67.1619,
-      "eval_samples_per_second": 15.783,
-      "eval_steps_per_second": 3.946,
       "step": 300
     },
     {
-      "epoch": 0.25,
       "learning_rate": 3e-05,
-      "loss": 0.1535,
       "step": 310
     },
     {
-      "epoch": 0.25,
       "learning_rate": 3e-05,
-      "loss": 0.0731,
       "step": 320
     },
     {
-      "epoch": 0.26,
       "learning_rate": 3e-05,
-      "loss": 0.044,
       "step": 330
     },
     {
-      "epoch": 0.27,
       "learning_rate": 3e-05,
-      "loss": 0.053,
       "step": 340
     },
     {
-      "epoch": 0.28,
       "learning_rate": 3e-05,
-      "loss": 0.0545,
       "step": 350
     },
     {
-      "epoch": 0.28,
-      "eval_accuracy": 0.6764150943396227,
-      "eval_f1_macro": 0.503999030020007,
-      "eval_f1_micro": 0.6764150943396227,
-      "eval_loss": 0.07607663422822952,
-      "eval_precision_macro": 0.5194445629359009,
-      "eval_precision_micro": 0.6764150943396227,
-      "eval_recall_macro": 0.5287937722322651,
-      "eval_recall_micro": 0.6764150943396227,
-      "eval_runtime": 67.2353,
-      "eval_samples_per_second": 15.766,
-      "eval_steps_per_second": 3.941,
       "step": 350
     },
     {
-      "epoch": 0.29,
       "learning_rate": 3e-05,
-      "loss": 0.1543,
       "step": 360
     },
     {
-      "epoch": 0.29,
       "learning_rate": 3e-05,
-      "loss": 0.0609,
       "step": 370
     },
     {
-      "epoch": 0.3,
       "learning_rate": 3e-05,
-      "loss": 0.0479,
       "step": 380
     },
     {
-      "epoch": 0.31,
       "learning_rate": 3e-05,
-      "loss": 0.0532,
       "step": 390
     },
     {
-      "epoch": 0.32,
       "learning_rate": 3e-05,
-      "loss": 0.0647,
       "step": 400
     },
     {
-      "epoch": 0.32,
-      "eval_accuracy": 0.7339622641509433,
-      "eval_f1_macro": 0.5492932704438783,
-      "eval_f1_micro": 0.7339622641509433,
-      "eval_loss": 0.06653406471014023,
-      "eval_precision_macro": 0.6193164476598846,
-      "eval_precision_micro": 0.7339622641509433,
-      "eval_recall_macro": 0.5252411264940735,
-      "eval_recall_micro": 0.7339622641509433,
-      "eval_runtime": 67.4334,
-      "eval_samples_per_second": 15.719,
-      "eval_steps_per_second": 3.93,
       "step": 400
     },
     {
-      "epoch": 0.33,
       "learning_rate": 3e-05,
-      "loss": 0.104,
       "step": 410
     },
     {
-      "epoch": 0.33,
       "learning_rate": 3e-05,
-      "loss": 0.0458,
       "step": 420
     },
     {
-      "epoch": 0.34,
       "learning_rate": 3e-05,
-      "loss": 0.0552,
       "step": 430
     },
     {
-      "epoch": 0.35,
       "learning_rate": 3e-05,
-      "loss": 0.0512,
       "step": 440
     },
     {
-      "epoch": 0.36,
       "learning_rate": 3e-05,
-      "loss": 0.056,
       "step": 450
     },
     {
-      "epoch": 0.36,
-      "eval_accuracy": 0.7396226415094339,
-      "eval_f1_macro": 0.5671730153967399,
-      "eval_f1_micro": 0.7396226415094339,
-      "eval_loss": 0.05136344954371452,
-      "eval_precision_macro": 0.6096698581228938,
-      "eval_precision_micro": 0.7396226415094339,
-      "eval_recall_macro": 0.5767264087198709,
-      "eval_recall_micro": 0.7396226415094339,
-      "eval_runtime": 66.8962,
-      "eval_samples_per_second": 15.845,
-      "eval_steps_per_second": 3.961,
       "step": 450
     },
     {
-      "epoch": 0.37,
       "learning_rate": 3e-05,
-      "loss": 0.0773,
       "step": 460
     },
     {
-      "epoch": 0.37,
       "learning_rate": 3e-05,
-      "loss": 0.0474,
       "step": 470
     },
     {
-      "epoch": 0.38,
       "learning_rate": 3e-05,
-      "loss": 0.0405,
       "step": 480
     },
     {
-      "epoch": 0.39,
       "learning_rate": 3e-05,
-      "loss": 0.0461,
       "step": 490
     },
     {
-      "epoch": 0.4,
       "learning_rate": 3e-05,
-      "loss": 0.0513,
       "step": 500
     },
     {
-      "epoch": 0.4,
-      "eval_accuracy": 0.7613207547169811,
-      "eval_f1_macro": 0.601977568492687,
-      "eval_f1_micro": 0.761320754716981,
-      "eval_loss": 0.047934673726558685,
-      "eval_precision_macro": 0.638418606498986,
-      "eval_precision_micro": 0.7613207547169811,
-      "eval_recall_macro": 0.6145296570629574,
-      "eval_recall_micro": 0.7613207547169811,
-      "eval_runtime": 66.9411,
-      "eval_samples_per_second": 15.835,
-      "eval_steps_per_second": 3.959,
       "step": 500
     },
     {
-      "epoch": 0.41,
       "learning_rate": 3e-05,
-      "loss": 0.0788,
       "step": 510
     },
     {
-      "epoch": 0.41,
       "learning_rate": 3e-05,
-      "loss": 0.0495,
       "step": 520
     },
     {
-      "epoch": 0.42,
       "learning_rate": 3e-05,
-      "loss": 0.0552,
       "step": 530
     },
     {
-      "epoch": 0.43,
       "learning_rate": 3e-05,
-      "loss": 0.0415,
       "step": 540
     },
     {
-      "epoch": 0.44,
       "learning_rate": 3e-05,
-      "loss": 0.0501,
       "step": 550
     },
     {
-      "epoch": 0.44,
-      "eval_accuracy": 0.7509433962264151,
-      "eval_f1_macro": 0.6074975120648255,
-      "eval_f1_micro": 0.7509433962264151,
-      "eval_loss": 0.05019384250044823,
-      "eval_precision_macro": 0.624502704252128,
-      "eval_precision_micro": 0.7509433962264151,
-      "eval_recall_macro": 0.6167049341328479,
-      "eval_recall_micro": 0.7509433962264151,
-      "eval_runtime": 67.3498,
-      "eval_samples_per_second": 15.739,
-      "eval_steps_per_second": 3.935,
       "step": 550
     },
     {
-      "epoch": 0.45,
       "learning_rate": 3e-05,
-      "loss": 0.0633,
       "step": 560
     },
     {
-      "epoch": 0.45,
       "learning_rate": 3e-05,
-      "loss": 0.0484,
       "step": 570
     },
     {
-      "epoch": 0.46,
       "learning_rate": 3e-05,
-      "loss": 0.0418,
       "step": 580
     },
     {
-      "epoch": 0.47,
       "learning_rate": 3e-05,
-      "loss": 0.0524,
       "step": 590
     },
     {
-      "epoch": 0.48,
       "learning_rate": 3e-05,
-      "loss": 0.0533,
       "step": 600
     },
     {
-      "epoch": 0.48,
-      "eval_accuracy": 0.7641509433962265,
-      "eval_f1_macro": 0.607265930345707,
-      "eval_f1_micro": 0.7641509433962265,
-      "eval_loss": 0.048058342188596725,
-      "eval_precision_macro": 0.6499724898555727,
-      "eval_precision_micro": 0.7641509433962265,
-      "eval_recall_macro": 0.6139175086252339,
-      "eval_recall_micro": 0.7641509433962265,
-      "eval_runtime": 66.897,
-      "eval_samples_per_second": 15.845,
-      "eval_steps_per_second": 3.961,
       "step": 600
     },
     {
-      "epoch": 0.48,
       "learning_rate": 3e-05,
-      "loss": 0.0418,
       "step": 610
     },
     {
-      "epoch": 0.49,
       "learning_rate": 3e-05,
-      "loss": 0.0482,
       "step": 620
     },
     {
-      "epoch": 0.5,
       "learning_rate": 3e-05,
-      "loss": 0.0458,
       "step": 630
     },
     {
-      "epoch": 0.51,
       "learning_rate": 3e-05,
-      "loss": 0.0432,
       "step": 640
     },
     {
-      "epoch": 0.52,
       "learning_rate": 3e-05,
-      "loss": 0.0462,
       "step": 650
     },
     {
-      "epoch": 0.52,
-      "eval_accuracy": 0.7481132075471698,
-      "eval_f1_macro": 0.5679477471859753,
-      "eval_f1_micro": 0.7481132075471698,
-      "eval_loss": 0.047320980578660965,
-      "eval_precision_macro": 0.5941670973495327,
-      "eval_precision_micro": 0.7481132075471698,
-      "eval_recall_macro": 0.5739727328111488,
-      "eval_recall_micro": 0.7481132075471698,
-      "eval_runtime": 67.2106,
-      "eval_samples_per_second": 15.771,
-      "eval_steps_per_second": 3.943,
       "step": 650
     },
     {
-      "epoch": 0.52,
       "learning_rate": 3e-05,
-      "loss": 0.0668,
       "step": 660
     },
     {
-      "epoch": 0.53,
       "learning_rate": 3e-05,
-      "loss": 0.0501,
       "step": 670
     },
     {
-      "epoch": 0.54,
       "learning_rate": 3e-05,
-      "loss": 0.0366,
       "step": 680
     },
     {
-      "epoch": 0.55,
       "learning_rate": 3e-05,
-      "loss": 0.0374,
       "step": 690
     },
     {
-      "epoch": 0.56,
       "learning_rate": 3e-05,
-      "loss": 0.0496,
       "step": 700
     },
     {
-      "epoch": 0.56,
-      "eval_accuracy": 0.7971698113207547,
-      "eval_f1_macro": 0.6517694520426227,
-      "eval_f1_micro": 0.7971698113207546,
-      "eval_loss": 0.04193812981247902,
-      "eval_precision_macro": 0.6678204026981202,
-      "eval_precision_micro": 0.7971698113207547,
-      "eval_recall_macro": 0.6480125227888868,
-      "eval_recall_micro": 0.7971698113207547,
-      "eval_runtime": 67.3982,
-      "eval_samples_per_second": 15.727,
-      "eval_steps_per_second": 3.932,
       "step": 700
     },
     {
-      "epoch": 0.56,
       "learning_rate": 3e-05,
-      "loss": 0.0649,
       "step": 710
     },
     {
-      "epoch": 0.57,
       "learning_rate": 3e-05,
-      "loss": 0.0447,
       "step": 720
     },
     {
-      "epoch": 0.58,
       "learning_rate": 3e-05,
-      "loss": 0.0442,
       "step": 730
     },
     {
-      "epoch": 0.59,
       "learning_rate": 3e-05,
-      "loss": 0.037,
       "step": 740
     },
     {
-      "epoch": 0.6,
       "learning_rate": 3e-05,
-      "loss": 0.0614,
       "step": 750
     },
     {
-      "epoch": 0.6,
-      "eval_accuracy": 0.7773584905660378,
-      "eval_f1_macro": 0.6308119664331103,
-      "eval_f1_micro": 0.7773584905660378,
-      "eval_loss": 0.04885416477918625,
-      "eval_precision_macro": 0.6677975283624125,
-      "eval_precision_micro": 0.7773584905660378,
-      "eval_recall_macro": 0.6360471775658058,
-      "eval_recall_micro": 0.7773584905660378,
-      "eval_runtime": 67.7832,
-      "eval_samples_per_second": 15.638,
-      "eval_steps_per_second": 3.91,
       "step": 750
     },
     {
-      "epoch": 0.6,
       "learning_rate": 3e-05,
-      "loss": 0.0649,
       "step": 760
     },
     {
-      "epoch": 0.61,
       "learning_rate": 3e-05,
-      "loss": 0.0426,
       "step": 770
     },
     {
-      "epoch": 0.62,
       "learning_rate": 3e-05,
-      "loss": 0.0347,
       "step": 780
     },
     {
-      "epoch": 0.63,
       "learning_rate": 3e-05,
-      "loss": 0.0414,
       "step": 790
     },
     {
-      "epoch": 0.64,
       "learning_rate": 3e-05,
-      "loss": 0.0468,
       "step": 800
     },
     {
-      "epoch": 0.64,
-      "eval_accuracy": 0.7830188679245284,
-      "eval_f1_macro": 0.6493890925237205,
-      "eval_f1_micro": 0.7830188679245284,
-      "eval_loss": 0.044340912252664566,
-      "eval_precision_macro": 0.6435014283226803,
-      "eval_precision_micro": 0.7830188679245284,
-      "eval_recall_macro": 0.6816157451405587,
-      "eval_recall_micro": 0.7830188679245284,
-      "eval_runtime": 67.2351,
-      "eval_samples_per_second": 15.766,
-      "eval_steps_per_second": 3.941,
       "step": 800
     },
     {
-      "epoch": 0.64,
       "learning_rate": 3e-05,
-      "loss": 0.052,
       "step": 810
     },
     {
-      "epoch": 0.65,
       "learning_rate": 3e-05,
-      "loss": 0.0414,
       "step": 820
     },
     {
-      "epoch": 0.66,
       "learning_rate": 3e-05,
-      "loss": 0.0342,
       "step": 830
     },
     {
-      "epoch": 0.67,
       "learning_rate": 3e-05,
-      "loss": 0.0451,
       "step": 840
     },
     {
-      "epoch": 0.68,
       "learning_rate": 3e-05,
-      "loss": 0.0477,
       "step": 850
     },
     {
-      "epoch": 0.68,
-      "eval_accuracy": 0.7971698113207547,
-      "eval_f1_macro": 0.6662808099368048,
-      "eval_f1_micro": 0.7971698113207546,
-      "eval_loss": 0.041995830833911896,
-      "eval_precision_macro": 0.7040157648486967,
-      "eval_precision_micro": 0.7971698113207547,
-      "eval_recall_macro": 0.6567342355863813,
-      "eval_recall_micro": 0.7971698113207547,
-      "eval_runtime": 67.3249,
-      "eval_samples_per_second": 15.745,
-      "eval_steps_per_second": 3.936,
       "step": 850
     },
     {
-      "epoch": 0.68,
       "learning_rate": 3e-05,
-      "loss": 0.0468,
       "step": 860
     },
     {
-      "epoch": 0.69,
       "learning_rate": 3e-05,
-      "loss": 0.0461,
       "step": 870
     },
     {
-      "epoch": 0.7,
       "learning_rate": 3e-05,
-      "loss": 0.0436,
       "step": 880
     },
     {
-      "epoch": 0.71,
       "learning_rate": 3e-05,
-      "loss": 0.0369,
       "step": 890
     },
     {
-      "epoch": 0.72,
       "learning_rate": 3e-05,
-      "loss": 0.0519,
       "step": 900
     },
     {
-      "epoch": 0.72,
-      "eval_accuracy": 0.7632075471698113,
-      "eval_f1_macro": 0.6291599323302522,
-      "eval_f1_micro": 0.7632075471698113,
-      "eval_loss": 0.04627140238881111,
-      "eval_precision_macro": 0.6519385252086033,
-      "eval_precision_micro": 0.7632075471698113,
-      "eval_recall_macro": 0.6290591814696965,
-      "eval_recall_micro": 0.7632075471698113,
-      "eval_runtime": 67.0228,
-      "eval_samples_per_second": 15.816,
-      "eval_steps_per_second": 3.954,
       "step": 900
     },
     {
-      "epoch": 0.72,
       "learning_rate": 3e-05,
-      "loss": 0.0543,
       "step": 910
     },
     {
-      "epoch": 0.73,
       "learning_rate": 3e-05,
-      "loss": 0.0426,
       "step": 920
     },
     {
-      "epoch": 0.74,
       "learning_rate": 3e-05,
-      "loss": 0.0421,
       "step": 930
     },
     {
-      "epoch": 0.75,
       "learning_rate": 3e-05,
-      "loss": 0.0338,
       "step": 940
     },
     {
-      "epoch": 0.76,
       "learning_rate": 3e-05,
-      "loss": 0.0453,
       "step": 950
     },
     {
-      "epoch": 0.76,
-      "eval_accuracy": 0.780188679245283,
-      "eval_f1_macro": 0.6564187596520696,
-      "eval_f1_micro": 0.780188679245283,
-      "eval_loss": 0.042860858142375946,
-      "eval_precision_macro": 0.67574812222591,
-      "eval_precision_micro": 0.780188679245283,
-      "eval_recall_macro": 0.6697872775950671,
-      "eval_recall_micro": 0.780188679245283,
-      "eval_runtime": 67.3483,
-      "eval_samples_per_second": 15.739,
-      "eval_steps_per_second": 3.935,
       "step": 950
     },
     {
-      "epoch": 0.76,
       "learning_rate": 3e-05,
-      "loss": 0.0554,
       "step": 960
     },
     {
-      "epoch": 0.77,
       "learning_rate": 3e-05,
-      "loss": 0.0397,
       "step": 970
     },
     {
-      "epoch": 0.78,
       "learning_rate": 3e-05,
-      "loss": 0.0407,
       "step": 980
     },
     {
-      "epoch": 0.79,
       "learning_rate": 3e-05,
-      "loss": 0.0361,
       "step": 990
     },
     {
-      "epoch": 0.79,
       "learning_rate": 3e-05,
-      "loss": 0.0452,
       "step": 1000
     },
     {
-      "epoch": 0.79,
-      "eval_accuracy": 0.7377358490566037,
-      "eval_f1_macro": 0.6049285124615932,
-      "eval_f1_micro": 0.7377358490566037,
-      "eval_loss": 0.047125279903411865,
-      "eval_precision_macro": 0.6181852032037266,
-      "eval_precision_micro": 0.7377358490566037,
-      "eval_recall_macro": 0.6300074429793591,
-      "eval_recall_micro": 0.7377358490566037,
-      "eval_runtime": 66.8035,
-      "eval_samples_per_second": 15.867,
-      "eval_steps_per_second": 3.967,
       "step": 1000
     },
     {
-      "epoch": 0.8,
       "learning_rate": 3e-05,
-      "loss": 0.0482,
       "step": 1010
     },
     {
-      "epoch": 0.81,
       "learning_rate": 3e-05,
-      "loss": 0.0379,
       "step": 1020
     },
     {
-      "epoch": 0.82,
       "learning_rate": 3e-05,
-      "loss": 0.0403,
       "step": 1030
     },
     {
-      "epoch": 0.83,
       "learning_rate": 3e-05,
-      "loss": 0.0471,
       "step": 1040
     },
     {
-      "epoch": 0.83,
       "learning_rate": 3e-05,
-      "loss": 0.0367,
       "step": 1050
     },
     {
-      "epoch": 0.83,
-      "eval_accuracy": 0.7981132075471699,
-      "eval_f1_macro": 0.6800660818700823,
-      "eval_f1_micro": 0.79811320754717,
-      "eval_loss": 0.03875497728586197,
-      "eval_precision_macro": 0.6856812225733196,
-      "eval_precision_micro": 0.7981132075471699,
-      "eval_recall_macro": 0.6992476720564776,
-      "eval_recall_micro": 0.7981132075471699,
-      "eval_runtime": 66.8444,
-      "eval_samples_per_second": 15.858,
-      "eval_steps_per_second": 3.964,
       "step": 1050
     },
     {
-      "epoch": 0.84,
       "learning_rate": 3e-05,
-      "loss": 0.0351,
       "step": 1060
     },
     {
-      "epoch": 0.85,
       "learning_rate": 3e-05,
-      "loss": 0.0479,
       "step": 1070
     },
     {
-      "epoch": 0.86,
       "learning_rate": 3e-05,
-      "loss": 0.0421,
       "step": 1080
     },
     {
-      "epoch": 0.87,
       "learning_rate": 3e-05,
-      "loss": 0.0406,
       "step": 1090
     },
     {
-      "epoch": 0.87,
       "learning_rate": 3e-05,
-      "loss": 0.0377,
       "step": 1100
     },
     {
-      "epoch": 0.87,
-      "eval_accuracy": 0.8,
-      "eval_f1_macro": 0.6590911576508658,
-      "eval_f1_micro": 0.8000000000000002,
-      "eval_loss": 0.03815627098083496,
-      "eval_precision_macro": 0.6636349851737382,
-      "eval_precision_micro": 0.8,
-      "eval_recall_macro": 0.6697553358712118,
-      "eval_recall_micro": 0.8,
-      "eval_runtime": 66.9434,
-      "eval_samples_per_second": 15.834,
-      "eval_steps_per_second": 3.959,
       "step": 1100
     },
     {
-      "epoch": 0.88,
       "learning_rate": 3e-05,
-      "loss": 0.0365,
       "step": 1110
     },
     {
-      "epoch": 0.89,
       "learning_rate": 3e-05,
-      "loss": 0.0353,
       "step": 1120
     },
     {
-      "epoch": 0.9,
       "learning_rate": 3e-05,
-      "loss": 0.0388,
       "step": 1130
     },
     {
-      "epoch": 0.91,
       "learning_rate": 3e-05,
-      "loss": 0.0358,
       "step": 1140
     },
     {
-      "epoch": 0.91,
       "learning_rate": 3e-05,
-      "loss": 0.0429,
       "step": 1150
     },
     {
-      "epoch": 0.91,
-      "eval_accuracy": 0.7952830188679245,
-      "eval_f1_macro": 0.6465609013784224,
-      "eval_f1_micro": 0.7952830188679245,
-      "eval_loss": 0.03976297378540039,
-      "eval_precision_macro": 0.6923924758215005,
-      "eval_precision_micro": 0.7952830188679245,
-      "eval_recall_macro": 0.6441492192889419,
-      "eval_recall_micro": 0.7952830188679245,
-      "eval_runtime": 67.1705,
-      "eval_samples_per_second": 15.781,
-      "eval_steps_per_second": 3.945,
       "step": 1150
     },
     {
-      "epoch": 0.92,
       "learning_rate": 3e-05,
-      "loss": 0.0461,
       "step": 1160
     },
     {
-      "epoch": 0.93,
       "learning_rate": 3e-05,
-      "loss": 0.0434,
       "step": 1170
     },
     {
-      "epoch": 0.94,
       "learning_rate": 3e-05,
-      "loss": 0.0524,
       "step": 1180
     },
     {
-      "epoch": 0.95,
       "learning_rate": 3e-05,
-      "loss": 0.0362,
       "step": 1190
     },
     {
-      "epoch": 0.95,
       "learning_rate": 3e-05,
-      "loss": 0.0451,
       "step": 1200
     },
     {
-      "epoch": 0.95,
-      "eval_accuracy": 0.7943396226415095,
-      "eval_f1_macro": 0.6535399936575059,
-      "eval_f1_micro": 0.7943396226415095,
-      "eval_loss": 0.037755727767944336,
-      "eval_precision_macro": 0.6712905678869693,
-      "eval_precision_micro": 0.7943396226415095,
-      "eval_recall_macro": 0.6537773538776073,
-      "eval_recall_micro": 0.7943396226415095,
-      "eval_runtime": 66.9611,
-      "eval_samples_per_second": 15.83,
-      "eval_steps_per_second": 3.958,
       "step": 1200
     },
     {
-      "epoch": 0.96,
       "learning_rate": 3e-05,
-      "loss": 0.0456,
       "step": 1210
     },
     {
-      "epoch": 0.97,
       "learning_rate": 3e-05,
-      "loss": 0.0455,
       "step": 1220
     },
     {
-      "epoch": 0.98,
       "learning_rate": 3e-05,
-      "loss": 0.0409,
       "step": 1230
     },
     {
-      "epoch": 0.99,
       "learning_rate": 3e-05,
-      "loss": 0.037,
       "step": 1240
     },
     {
-      "epoch": 0.99,
       "learning_rate": 3e-05,
-      "loss": 0.0347,
       "step": 1250
     },
     {
-      "epoch": 0.99,
-      "eval_accuracy": 0.7839622641509434,
-      "eval_f1_macro": 0.6330944207402169,
-      "eval_f1_micro": 0.7839622641509434,
-      "eval_loss": 0.041340529918670654,
-      "eval_precision_macro": 0.6735372413807635,
-      "eval_precision_micro": 0.7839622641509434,
-      "eval_recall_macro": 0.6450299050285588,
-      "eval_recall_micro": 0.7839622641509434,
-      "eval_runtime": 66.9053,
-      "eval_samples_per_second": 15.843,
-      "eval_steps_per_second": 3.961,
       "step": 1250
     },
     {
-      "epoch": 1.0,
       "learning_rate": 3e-05,
-      "loss": 0.0421,
       "step": 1260
     },
     {
-      "epoch": 1.01,
       "learning_rate": 3e-05,
-      "loss": 0.041,
       "step": 1270
     },
     {
-      "epoch": 1.02,
       "learning_rate": 3e-05,
-      "loss": 0.033,
       "step": 1280
     },
     {
-      "epoch": 1.03,
       "learning_rate": 3e-05,
-      "loss": 0.036,
       "step": 1290
     },
     {
-      "epoch": 1.03,
       "learning_rate": 3e-05,
-      "loss": 0.0378,
       "step": 1300
     },
     {
-      "epoch": 1.03,
-      "eval_accuracy": 0.8047169811320755,
-      "eval_f1_macro": 0.6488791804614907,
-      "eval_f1_micro": 0.8047169811320755,
-      "eval_loss": 0.037683386355638504,
-      "eval_precision_macro": 0.7109359814450084,
-      "eval_precision_micro": 0.8047169811320755,
-      "eval_recall_macro": 0.6387082579227776,
-      "eval_recall_micro": 0.8047169811320755,
-      "eval_runtime": 67.3206,
-      "eval_samples_per_second": 15.746,
-      "eval_steps_per_second": 3.936,
       "step": 1300
     },
     {
-      "epoch": 1.04,
       "learning_rate": 3e-05,
-      "loss": 0.0343,
       "step": 1310
     },
     {
-      "epoch": 1.05,
       "learning_rate": 3e-05,
-      "loss": 0.0321,
       "step": 1320
     },
     {
-      "epoch": 1.06,
       "learning_rate": 3e-05,
-      "loss": 0.031,
       "step": 1330
     },
     {
-      "epoch": 1.06,
       "learning_rate": 3e-05,
-      "loss": 0.039,
       "step": 1340
     },
     {
-      "epoch": 1.07,
       "learning_rate": 3e-05,
-      "loss": 0.0357,
       "step": 1350
     },
     {
-      "epoch": 1.07,
-      "eval_accuracy": 0.8028301886792453,
-      "eval_f1_macro": 0.6648963473667772,
-      "eval_f1_micro": 0.8028301886792453,
-      "eval_loss": 0.03860827535390854,
-      "eval_precision_macro": 0.6898539099210392,
-      "eval_precision_micro": 0.8028301886792453,
-      "eval_recall_macro": 0.6558796396655843,
-      "eval_recall_micro": 0.8028301886792453,
-      "eval_runtime": 67.0656,
-      "eval_samples_per_second": 15.805,
-      "eval_steps_per_second": 3.951,
       "step": 1350
     },
     {
-      "epoch": 1.08,
       "learning_rate": 3e-05,
-      "loss": 0.0445,
       "step": 1360
     },
     {
-      "epoch": 1.09,
       "learning_rate": 3e-05,
-      "loss": 0.0375,
       "step": 1370
     },
     {
-      "epoch": 1.1,
       "learning_rate": 3e-05,
-      "loss": 0.0375,
       "step": 1380
     },
     {
-      "epoch": 1.1,
       "learning_rate": 3e-05,
-      "loss": 0.0333,
       "step": 1390
     },
     {
-      "epoch": 1.11,
       "learning_rate": 3e-05,
-      "loss": 0.0418,
       "step": 1400
     },
     {
-      "epoch": 1.11,
-      "eval_accuracy": 0.7962264150943397,
-      "eval_f1_macro": 0.6910242491250081,
-      "eval_f1_micro": 0.7962264150943396,
-      "eval_loss": 0.0368194542825222,
-      "eval_precision_macro": 0.7114033533579757,
-      "eval_precision_micro": 0.7962264150943397,
-      "eval_recall_macro": 0.6942176996685531,
-      "eval_recall_micro": 0.7962264150943397,
-      "eval_runtime": 66.8832,
-      "eval_samples_per_second": 15.849,
-      "eval_steps_per_second": 3.962,
       "step": 1400
     },
     {
-      "epoch": 1.12,
       "learning_rate": 3e-05,
-      "loss": 0.0414,
       "step": 1410
     },
     {
-      "epoch": 1.13,
       "learning_rate": 3e-05,
-      "loss": 0.0357,
       "step": 1420
     },
     {
-      "epoch": 1.14,
       "learning_rate": 3e-05,
-      "loss": 0.0272,
       "step": 1430
     },
     {
-      "epoch": 1.14,
       "learning_rate": 3e-05,
-      "loss": 0.0323,
       "step": 1440
     },
     {
-      "epoch": 1.15,
       "learning_rate": 3e-05,
-      "loss": 0.0293,
       "step": 1450
     },
     {
-      "epoch": 1.15,
-      "eval_accuracy": 0.8141509433962264,
-      "eval_f1_macro": 0.7097996478763092,
-      "eval_f1_micro": 0.8141509433962264,
-      "eval_loss": 0.035770244896411896,
-      "eval_precision_macro": 0.7222302630120379,
-      "eval_precision_micro": 0.8141509433962264,
-      "eval_recall_macro": 0.7125706602249756,
-      "eval_recall_micro": 0.8141509433962264,
-      "eval_runtime": 67.0694,
-      "eval_samples_per_second": 15.805,
-      "eval_steps_per_second": 3.951,
       "step": 1450
     },
     {
-      "epoch": 1.15,
-      "step": 1450,
-      "total_flos": 3.612646182806976e+17,
-      "train_loss": 0.07879953698865298,
-      "train_runtime": 5948.326,
-      "train_samples_per_second": 3.9,
-      "train_steps_per_second": 0.244
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1450,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
-  "save_steps": 250,
-  "total_flos": 3.612646182806976e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 50,
+  "global_step": 1524,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.01,
       "learning_rate": 3e-05,
+      "loss": 1.5105,
       "step": 10
     },
     {
+      "epoch": 0.03,
       "learning_rate": 3e-05,
+      "loss": 1.3015,
       "step": 20
     },
     {
+      "epoch": 0.04,
       "learning_rate": 3e-05,
+      "loss": 1.2713,
       "step": 30
     },
     {
+      "epoch": 0.05,
       "learning_rate": 3e-05,
+      "loss": 1.2762,
       "step": 40
     },
     {
+      "epoch": 0.07,
       "learning_rate": 3e-05,
+      "loss": 1.2324,
       "step": 50
     },
     {
+      "epoch": 0.07,
+      "eval_loss": 1.237317442893982,
+      "eval_runtime": 19.2113,
+      "eval_samples_per_second": 25.662,
+      "eval_steps_per_second": 1.614,
       "step": 50
     },
     {
+      "epoch": 0.08,
       "learning_rate": 3e-05,
+      "loss": 1.2385,
       "step": 60
     },
     {
+      "epoch": 0.09,
       "learning_rate": 3e-05,
+      "loss": 1.2294,
       "step": 70
     },
     {
+      "epoch": 0.1,
       "learning_rate": 3e-05,
+      "loss": 1.2065,
       "step": 80
     },
     {
+      "epoch": 0.12,
       "learning_rate": 3e-05,
+      "loss": 1.2171,
       "step": 90
     },
     {
+      "epoch": 0.13,
       "learning_rate": 3e-05,
+      "loss": 1.2114,
       "step": 100
     },
     {
+      "epoch": 0.13,
+      "eval_loss": 1.2198712825775146,
+      "eval_runtime": 19.1971,
+      "eval_samples_per_second": 25.681,
+      "eval_steps_per_second": 1.615,
       "step": 100
     },
     {
+      "epoch": 0.14,
       "learning_rate": 3e-05,
+      "loss": 1.1593,
       "step": 110
     },
     {
+      "epoch": 0.16,
       "learning_rate": 3e-05,
+      "loss": 1.1865,
       "step": 120
     },
     {
+      "epoch": 0.17,
       "learning_rate": 3e-05,
+      "loss": 1.1765,
       "step": 130
     },
     {
+      "epoch": 0.18,
       "learning_rate": 3e-05,
+      "loss": 1.2079,
       "step": 140
     },
     {
+      "epoch": 0.2,
       "learning_rate": 3e-05,
+      "loss": 1.1831,
       "step": 150
     },
     {
+      "epoch": 0.2,
+      "eval_loss": 1.2110768556594849,
+      "eval_runtime": 19.4082,
+      "eval_samples_per_second": 25.402,
+      "eval_steps_per_second": 1.597,
       "step": 150
     },
     {
+      "epoch": 0.21,
       "learning_rate": 3e-05,
+      "loss": 1.2075,
       "step": 160
     },
     {
+      "epoch": 0.22,
       "learning_rate": 3e-05,
+      "loss": 1.2124,
       "step": 170
     },
     {
+      "epoch": 0.24,
       "learning_rate": 3e-05,
+      "loss": 1.2023,
       "step": 180
     },
     {
+      "epoch": 0.25,
       "learning_rate": 3e-05,
+      "loss": 1.1721,
       "step": 190
     },
     {
+      "epoch": 0.26,
       "learning_rate": 3e-05,
+      "loss": 1.2027,
       "step": 200
     },
     {
+      "epoch": 0.26,
+      "eval_loss": 1.2048192024230957,
+      "eval_runtime": 19.3037,
+      "eval_samples_per_second": 25.539,
+      "eval_steps_per_second": 1.606,
       "step": 200
     },
     {
+      "epoch": 0.28,
       "learning_rate": 3e-05,
+      "loss": 1.1674,
       "step": 210
     },
     {
+      "epoch": 0.29,
       "learning_rate": 3e-05,
+      "loss": 1.1882,
       "step": 220
     },
     {
+      "epoch": 0.3,
       "learning_rate": 3e-05,
+      "loss": 1.2099,
       "step": 230
     },
     {
+      "epoch": 0.31,
       "learning_rate": 3e-05,
+      "loss": 1.1988,
       "step": 240
     },
     {
+      "epoch": 0.33,
       "learning_rate": 3e-05,
+      "loss": 1.1827,
       "step": 250
     },
     {
+      "epoch": 0.33,
+      "eval_loss": 1.2000844478607178,
+      "eval_runtime": 19.2851,
+      "eval_samples_per_second": 25.564,
+      "eval_steps_per_second": 1.607,
       "step": 250
     },
     {
+      "epoch": 0.34,
       "learning_rate": 3e-05,
+      "loss": 1.1452,
       "step": 260
     },
     {
+      "epoch": 0.35,
       "learning_rate": 3e-05,
+      "loss": 1.185,
       "step": 270
     },
     {
+      "epoch": 0.37,
       "learning_rate": 3e-05,
+      "loss": 1.1979,
       "step": 280
     },
     {
+      "epoch": 0.38,
       "learning_rate": 3e-05,
+      "loss": 1.2155,
       "step": 290
     },
     {
+      "epoch": 0.39,
       "learning_rate": 3e-05,
+      "loss": 1.1696,
       "step": 300
     },
     {
+      "epoch": 0.39,
+      "eval_loss": 1.1973345279693604,
+      "eval_runtime": 18.7078,
+      "eval_samples_per_second": 26.353,
+      "eval_steps_per_second": 1.657,
       "step": 300
     },
     {
+      "epoch": 0.41,
       "learning_rate": 3e-05,
+      "loss": 1.1426,
       "step": 310
     },
     {
+      "epoch": 0.42,
       "learning_rate": 3e-05,
+      "loss": 1.1691,
       "step": 320
     },
     {
+      "epoch": 0.43,
       "learning_rate": 3e-05,
+      "loss": 1.1991,
       "step": 330
     },
     {
+      "epoch": 0.45,
       "learning_rate": 3e-05,
+      "loss": 1.1992,
       "step": 340
     },
     {
+      "epoch": 0.46,
       "learning_rate": 3e-05,
+      "loss": 1.2186,
       "step": 350
     },
     {
+      "epoch": 0.46,
+      "eval_loss": 1.193804383277893,
+      "eval_runtime": 18.8972,
+      "eval_samples_per_second": 26.088,
+      "eval_steps_per_second": 1.64,
       "step": 350
     },
     {
+      "epoch": 0.47,
       "learning_rate": 3e-05,
+      "loss": 1.1691,
       "step": 360
     },
     {
+      "epoch": 0.49,
       "learning_rate": 3e-05,
+      "loss": 1.1595,
       "step": 370
     },
     {
+      "epoch": 0.5,
       "learning_rate": 3e-05,
+      "loss": 1.1494,
       "step": 380
     },
     {
+      "epoch": 0.51,
       "learning_rate": 3e-05,
+      "loss": 1.1985,
       "step": 390
     },
     {
+      "epoch": 0.52,
       "learning_rate": 3e-05,
+      "loss": 1.1795,
       "step": 400
     },
     {
+      "epoch": 0.52,
+      "eval_loss": 1.1919257640838623,
+      "eval_runtime": 19.3777,
+      "eval_samples_per_second": 25.442,
+      "eval_steps_per_second": 1.6,
       "step": 400
     },
     {
+      "epoch": 0.54,
       "learning_rate": 3e-05,
+      "loss": 1.1254,
       "step": 410
     },
     {
+      "epoch": 0.55,
       "learning_rate": 3e-05,
+      "loss": 1.1772,
       "step": 420
     },
     {
+      "epoch": 0.56,
       "learning_rate": 3e-05,
+      "loss": 1.1956,
       "step": 430
     },
     {
+      "epoch": 0.58,
       "learning_rate": 3e-05,
+      "loss": 1.1959,
       "step": 440
     },
     {
+      "epoch": 0.59,
       "learning_rate": 3e-05,
+      "loss": 1.2167,
       "step": 450
     },
     {
+      "epoch": 0.59,
+      "eval_loss": 1.188421607017517,
+      "eval_runtime": 18.7028,
+      "eval_samples_per_second": 26.36,
+      "eval_steps_per_second": 1.658,
       "step": 450
     },
     {
+      "epoch": 0.6,
       "learning_rate": 3e-05,
+      "loss": 1.1625,
       "step": 460
     },
     {
+      "epoch": 0.62,
       "learning_rate": 3e-05,
+      "loss": 1.1979,
       "step": 470
     },
     {
+      "epoch": 0.63,
       "learning_rate": 3e-05,
+      "loss": 1.1705,
       "step": 480
     },
     {
+      "epoch": 0.64,
       "learning_rate": 3e-05,
+      "loss": 1.1998,
       "step": 490
     },
     {
+      "epoch": 0.66,
       "learning_rate": 3e-05,
+      "loss": 1.1992,
       "step": 500
     },
     {
+      "epoch": 0.66,
+      "eval_loss": 1.1840450763702393,
+      "eval_runtime": 19.5434,
+      "eval_samples_per_second": 25.226,
+      "eval_steps_per_second": 1.586,
       "step": 500
     },
     {
+      "epoch": 0.67,
       "learning_rate": 3e-05,
+      "loss": 1.1842,
       "step": 510
     },
     {
+      "epoch": 0.68,
       "learning_rate": 3e-05,
+      "loss": 1.1598,
       "step": 520
     },
     {
+      "epoch": 0.7,
       "learning_rate": 3e-05,
+      "loss": 1.1538,
       "step": 530
     },
     {
+      "epoch": 0.71,
       "learning_rate": 3e-05,
+      "loss": 1.1506,
       "step": 540
     },
     {
+      "epoch": 0.72,
       "learning_rate": 3e-05,
+      "loss": 1.2032,
       "step": 550
     },
     {
+      "epoch": 0.72,
+      "eval_loss": 1.1824493408203125,
+      "eval_runtime": 18.4972,
+      "eval_samples_per_second": 26.653,
+      "eval_steps_per_second": 1.676,
       "step": 550
     },
     {
+      "epoch": 0.73,
       "learning_rate": 3e-05,
+      "loss": 1.1795,
       "step": 560
     },
     {
+      "epoch": 0.75,
       "learning_rate": 3e-05,
+      "loss": 1.1604,
       "step": 570
     },
     {
+      "epoch": 0.76,
       "learning_rate": 3e-05,
+      "loss": 1.1548,
       "step": 580
     },
     {
+      "epoch": 0.77,
       "learning_rate": 3e-05,
+      "loss": 1.1876,
       "step": 590
     },
     {
+      "epoch": 0.79,
       "learning_rate": 3e-05,
+      "loss": 1.1841,
       "step": 600
     },
     {
+      "epoch": 0.79,
+      "eval_loss": 1.1797986030578613,
+      "eval_runtime": 19.5627,
+      "eval_samples_per_second": 25.201,
+      "eval_steps_per_second": 1.585,
       "step": 600
     },
     {
+      "epoch": 0.8,
       "learning_rate": 3e-05,
+      "loss": 1.1579,
       "step": 610
     },
     {
+      "epoch": 0.81,
       "learning_rate": 3e-05,
+      "loss": 1.1858,
       "step": 620
     },
     {
+      "epoch": 0.83,
       "learning_rate": 3e-05,
+      "loss": 1.1994,
       "step": 630
     },
     {
+      "epoch": 0.84,
       "learning_rate": 3e-05,
+      "loss": 1.1712,
       "step": 640
     },
     {
+      "epoch": 0.85,
       "learning_rate": 3e-05,
+      "loss": 1.166,
       "step": 650
     },
     {
+      "epoch": 0.85,
+      "eval_loss": 1.1789214611053467,
+      "eval_runtime": 19.1568,
+      "eval_samples_per_second": 25.735,
+      "eval_steps_per_second": 1.618,
       "step": 650
     },
     {
+      "epoch": 0.87,
       "learning_rate": 3e-05,
+      "loss": 1.1426,
       "step": 660
     },
     {
+      "epoch": 0.88,
       "learning_rate": 3e-05,
+      "loss": 1.1291,
       "step": 670
     },
     {
+      "epoch": 0.89,
       "learning_rate": 3e-05,
+      "loss": 1.1825,
       "step": 680
     },
     {
+      "epoch": 0.91,
       "learning_rate": 3e-05,
+      "loss": 1.1214,
       "step": 690
     },
     {
+      "epoch": 0.92,
       "learning_rate": 3e-05,
+      "loss": 1.1641,
       "step": 700
     },
     {
+      "epoch": 0.92,
+      "eval_loss": 1.1761133670806885,
+      "eval_runtime": 18.1966,
+      "eval_samples_per_second": 27.093,
+      "eval_steps_per_second": 1.704,
       "step": 700
     },
     {
+      "epoch": 0.93,
       "learning_rate": 3e-05,
+      "loss": 1.1069,
       "step": 710
     },
     {
+      "epoch": 0.94,
       "learning_rate": 3e-05,
+      "loss": 1.1267,
       "step": 720
     },
     {
+      "epoch": 0.96,
       "learning_rate": 3e-05,
+      "loss": 1.1472,
       "step": 730
     },
     {
+      "epoch": 0.97,
       "learning_rate": 3e-05,
+      "loss": 1.2204,
       "step": 740
     },
     {
+      "epoch": 0.98,
       "learning_rate": 3e-05,
+      "loss": 1.1859,
       "step": 750
     },
     {
+      "epoch": 0.98,
+      "eval_loss": 1.1751502752304077,
+      "eval_runtime": 18.7143,
+      "eval_samples_per_second": 26.343,
+      "eval_steps_per_second": 1.656,
       "step": 750
     },
     {
+      "epoch": 1.0,
       "learning_rate": 3e-05,
+      "loss": 1.1314,
       "step": 760
     },
     {
+      "epoch": 1.01,
       "learning_rate": 3e-05,
+      "loss": 1.12,
       "step": 770
     },
     {
+      "epoch": 1.02,
       "learning_rate": 3e-05,
+      "loss": 1.1007,
       "step": 780
     },
     {
+      "epoch": 1.04,
       "learning_rate": 3e-05,
+      "loss": 1.0822,
       "step": 790
     },
     {
+      "epoch": 1.05,
       "learning_rate": 3e-05,
+      "loss": 1.132,
       "step": 800
     },
     {
+      "epoch": 1.05,
+      "eval_loss": 1.1736373901367188,
+      "eval_runtime": 19.2149,
+      "eval_samples_per_second": 25.657,
+      "eval_steps_per_second": 1.613,
       "step": 800
     },
     {
+      "epoch": 1.06,
       "learning_rate": 3e-05,
+      "loss": 1.1076,
       "step": 810
     },
     {
+      "epoch": 1.08,
       "learning_rate": 3e-05,
+      "loss": 1.1007,
       "step": 820
     },
     {
+      "epoch": 1.09,
       "learning_rate": 3e-05,
+      "loss": 1.1215,
       "step": 830
     },
     {
+      "epoch": 1.1,
       "learning_rate": 3e-05,
+      "loss": 1.0956,
       "step": 840
     },
     {
+      "epoch": 1.12,
       "learning_rate": 3e-05,
+      "loss": 1.1461,
       "step": 850
     },
     {
+      "epoch": 1.12,
+      "eval_loss": 1.1723910570144653,
+      "eval_runtime": 18.6093,
+      "eval_samples_per_second": 26.492,
+      "eval_steps_per_second": 1.666,
       "step": 850
     },
     {
+      "epoch": 1.13,
       "learning_rate": 3e-05,
+      "loss": 1.0818,
       "step": 860
     },
     {
+      "epoch": 1.14,
       "learning_rate": 3e-05,
+      "loss": 1.0959,
       "step": 870
     },
     {
+      "epoch": 1.15,
       "learning_rate": 3e-05,
+      "loss": 1.0948,
       "step": 880
     },
     {
+      "epoch": 1.17,
       "learning_rate": 3e-05,
+      "loss": 1.1246,
       "step": 890
     },
     {
+      "epoch": 1.18,
       "learning_rate": 3e-05,
+      "loss": 1.0965,
       "step": 900
     },
     {
+      "epoch": 1.18,
+      "eval_loss": 1.172638177871704,
+      "eval_runtime": 18.6729,
+      "eval_samples_per_second": 26.402,
+      "eval_steps_per_second": 1.66,
       "step": 900
     },
     {
+      "epoch": 1.19,
       "learning_rate": 3e-05,
+      "loss": 1.114,
       "step": 910
     },
     {
+      "epoch": 1.21,
       "learning_rate": 3e-05,
+      "loss": 1.1152,
       "step": 920
     },
     {
+      "epoch": 1.22,
       "learning_rate": 3e-05,
+      "loss": 1.0885,
       "step": 930
     },
     {
+      "epoch": 1.23,
       "learning_rate": 3e-05,
+      "loss": 1.1221,
       "step": 940
     },
     {
+      "epoch": 1.25,
       "learning_rate": 3e-05,
+      "loss": 1.1064,
       "step": 950
     },
     {
+      "epoch": 1.25,
+      "eval_loss": 1.172351598739624,
+      "eval_runtime": 19.5348,
+      "eval_samples_per_second": 25.237,
+      "eval_steps_per_second": 1.587,
       "step": 950
     },
     {
+      "epoch": 1.26,
       "learning_rate": 3e-05,
+      "loss": 1.0518,
       "step": 960
     },
     {
+      "epoch": 1.27,
       "learning_rate": 3e-05,
+      "loss": 1.0938,
       "step": 970
     },
     {
+      "epoch": 1.29,
       "learning_rate": 3e-05,
+      "loss": 1.1184,
       "step": 980
     },
     {
+      "epoch": 1.3,
       "learning_rate": 3e-05,
+      "loss": 1.09,
       "step": 990
     },
     {
+      "epoch": 1.31,
       "learning_rate": 3e-05,
+      "loss": 1.123,
       "step": 1000
     },
     {
+      "epoch": 1.31,
+      "eval_loss": 1.1728639602661133,
+      "eval_runtime": 18.8741,
+      "eval_samples_per_second": 26.12,
+      "eval_steps_per_second": 1.642,
       "step": 1000
     },
     {
+      "epoch": 1.33,
       "learning_rate": 3e-05,
+      "loss": 1.1059,
       "step": 1010
     },
     {
+      "epoch": 1.34,
       "learning_rate": 3e-05,
+      "loss": 1.1061,
       "step": 1020
     },
     {
+      "epoch": 1.35,
       "learning_rate": 3e-05,
+      "loss": 1.1147,
       "step": 1030
     },
     {
+      "epoch": 1.36,
       "learning_rate": 3e-05,
+      "loss": 1.1322,
       "step": 1040
     },
     {
+      "epoch": 1.38,
       "learning_rate": 3e-05,
+      "loss": 1.1079,
       "step": 1050
     },
     {
+      "epoch": 1.38,
+      "eval_loss": 1.1694797277450562,
+      "eval_runtime": 18.842,
+      "eval_samples_per_second": 26.165,
+      "eval_steps_per_second": 1.645,
       "step": 1050
     },
     {
+      "epoch": 1.39,
       "learning_rate": 3e-05,
+      "loss": 1.0826,
       "step": 1060
     },
     {
+      "epoch": 1.4,
       "learning_rate": 3e-05,
+      "loss": 1.1194,
       "step": 1070
     },
     {
+      "epoch": 1.42,
       "learning_rate": 3e-05,
+      "loss": 1.1398,
       "step": 1080
     },
     {
+      "epoch": 1.43,
       "learning_rate": 3e-05,
+      "loss": 1.11,
       "step": 1090
     },
     {
+      "epoch": 1.44,
       "learning_rate": 3e-05,
+      "loss": 1.12,
       "step": 1100
     },
     {
+      "epoch": 1.44,
+      "eval_loss": 1.1707435846328735,
+      "eval_runtime": 19.0362,
+      "eval_samples_per_second": 25.898,
+      "eval_steps_per_second": 1.628,
       "step": 1100
     },
     {
+      "epoch": 1.46,
       "learning_rate": 3e-05,
+      "loss": 1.0891,
       "step": 1110
     },
     {
+      "epoch": 1.47,
       "learning_rate": 3e-05,
+      "loss": 1.1216,
       "step": 1120
     },
     {
+      "epoch": 1.48,
       "learning_rate": 3e-05,
+      "loss": 1.1122,
       "step": 1130
     },
     {
+      "epoch": 1.5,
       "learning_rate": 3e-05,
+      "loss": 1.1065,
       "step": 1140
     },
     {
+      "epoch": 1.51,
       "learning_rate": 3e-05,
+      "loss": 1.1288,
       "step": 1150
     },
     {
+      "epoch": 1.51,
+      "eval_loss": 1.1693464517593384,
+      "eval_runtime": 19.1181,
+      "eval_samples_per_second": 25.787,
+      "eval_steps_per_second": 1.622,
       "step": 1150
     },
     {
+      "epoch": 1.52,
       "learning_rate": 3e-05,
+      "loss": 1.1145,
       "step": 1160
     },
     {
+      "epoch": 1.54,
       "learning_rate": 3e-05,
+      "loss": 1.0812,
       "step": 1170
     },
     {
+      "epoch": 1.55,
       "learning_rate": 3e-05,
+      "loss": 1.1291,
       "step": 1180
     },
     {
+      "epoch": 1.56,
       "learning_rate": 3e-05,
+      "loss": 1.1114,
       "step": 1190
     },
     {
+      "epoch": 1.57,
       "learning_rate": 3e-05,
+      "loss": 1.133,
       "step": 1200
     },
     {
+      "epoch": 1.57,
+      "eval_loss": 1.1675716638565063,
+      "eval_runtime": 19.1116,
+      "eval_samples_per_second": 25.796,
+      "eval_steps_per_second": 1.622,
       "step": 1200
     },
     {
+      "epoch": 1.59,
       "learning_rate": 3e-05,
+      "loss": 1.0918,
       "step": 1210
     },
     {
+      "epoch": 1.6,
       "learning_rate": 3e-05,
+      "loss": 1.1009,
       "step": 1220
     },
     {
+      "epoch": 1.61,
       "learning_rate": 3e-05,
+      "loss": 1.1279,
       "step": 1230
     },
     {
+      "epoch": 1.63,
       "learning_rate": 3e-05,
+      "loss": 1.1314,
       "step": 1240
     },
     {
+      "epoch": 1.64,
       "learning_rate": 3e-05,
+      "loss": 1.1647,
       "step": 1250
     },
     {
+      "epoch": 1.64,
+      "eval_loss": 1.1693305969238281,
+      "eval_runtime": 18.9258,
+      "eval_samples_per_second": 26.049,
+      "eval_steps_per_second": 1.638,
       "step": 1250
     },
     {
+      "epoch": 1.65,
       "learning_rate": 3e-05,
+      "loss": 1.0633,
       "step": 1260
     },
     {
+      "epoch": 1.67,
       "learning_rate": 3e-05,
+      "loss": 1.0961,
       "step": 1270
     },
     {
+      "epoch": 1.68,
       "learning_rate": 3e-05,
+      "loss": 1.1106,
       "step": 1280
     },
     {
+      "epoch": 1.69,
       "learning_rate": 3e-05,
+      "loss": 1.1233,
       "step": 1290
     },
     {
+      "epoch": 1.71,
       "learning_rate": 3e-05,
+      "loss": 1.1269,
       "step": 1300
     },
     {
+      "epoch": 1.71,
+      "eval_loss": 1.1658315658569336,
+      "eval_runtime": 18.972,
+      "eval_samples_per_second": 25.986,
+      "eval_steps_per_second": 1.634,
       "step": 1300
     },
     {
+      "epoch": 1.72,
       "learning_rate": 3e-05,
+      "loss": 1.0683,
       "step": 1310
     },
     {
+      "epoch": 1.73,
       "learning_rate": 3e-05,
+      "loss": 1.1079,
       "step": 1320
     },
     {
+      "epoch": 1.75,
       "learning_rate": 3e-05,
+      "loss": 1.1367,
       "step": 1330
     },
     {
+      "epoch": 1.76,
       "learning_rate": 3e-05,
+      "loss": 1.1077,
       "step": 1340
     },
     {
+      "epoch": 1.77,
       "learning_rate": 3e-05,
+      "loss": 1.1332,
       "step": 1350
     },
     {
+      "epoch": 1.77,
+      "eval_loss": 1.1656816005706787,
+      "eval_runtime": 19.0244,
+      "eval_samples_per_second": 25.914,
+      "eval_steps_per_second": 1.629,
       "step": 1350
     },
     {
+      "epoch": 1.78,
       "learning_rate": 3e-05,
+      "loss": 1.0921,
       "step": 1360
     },
     {
+      "epoch": 1.8,
       "learning_rate": 3e-05,
+      "loss": 1.0669,
       "step": 1370
     },
     {
+      "epoch": 1.81,
       "learning_rate": 3e-05,
+      "loss": 1.1185,
       "step": 1380
     },
     {
+      "epoch": 1.82,
       "learning_rate": 3e-05,
+      "loss": 1.108,
       "step": 1390
     },
     {
+      "epoch": 1.84,
       "learning_rate": 3e-05,
+      "loss": 1.1276,
       "step": 1400
     },
     {
+      "epoch": 1.84,
+      "eval_loss": 1.1681002378463745,
+      "eval_runtime": 18.4913,
+      "eval_samples_per_second": 26.661,
+      "eval_steps_per_second": 1.676,
       "step": 1400
     },
     {
+      "epoch": 1.85,
       "learning_rate": 3e-05,
+      "loss": 1.0666,
       "step": 1410
     },
     {
+      "epoch": 1.86,
       "learning_rate": 3e-05,
+      "loss": 1.1286,
       "step": 1420
     },
     {
+      "epoch": 1.88,
       "learning_rate": 3e-05,
+      "loss": 1.1286,
       "step": 1430
     },
     {
+      "epoch": 1.89,
       "learning_rate": 3e-05,
+      "loss": 1.0967,
       "step": 1440
     },
     {
+      "epoch": 1.9,
       "learning_rate": 3e-05,
+      "loss": 1.1361,
       "step": 1450
     },
     {
+      "epoch": 1.9,
+      "eval_loss": 1.1633367538452148,
+      "eval_runtime": 18.9278,
+      "eval_samples_per_second": 26.046,
+      "eval_steps_per_second": 1.638,
       "step": 1450
     },
     {
+      "epoch": 1.92,
+      "learning_rate": 3e-05,
+      "loss": 1.0907,
+      "step": 1460
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 3e-05,
+      "loss": 1.1137,
+      "step": 1470
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 3e-05,
+      "loss": 1.125,
+      "step": 1480
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 3e-05,
+      "loss": 1.1047,
+      "step": 1490
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 3e-05,
+      "loss": 1.1205,
+      "step": 1500
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 1.1639732122421265,
+      "eval_runtime": 19.1908,
+      "eval_samples_per_second": 25.689,
+      "eval_steps_per_second": 1.615,
+      "step": 1500
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 3e-05,
+      "loss": 1.0902,
+      "step": 1510
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 3e-05,
+      "loss": 1.0794,
+      "step": 1520
+    },
+    {
+      "epoch": 2.0,
+      "step": 1524,
+      "total_flos": 2.2001611985471406e+18,
+      "train_loss": 1.1488912840840697,
+      "train_runtime": 10306.9039,
+      "train_samples_per_second": 9.463,
+      "train_steps_per_second": 0.148
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1524,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
+  "save_steps": 100,
+  "total_flos": 2.2001611985471406e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null