Model save

Browse files

Files changed (7) hide show

README.md +91 -71
all_results.json +38 -17
eval_results.json +32 -11
model.safetensors +1 -1
runs/Jul26_04-39-00_66bdfda16dc0/events.out.tfevents.1721970107.66bdfda16dc0.1806.3 +3 -0
train_results.json +6 -6
trainer_state.json +372 -101

README.md CHANGED Viewed

@@ -1,71 +1,91 @@
----
-license: apache-2.0
-base_model: distilbert-base-uncased
-tags:
-- generated_from_trainer
-model-index:
-- name: distilbert-base-uncased-pii-200
-  results: []
----
-<!-- This model card has been generated automatically according to the information the Trainer had access to. You
-should probably proofread and complete it, then remove this comment. -->
-# distilbert-base-uncased-pii-200
-This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on the None dataset.
-It achieves the following results on the evaluation set:
-- Loss: 1.5384
-- Overall Precision: 0.0
-- Overall Recall: 0.0
-- Overall F1: 0.0
-- Overall Accuracy: 0.8065
-- 0 F1: 0.0
-- 100 F1: 0.0
--   F1: 0.0
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
-### Training hyperparameters
-The following hyperparameters were used during training:
-- learning_rate: 5e-05
-- train_batch_size: 32
-- eval_batch_size: 32
-- seed: 42
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
-- lr_scheduler_warmup_ratio: 0.2
-- num_epochs: 7
-### Training results
-| Training Loss | Epoch | Step | Validation Loss | Overall Precision | Overall Recall | Overall F1 | Overall Accuracy | 0 F1 | 1 F1 | 100 F1 | 2 F1 | 3 F1 | 5 F1 | 6 F1 |   F1 |
-|:-------------:|:-----:|:----:|:---------------:|:-----------------:|:--------------:|:----------:|:----------------:|:----:|:----:|:------:|:----:|:----:|:----:|:----:|:----:|
-| No log        | 1.0   | 1    | 2.8031          | 0.0               | 0.0            | 0.0        | 0.1935           | 0.0  | 0.0  | 0.0    | 0.0  | 0.0  | 0.0  | 0.0  | 0.0  |
-| No log        | 2.0   | 2    | 2.6237          | 0.0               | 0.0            | 0.0        | 0.6129           | 0.0  | 0.0  | 0.0    | 0.0  | 0.0  | 0.0  | 0.0  |
-| No log        | 3.0   | 3    | 2.2814          | 0.0               | 0.0            | 0.0        | 0.7742           | 0.0  | 0.0  | 0.0    | 0.0  |
-| No log        | 4.0   | 4    | 2.0014          | 0.0               | 0.0            | 0.0        | 0.7903           | 0.0  | 0.0  | 0.0    | 0.0  |
-| No log        | 5.0   | 5    | 1.7758          | 0.0               | 0.0            | 0.0        | 0.8065           | 0.0  | 0.0  | 0.0    |
-| No log        | 6.0   | 6    | 1.6176          | 0.0               | 0.0            | 0.0        | 0.8065           | 0.0  | 0.0  | 0.0    |
-| No log        | 7.0   | 7    | 1.5384          | 0.0               | 0.0            | 0.0        | 0.8065           | 0.0  | 0.0  | 0.0    |
-### Framework versions
-- Transformers 4.40.1
-- Pytorch 2.2.2+cpu
-- Datasets 2.19.0
-- Tokenizers 0.19.1

+---
+license: apache-2.0
+base_model: distilbert/distilbert-base-uncased
+tags:
+- generated_from_trainer
+model-index:
+- name: distilbert-base-uncased-pii-200
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# distilbert-base-uncased-pii-200
+This model is a fine-tuned version of [distilbert/distilbert-base-uncased](https://huggingface.co/distilbert/distilbert-base-uncased) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0786
+- Overall Precision: 0.9472
+- Overall Recall: 0.9567
+- Overall F1: 0.9519
+- Overall Accuracy: 0.9678
+- 0 F1: 0.8918
+- 00 F1: 0.9351
+- 01 F1: 0.2727
+- 02 F1: 0.3439
+- 03 F1: 0.9481
+- 04 F1: 0.8169
+- 05 F1: 0.8037
+- 06 F1: 0.8732
+- 07 F1: 0.8910
+- 08 F1: 0.9636
+- 09 F1: 0.9077
+- 1 F1: 0.9461
+- 10 F1: 0.0
+- 100 F1: 0.9788
+- 2 F1: 0.9052
+- 3 F1: 0.9488
+- 4 F1: 0.9129
+- 5 F1: 0.9431
+- 6 F1: 0.9765
+- 7 F1: 0.9618
+- 8 F1: 0.9574
+- 9 F1: 0.9131
+-   F1: 0.9659
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.2
+- num_epochs: 7
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Overall Precision | Overall Recall | Overall F1 | Overall Accuracy | 0 F1   | 00 F1  | 01 F1  | 02 F1  | 03 F1  | 04 F1  | 05 F1  | 06 F1  | 07 F1  | 08 F1  | 09 F1  | 1 F1   | 10 F1 | 100 F1 | 2 F1   | 3 F1   | 4 F1   | 5 F1   | 6 F1   | 7 F1   | 8 F1   | 9 F1   |   F1   |
+|:-------------:|:-----:|:----:|:---------------:|:-----------------:|:--------------:|:----------:|:----------------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:-----:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|
+| 0.2545        | 1.0   | 1088 | 0.1255          | 0.9224            | 0.9142         | 0.9182     | 0.9575           | 0.8578 | 0.9054 | 0.0    | 0.0    | 0.7402 | 0.6939 | 0.6694 | 0.3099 | 0.1647 | 0.0    | 0.9048 | 0.9171 | 0.0   | 0.9609 | 0.9003 | 0.9280 | 0.8847 | 0.9121 | 0.9371 | 0.9085 | 0.8524 | 0.8536 | 0.9117 |
+| 0.092         | 2.0   | 2176 | 0.0819          | 0.9439            | 0.9521         | 0.9480     | 0.9657           | 0.8955 | 0.9548 | 0.4305 | 0.4601 | 0.9635 | 0.7525 | 0.5925 | 0.8138 | 0.8468 | 0.9455 | 0.9291 | 0.9426 | 0.0   | 0.9756 | 0.9291 | 0.9466 | 0.9122 | 0.9362 | 0.9687 | 0.9532 | 0.9446 | 0.9067 | 0.9623 |
+| 0.0716        | 3.0   | 3264 | 0.0786          | 0.9472            | 0.9567         | 0.9519     | 0.9678           | 0.8918 | 0.9351 | 0.2727 | 0.3439 | 0.9481 | 0.8169 | 0.8037 | 0.8732 | 0.8910 | 0.9636 | 0.9077 | 0.9461 | 0.0   | 0.9788 | 0.9052 | 0.9488 | 0.9129 | 0.9431 | 0.9765 | 0.9618 | 0.9574 | 0.9131 | 0.9659 |
+| 0.0575        | 4.0   | 4352 | 0.0808          | 0.9501            | 0.9577         | 0.9539     | 0.9673           | 0.8882 | 0.9751 | 0.4669 | 0.3951 | 0.9781 | 0.8206 | 0.8034 | 0.8941 | 0.9196 | 0.9550 | 0.9508 | 0.9438 | 0.0   | 0.9800 | 0.9068 | 0.9545 | 0.9235 | 0.9503 | 0.9744 | 0.9626 | 0.9624 | 0.9086 | 0.9674 |
+| 0.0463        | 5.0   | 5440 | 0.0801          | 0.9559            | 0.9604         | 0.9581     | 0.9693           | 0.9050 | 0.9634 | 0.4693 | 0.4950 | 0.9781 | 0.8    | 0.7726 | 0.9006 | 0.9211 | 0.9636 | 0.9291 | 0.9506 | 0.0   | 0.9814 | 0.9328 | 0.9549 | 0.9278 | 0.9548 | 0.9766 | 0.9647 | 0.9624 | 0.9176 | 0.9707 |
+| 0.0325        | 6.0   | 6528 | 0.1021          | 0.9559            | 0.9611         | 0.9585     | 0.9690           | 0.9019 | 0.9667 | 0.4477 | 0.4275 | 0.9781 | 0.7926 | 0.7870 | 0.9080 | 0.9457 | 0.9541 | 0.9431 | 0.9516 | 0.0   | 0.9820 | 0.9276 | 0.9583 | 0.9298 | 0.9577 | 0.9769 | 0.9654 | 0.9642 | 0.9196 | 0.9695 |
+| 0.0159        | 7.0   | 7616 | 0.1300          | 0.9543            | 0.9601         | 0.9572     | 0.9673           | 0.8968 | 0.9642 | 0.4610 | 0.4408 | 0.9781 | 0.7788 | 0.7702 | 0.9096 | 0.9236 | 0.9550 | 0.9516 | 0.9484 | 0.0   | 0.9823 | 0.9185 | 0.9569 | 0.9273 | 0.9573 | 0.9774 | 0.9652 | 0.9667 | 0.9157 | 0.9706 |
+### Framework versions
+- Transformers 4.42.4
+- Pytorch 2.3.1+cu121
+- Datasets 2.20.0
+- Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,20 +1,41 @@
 {
     "epoch": 7.0,
-    "eval_100_f1": 0.0,
-    "eval___f1": 0.0,
-    "eval_loss": 1.1882282495498657,
-    "eval_overall_accuracy": 0.8378378378378378,
-    "eval_overall_f1": 0.0,
-    "eval_overall_precision": 0.0,
-    "eval_overall_recall": 0.0,
-    "eval_runtime": 0.266,
-    "eval_samples": 1,
-    "eval_samples_per_second": 3.759,
-    "eval_steps_per_second": 3.759,
-    "total_flos": 228688400640.0,
-    "train_loss": 1.8831114087785994,
-    "train_runtime": 26.9803,
-    "train_samples": 2,
-    "train_samples_per_second": 0.519,
-    "train_steps_per_second": 0.259
 }

 {
     "epoch": 7.0,
+    "eval_00_f1": 0.9351351351351351,
+    "eval_01_f1": 0.2727272727272727,
+    "eval_02_f1": 0.3438914027149321,
+    "eval_03_f1": 0.9481481481481482,
+    "eval_04_f1": 0.8168701442841289,
+    "eval_05_f1": 0.8036951501154733,
+    "eval_06_f1": 0.8732394366197183,
+    "eval_07_f1": 0.8909657320872275,
+    "eval_08_f1": 0.9636363636363636,
+    "eval_09_f1": 0.9076923076923077,
+    "eval_0_f1": 0.8918362091166624,
+    "eval_100_f1": 0.9787716689913094,
+    "eval_10_f1": 0.0,
+    "eval_1_f1": 0.9460573633891765,
+    "eval_2_f1": 0.9052096569250319,
+    "eval_3_f1": 0.9488174195970466,
+    "eval_4_f1": 0.9129169464965301,
+    "eval_5_f1": 0.9431066419687748,
+    "eval_6_f1": 0.9764898851831602,
+    "eval_7_f1": 0.9617969579059075,
+    "eval_8_f1": 0.9573971403559964,
+    "eval_9_f1": 0.9131222981453074,
+    "eval___f1": 0.965883121123082,
+    "eval_loss": 0.07855656743049622,
+    "eval_overall_accuracy": 0.9678325102233014,
+    "eval_overall_f1": 0.9519101855680437,
+    "eval_overall_precision": 0.9471512280264306,
+    "eval_overall_recall": 0.9567172073342737,
+    "eval_runtime": 31.7972,
+    "eval_samples": 8700,
+    "eval_samples_per_second": 273.609,
+    "eval_steps_per_second": 8.554,
+    "total_flos": 6493939017778920.0,
+    "train_loss": 0.18183875429843152,
+    "train_runtime": 1332.3436,
+    "train_samples": 34796,
+    "train_samples_per_second": 182.815,
+    "train_steps_per_second": 5.716
 }

eval_results.json CHANGED Viewed

@@ -1,14 +1,35 @@
 {
     "epoch": 7.0,
-    "eval_100_f1": 0.0,
-    "eval___f1": 0.0,
-    "eval_loss": 1.1882282495498657,
-    "eval_overall_accuracy": 0.8378378378378378,
-    "eval_overall_f1": 0.0,
-    "eval_overall_precision": 0.0,
-    "eval_overall_recall": 0.0,
-    "eval_runtime": 0.266,
-    "eval_samples": 1,
-    "eval_samples_per_second": 3.759,
-    "eval_steps_per_second": 3.759
 }

 {
     "epoch": 7.0,
+    "eval_00_f1": 0.9351351351351351,
+    "eval_01_f1": 0.2727272727272727,
+    "eval_02_f1": 0.3438914027149321,
+    "eval_03_f1": 0.9481481481481482,
+    "eval_04_f1": 0.8168701442841289,
+    "eval_05_f1": 0.8036951501154733,
+    "eval_06_f1": 0.8732394366197183,
+    "eval_07_f1": 0.8909657320872275,
+    "eval_08_f1": 0.9636363636363636,
+    "eval_09_f1": 0.9076923076923077,
+    "eval_0_f1": 0.8918362091166624,
+    "eval_100_f1": 0.9787716689913094,
+    "eval_10_f1": 0.0,
+    "eval_1_f1": 0.9460573633891765,
+    "eval_2_f1": 0.9052096569250319,
+    "eval_3_f1": 0.9488174195970466,
+    "eval_4_f1": 0.9129169464965301,
+    "eval_5_f1": 0.9431066419687748,
+    "eval_6_f1": 0.9764898851831602,
+    "eval_7_f1": 0.9617969579059075,
+    "eval_8_f1": 0.9573971403559964,
+    "eval_9_f1": 0.9131222981453074,
+    "eval___f1": 0.965883121123082,
+    "eval_loss": 0.07855656743049622,
+    "eval_overall_accuracy": 0.9678325102233014,
+    "eval_overall_f1": 0.9519101855680437,
+    "eval_overall_precision": 0.9471512280264306,
+    "eval_overall_recall": 0.9567172073342737,
+    "eval_runtime": 31.7972,
+    "eval_samples": 8700,
+    "eval_samples_per_second": 273.609,
+    "eval_steps_per_second": 8.554
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2da5dc563652c6aeb7625314cab988dfbea7f6b9e3457d47f1b41acc4bb4ba37
 size 265811460

 version https://git-lfs.github.com/spec/v1
+oid sha256:6374688a8ff2e3bc6d4ee78fc7b6058429092d7ea3d1296f9bb1bd5d8e85b184
 size 265811460

runs/Jul26_04-39-00_66bdfda16dc0/events.out.tfevents.1721970107.66bdfda16dc0.1806.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13d13aebe76c04d8f2085983386d9f15afca04ca9d168c085d4e987cfd22813b
+size 1709

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 7.0,
-    "total_flos": 228688400640.0,
-    "train_loss": 1.8831114087785994,
-    "train_runtime": 26.9803,
-    "train_samples": 2,
-    "train_samples_per_second": 0.519,
-    "train_steps_per_second": 0.259
 }

 {
     "epoch": 7.0,
+    "total_flos": 6493939017778920.0,
+    "train_loss": 0.18183875429843152,
+    "train_runtime": 1332.3436,
+    "train_samples": 34796,
+    "train_samples_per_second": 182.815,
+    "train_steps_per_second": 5.716
 }

trainer_state.json CHANGED Viewed

@@ -1,139 +1,410 @@
 {
-  "best_metric": 1.1882282495498657,
-  "best_model_checkpoint": "data/outputs/distilbert-base-uncased-pii-200/checkpoint-7",
   "epoch": 7.0,
   "eval_steps": 500,
-  "global_step": 7,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_0_f1": 0.0,
-      "eval_100_f1": 0.0,
-      "eval___f1": 0.0,
-      "eval_loss": 2.613192081451416,
-      "eval_overall_accuracy": 0.02702702702702703,
-      "eval_overall_f1": 0.0,
-      "eval_overall_precision": 0.0,
-      "eval_overall_recall": 0.0,
-      "eval_runtime": 0.5664,
-      "eval_samples_per_second": 1.766,
-      "eval_steps_per_second": 1.766,
-      "step": 1
     },
     {
       "epoch": 2.0,
-      "eval_0_f1": 0.0,
-      "eval_100_f1": 0.18181818181818182,
-      "eval___f1": 0.0,
-      "eval_loss": 2.405207633972168,
-      "eval_overall_accuracy": 0.2972972972972973,
-      "eval_overall_f1": 0.09523809523809523,
-      "eval_overall_precision": 0.0625,
-      "eval_overall_recall": 0.2,
-      "eval_runtime": 0.2767,
-      "eval_samples_per_second": 3.614,
-      "eval_steps_per_second": 3.614,
-      "step": 2
     },
     {
       "epoch": 3.0,
-      "eval_100_f1": 0.0,
-      "eval___f1": 0.0,
-      "eval_loss": 1.9990681409835815,
-      "eval_overall_accuracy": 0.8108108108108109,
-      "eval_overall_f1": 0.0,
-      "eval_overall_precision": 0.0,
-      "eval_overall_recall": 0.0,
-      "eval_runtime": 0.2831,
-      "eval_samples_per_second": 3.532,
-      "eval_steps_per_second": 3.532,
-      "step": 3
     },
     {
       "epoch": 4.0,
-      "eval_100_f1": 0.0,
-      "eval___f1": 0.0,
-      "eval_loss": 1.671056866645813,
-      "eval_overall_accuracy": 0.8378378378378378,
-      "eval_overall_f1": 0.0,
-      "eval_overall_precision": 0.0,
-      "eval_overall_recall": 0.0,
-      "eval_runtime": 0.2912,
-      "eval_samples_per_second": 3.434,
-      "eval_steps_per_second": 3.434,
-      "step": 4
     },
     {
       "epoch": 5.0,
-      "eval_100_f1": 0.0,
-      "eval___f1": 0.0,
-      "eval_loss": 1.4230600595474243,
-      "eval_overall_accuracy": 0.8378378378378378,
-      "eval_overall_f1": 0.0,
-      "eval_overall_precision": 0.0,
-      "eval_overall_recall": 0.0,
-      "eval_runtime": 0.2824,
-      "eval_samples_per_second": 3.541,
-      "eval_steps_per_second": 3.541,
-      "step": 5
     },
     {
       "epoch": 6.0,
-      "eval_100_f1": 0.0,
-      "eval___f1": 0.0,
-      "eval_loss": 1.2626835107803345,
-      "eval_overall_accuracy": 0.8378378378378378,
-      "eval_overall_f1": 0.0,
-      "eval_overall_precision": 0.0,
-      "eval_overall_recall": 0.0,
-      "eval_runtime": 0.2997,
-      "eval_samples_per_second": 3.336,
-      "eval_steps_per_second": 3.336,
-      "step": 6
     },
     {
       "epoch": 7.0,
-      "eval_100_f1": 0.0,
-      "eval___f1": 0.0,
-      "eval_loss": 1.1882282495498657,
-      "eval_overall_accuracy": 0.8378378378378378,
-      "eval_overall_f1": 0.0,
-      "eval_overall_precision": 0.0,
-      "eval_overall_recall": 0.0,
-      "eval_runtime": 0.2721,
-      "eval_samples_per_second": 3.675,
-      "eval_steps_per_second": 3.675,
-      "step": 7
     },
     {
       "epoch": 7.0,
-      "step": 7,
-      "total_flos": 228688400640.0,
-      "train_loss": 1.8831114087785994,
-      "train_runtime": 26.9803,
-      "train_samples_per_second": 0.519,
-      "train_steps_per_second": 0.259
     },
     {
       "epoch": 7.0,
-      "eval_100_f1": 0.0,
-      "eval___f1": 0.0,
-      "eval_loss": 1.1882282495498657,
-      "eval_overall_accuracy": 0.8378378378378378,
-      "eval_overall_f1": 0.0,
-      "eval_overall_precision": 0.0,
-      "eval_overall_recall": 0.0,
-      "eval_runtime": 0.266,
-      "eval_samples_per_second": 3.759,
-      "eval_steps_per_second": 3.759,
-      "step": 7
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 500,
@@ -149,7 +420,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 228688400640.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.07855656743049622,
+  "best_model_checkpoint": "data/outputs/distilbert-base-uncased-pii-200/checkpoint-3264",
   "epoch": 7.0,
   "eval_steps": 500,
+  "global_step": 7616,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.45955882352941174,
+      "grad_norm": 1.3934886455535889,
+      "learning_rate": 1.6404199475065617e-05,
+      "loss": 1.7881,
+      "step": 500
+    },
+    {
+      "epoch": 0.9191176470588235,
+      "grad_norm": 0.784841775894165,
+      "learning_rate": 3.280839895013123e-05,
+      "loss": 0.2545,
+      "step": 1000
+    },
     {
       "epoch": 1.0,
+      "eval_00_f1": 0.9054441260744985,
+      "eval_01_f1": 0.0,
+      "eval_02_f1": 0.0,
+      "eval_03_f1": 0.7401574803149606,
+      "eval_04_f1": 0.6938775510204082,
+      "eval_05_f1": 0.6694045174537987,
+      "eval_06_f1": 0.30985915492957744,
+      "eval_07_f1": 0.16470588235294117,
+      "eval_08_f1": 0.0,
+      "eval_09_f1": 0.9047619047619048,
+      "eval_0_f1": 0.8577833823735463,
+      "eval_100_f1": 0.9608561749307052,
+      "eval_10_f1": 0.0,
+      "eval_1_f1": 0.9170798427081553,
+      "eval_2_f1": 0.9002621395581076,
+      "eval_3_f1": 0.9280289330922241,
+      "eval_4_f1": 0.8847179031541538,
+      "eval_5_f1": 0.9121113162004828,
+      "eval_6_f1": 0.9370610480821178,
+      "eval_7_f1": 0.9085239085239085,
+      "eval_8_f1": 0.8524124881740777,
+      "eval_9_f1": 0.8535798122065729,
+      "eval___f1": 0.9117056318791676,
+      "eval_loss": 0.12546201050281525,
+      "eval_overall_accuracy": 0.9575080375008431,
+      "eval_overall_f1": 0.918246790209348,
+      "eval_overall_precision": 0.9223653782623059,
+      "eval_overall_recall": 0.9141648196655249,
+      "eval_runtime": 33.5549,
+      "eval_samples_per_second": 259.277,
+      "eval_steps_per_second": 8.106,
+      "step": 1088
+    },
+    {
+      "epoch": 1.3786764705882353,
+      "grad_norm": 0.5563145279884338,
+      "learning_rate": 4.9212598425196856e-05,
+      "loss": 0.1199,
+      "step": 1500
+    },
+    {
+      "epoch": 1.8382352941176472,
+      "grad_norm": 0.48911386728286743,
+      "learning_rate": 4.609323703217334e-05,
+      "loss": 0.092,
+      "step": 2000
     },
     {
       "epoch": 2.0,
+      "eval_00_f1": 0.9548022598870056,
+      "eval_01_f1": 0.4304635761589404,
+      "eval_02_f1": 0.46009389671361506,
+      "eval_03_f1": 0.9635036496350365,
+      "eval_04_f1": 0.7525252525252526,
+      "eval_05_f1": 0.5924812030075188,
+      "eval_06_f1": 0.8138297872340425,
+      "eval_07_f1": 0.8468468468468469,
+      "eval_08_f1": 0.9454545454545454,
+      "eval_09_f1": 0.9291338582677166,
+      "eval_0_f1": 0.8954570333880678,
+      "eval_100_f1": 0.975552255713914,
+      "eval_10_f1": 0.0,
+      "eval_1_f1": 0.9426179998274226,
+      "eval_2_f1": 0.9290612143124298,
+      "eval_3_f1": 0.9465685683271017,
+      "eval_4_f1": 0.9122260540660807,
+      "eval_5_f1": 0.9362116991643455,
+      "eval_6_f1": 0.9686864579097194,
+      "eval_7_f1": 0.953225525995479,
+      "eval_8_f1": 0.9446140427387701,
+      "eval_9_f1": 0.9067169592340055,
+      "eval___f1": 0.9622872037142625,
+      "eval_loss": 0.08186369389295578,
+      "eval_overall_accuracy": 0.9657341417048245,
+      "eval_overall_f1": 0.9479689782509201,
+      "eval_overall_precision": 0.9439151985816489,
+      "eval_overall_recall": 0.9520577271811405,
+      "eval_runtime": 31.5004,
+      "eval_samples_per_second": 276.187,
+      "eval_steps_per_second": 8.635,
+      "step": 2176
+    },
+    {
+      "epoch": 2.297794117647059,
+      "grad_norm": 1.011751413345337,
+      "learning_rate": 4.198949441891005e-05,
+      "loss": 0.0772,
+      "step": 2500
+    },
+    {
+      "epoch": 2.7573529411764706,
+      "grad_norm": 0.7153874635696411,
+      "learning_rate": 3.788575180564675e-05,
+      "loss": 0.0716,
+      "step": 3000
     },
     {
       "epoch": 3.0,
+      "eval_00_f1": 0.9351351351351351,
+      "eval_01_f1": 0.2727272727272727,
+      "eval_02_f1": 0.3438914027149321,
+      "eval_03_f1": 0.9481481481481482,
+      "eval_04_f1": 0.8168701442841289,
+      "eval_05_f1": 0.8036951501154733,
+      "eval_06_f1": 0.8732394366197183,
+      "eval_07_f1": 0.8909657320872275,
+      "eval_08_f1": 0.9636363636363636,
+      "eval_09_f1": 0.9076923076923077,
+      "eval_0_f1": 0.8918362091166624,
+      "eval_100_f1": 0.9787716689913094,
+      "eval_10_f1": 0.0,
+      "eval_1_f1": 0.9460573633891765,
+      "eval_2_f1": 0.9052096569250319,
+      "eval_3_f1": 0.9488174195970466,
+      "eval_4_f1": 0.9129169464965301,
+      "eval_5_f1": 0.9431066419687748,
+      "eval_6_f1": 0.9764898851831602,
+      "eval_7_f1": 0.9617969579059075,
+      "eval_8_f1": 0.9573971403559964,
+      "eval_9_f1": 0.9131222981453074,
+      "eval___f1": 0.965883121123082,
+      "eval_loss": 0.07855656743049622,
+      "eval_overall_accuracy": 0.9678325102233014,
+      "eval_overall_f1": 0.9519101855680437,
+      "eval_overall_precision": 0.9471512280264306,
+      "eval_overall_recall": 0.9567172073342737,
+      "eval_runtime": 31.5113,
+      "eval_samples_per_second": 276.091,
+      "eval_steps_per_second": 8.632,
+      "step": 3264
+    },
+    {
+      "epoch": 3.2169117647058822,
+      "grad_norm": 0.566089928150177,
+      "learning_rate": 3.378200919238346e-05,
+      "loss": 0.064,
+      "step": 3500
+    },
+    {
+      "epoch": 3.6764705882352944,
+      "grad_norm": 0.5392144322395325,
+      "learning_rate": 2.9678266579120157e-05,
+      "loss": 0.0575,
+      "step": 4000
     },
     {
       "epoch": 4.0,
+      "eval_00_f1": 0.9750692520775622,
+      "eval_01_f1": 0.46692607003891046,
+      "eval_02_f1": 0.39506172839506176,
+      "eval_03_f1": 0.9781021897810219,
+      "eval_04_f1": 0.8205741626794257,
+      "eval_05_f1": 0.8033573141486811,
+      "eval_06_f1": 0.8941176470588235,
+      "eval_07_f1": 0.9196141479099678,
+      "eval_08_f1": 0.9549549549549549,
+      "eval_09_f1": 0.9508196721311476,
+      "eval_0_f1": 0.8882090503505418,
+      "eval_100_f1": 0.9800042935565983,
+      "eval_10_f1": 0.0,
+      "eval_1_f1": 0.9437605172261093,
+      "eval_2_f1": 0.9068274144935132,
+      "eval_3_f1": 0.9544898458527037,
+      "eval_4_f1": 0.9235419232060899,
+      "eval_5_f1": 0.9502912095354191,
+      "eval_6_f1": 0.974421768707483,
+      "eval_7_f1": 0.9625987708516243,
+      "eval_8_f1": 0.9623994147768837,
+      "eval_9_f1": 0.9085659287776707,
+      "eval___f1": 0.9674214041374817,
+      "eval_loss": 0.08075448125600815,
+      "eval_overall_accuracy": 0.9673478870178436,
+      "eval_overall_f1": 0.9538741337681478,
+      "eval_overall_precision": 0.9500668357340063,
+      "eval_overall_recall": 0.9577120693129155,
+      "eval_runtime": 31.7082,
+      "eval_samples_per_second": 274.377,
+      "eval_steps_per_second": 8.578,
+      "step": 4352
+    },
+    {
+      "epoch": 4.136029411764706,
+      "grad_norm": 0.993366003036499,
+      "learning_rate": 2.557452396585686e-05,
+      "loss": 0.052,
+      "step": 4500
+    },
+    {
+      "epoch": 4.595588235294118,
+      "grad_norm": 0.6269740462303162,
+      "learning_rate": 2.1470781352593567e-05,
+      "loss": 0.0463,
+      "step": 5000
     },
     {
       "epoch": 5.0,
+      "eval_00_f1": 0.9633802816901408,
+      "eval_01_f1": 0.4693140794223827,
+      "eval_02_f1": 0.49504950495049505,
+      "eval_03_f1": 0.9781021897810219,
+      "eval_04_f1": 0.8,
+      "eval_05_f1": 0.772609819121447,
+      "eval_06_f1": 0.9005847953216374,
+      "eval_07_f1": 0.9211356466876972,
+      "eval_08_f1": 0.9636363636363636,
+      "eval_09_f1": 0.9291338582677166,
+      "eval_0_f1": 0.9050072664817017,
+      "eval_100_f1": 0.9814164045116244,
+      "eval_10_f1": 0.0,
+      "eval_1_f1": 0.9505915100904663,
+      "eval_2_f1": 0.932791259052217,
+      "eval_3_f1": 0.9548890514508657,
+      "eval_4_f1": 0.9277958132766148,
+      "eval_5_f1": 0.954789061426412,
+      "eval_6_f1": 0.9766105867870333,
+      "eval_7_f1": 0.964676792652773,
+      "eval_8_f1": 0.9624082232011747,
+      "eval_9_f1": 0.9176204606471668,
+      "eval___f1": 0.9707106143428246,
+      "eval_loss": 0.08005847036838531,
+      "eval_overall_accuracy": 0.9692788856663944,
+      "eval_overall_f1": 0.9581124205342111,
+      "eval_overall_precision": 0.9558786663324141,
+      "eval_overall_recall": 0.9603566391295587,
+      "eval_runtime": 31.5692,
+      "eval_samples_per_second": 275.585,
+      "eval_steps_per_second": 8.616,
+      "step": 5440
+    },
+    {
+      "epoch": 5.055147058823529,
+      "grad_norm": 0.6535865068435669,
+      "learning_rate": 1.736703873933027e-05,
+      "loss": 0.0429,
+      "step": 5500
+    },
+    {
+      "epoch": 5.514705882352941,
+      "grad_norm": 0.42540472745895386,
+      "learning_rate": 1.3263296126066974e-05,
+      "loss": 0.0321,
+      "step": 6000
+    },
+    {
+      "epoch": 5.974264705882353,
+      "grad_norm": 0.3176397979259491,
+      "learning_rate": 9.159553512803678e-06,
+      "loss": 0.0325,
+      "step": 6500
     },
     {
       "epoch": 6.0,
+      "eval_00_f1": 0.9666666666666666,
+      "eval_01_f1": 0.4476534296028881,
+      "eval_02_f1": 0.4275362318840579,
+      "eval_03_f1": 0.9781021897810219,
+      "eval_04_f1": 0.7926380368098158,
+      "eval_05_f1": 0.7869674185463661,
+      "eval_06_f1": 0.9080459770114941,
+      "eval_07_f1": 0.9456869009584665,
+      "eval_08_f1": 0.9541284403669724,
+      "eval_09_f1": 0.943089430894309,
+      "eval_0_f1": 0.9018794556059624,
+      "eval_100_f1": 0.9819615302021658,
+      "eval_10_f1": 0.0,
+      "eval_1_f1": 0.9515930293962331,
+      "eval_2_f1": 0.9276000518067608,
+      "eval_3_f1": 0.9582514734774068,
+      "eval_4_f1": 0.9297636384003585,
+      "eval_5_f1": 0.9576626538617611,
+      "eval_6_f1": 0.9769031023643571,
+      "eval_7_f1": 0.9654320987654321,
+      "eval_8_f1": 0.9641913707073672,
+      "eval_9_f1": 0.9196490739451331,
+      "eval___f1": 0.9694843342036553,
+      "eval_loss": 0.10214365273714066,
+      "eval_overall_accuracy": 0.9690265818326251,
+      "eval_overall_f1": 0.9584994756704824,
+      "eval_overall_precision": 0.9558884310459276,
+      "eval_overall_recall": 0.9611248236953456,
+      "eval_runtime": 31.5742,
+      "eval_samples_per_second": 275.541,
+      "eval_steps_per_second": 8.615,
+      "step": 6528
+    },
+    {
+      "epoch": 6.4338235294117645,
+      "grad_norm": 1.4613324403762817,
+      "learning_rate": 5.0558108995403805e-06,
+      "loss": 0.0193,
+      "step": 7000
+    },
+    {
+      "epoch": 6.893382352941177,
+      "grad_norm": 0.6644862294197083,
+      "learning_rate": 9.520682862770847e-07,
+      "loss": 0.0159,
+      "step": 7500
     },
     {
       "epoch": 7.0,
+      "eval_00_f1": 0.9641873278236915,
+      "eval_01_f1": 0.461038961038961,
+      "eval_02_f1": 0.4407894736842105,
+      "eval_03_f1": 0.9781021897810219,
+      "eval_04_f1": 0.7787610619469025,
+      "eval_05_f1": 0.7702182284980743,
+      "eval_06_f1": 0.9096209912536442,
+      "eval_07_f1": 0.9235668789808917,
+      "eval_08_f1": 0.9549549549549549,
+      "eval_09_f1": 0.9516129032258064,
+      "eval_0_f1": 0.8967626816212082,
+      "eval_100_f1": 0.9823135095335246,
+      "eval_10_f1": 0.0,
+      "eval_1_f1": 0.94840600301927,
+      "eval_2_f1": 0.9184932405827536,
+      "eval_3_f1": 0.9568531038721574,
+      "eval_4_f1": 0.927282913165266,
+      "eval_5_f1": 0.9573369565217391,
+      "eval_6_f1": 0.9773841961852859,
+      "eval_7_f1": 0.9652387640449438,
+      "eval_8_f1": 0.966681344488478,
+      "eval_9_f1": 0.9156825048063718,
+      "eval___f1": 0.9706314243759178,
+      "eval_loss": 0.1300029456615448,
+      "eval_overall_accuracy": 0.9673478870178436,
+      "eval_overall_f1": 0.9572067971952467,
+      "eval_overall_precision": 0.9543013780931997,
+      "eval_overall_recall": 0.9601299617167036,
+      "eval_runtime": 31.698,
+      "eval_samples_per_second": 274.465,
+      "eval_steps_per_second": 8.581,
+      "step": 7616
     },
     {
       "epoch": 7.0,
+      "step": 7616,
+      "total_flos": 6493939017778920.0,
+      "train_loss": 0.18183875429843152,
+      "train_runtime": 1332.3436,
+      "train_samples_per_second": 182.815,
+      "train_steps_per_second": 5.716
     },
     {
       "epoch": 7.0,
+      "eval_00_f1": 0.9351351351351351,
+      "eval_01_f1": 0.2727272727272727,
+      "eval_02_f1": 0.3438914027149321,
+      "eval_03_f1": 0.9481481481481482,
+      "eval_04_f1": 0.8168701442841289,
+      "eval_05_f1": 0.8036951501154733,
+      "eval_06_f1": 0.8732394366197183,
+      "eval_07_f1": 0.8909657320872275,
+      "eval_08_f1": 0.9636363636363636,
+      "eval_09_f1": 0.9076923076923077,
+      "eval_0_f1": 0.8918362091166624,
+      "eval_100_f1": 0.9787716689913094,
+      "eval_10_f1": 0.0,
+      "eval_1_f1": 0.9460573633891765,
+      "eval_2_f1": 0.9052096569250319,
+      "eval_3_f1": 0.9488174195970466,
+      "eval_4_f1": 0.9129169464965301,
+      "eval_5_f1": 0.9431066419687748,
+      "eval_6_f1": 0.9764898851831602,
+      "eval_7_f1": 0.9617969579059075,
+      "eval_8_f1": 0.9573971403559964,
+      "eval_9_f1": 0.9131222981453074,
+      "eval___f1": 0.965883121123082,
+      "eval_loss": 0.07855656743049622,
+      "eval_overall_accuracy": 0.9678325102233014,
+      "eval_overall_f1": 0.9519101855680437,
+      "eval_overall_precision": 0.9471512280264306,
+      "eval_overall_recall": 0.9567172073342737,
+      "eval_runtime": 31.7972,
+      "eval_samples_per_second": 273.609,
+      "eval_steps_per_second": 8.554,
+      "step": 7616
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7616,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 6493939017778920.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null