nvan15 commited on Jan 15

Commit

d4b473b

verified ·

1 Parent(s): adea12b

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d17h39m52,sd43/ft/tokenizer.json +0 -0
reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft/special_tokens_map.json +15 -0
reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft/tokenizer.json +0 -0
reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft/tokenizer_config.json +60 -0
reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft2/README.md +205 -0
reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft2/adapter_config.json +34 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/QQP.tsv +0 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/all_results.json +11 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/eval_results.json +11 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft/added_tokens.json +3 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft/special_tokens_map.json +15 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft/tokenizer.json +0 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft/tokenizer_config.json +60 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft2/README.md +205 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft2/adapter_config.json +34 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/trainer_state.json +2077 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/QQP.tsv +0 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/all_results.json +11 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/eval_results.json +11 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft/added_tokens.json +3 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft/special_tokens_map.json +15 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft/tokenizer.json +0 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft/tokenizer_config.json +60 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft2/README.md +205 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft2/adapter_config.json +34 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/trainer_state.json +2077 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/QQP.tsv +0 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/all_results.json +11 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/eval_results.json +11 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft/added_tokens.json +3 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft/special_tokens_map.json +15 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft/tokenizer.json +0 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft/tokenizer_config.json +60 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft2/README.md +205 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft2/adapter_config.json +34 -0
reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/trainer_state.json +2077 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/RTE.tsv +3001 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/all_results.json +9 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/eval_results.json +9 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft/added_tokens.json +3 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft/special_tokens_map.json +15 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft/tokenizer.json +0 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft/tokenizer_config.json +60 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft2/README.md +205 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft2/adapter_config.json +34 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/trainer_state.json +107 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=25d17h57m30,sd43/all_results.json +9 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=25d17h57m30,sd43/eval_results.json +9 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=25d17h57m30,sd43/ft/added_tokens.json +3 -0
reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=25d17h57m30,sd43/ft/special_tokens_map.json +15 -0

reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d17h39m52,sd43/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_expBOFT/qnli/dr0.05,mlr2e-04,clr2e-04,ep=4.0t=25d19h50m11,sd44/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "auto_mapping": {
+    "base_model_class": "DebertaV2ForSequenceClassification",
+    "parent_library": "transformers.models.deberta_v2.modeling_deberta_v2"
+  },
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "boft_block_num": 0,
+  "boft_block_size": 4,
+  "boft_dropout": 0.05,
+  "boft_n_butterfly_factor": 2,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler"
+  ],
+  "peft_type": "BOFT",
+  "peft_version": "0.18.0",
+  "revision": null,
+  "target_modules": [
+    "query_proj",
+    "intermediate.dense",
+    "key_proj",
+    "attention.output.dense",
+    "value_proj",
+    "output.dense"
+  ],
+  "task_type": null
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/QQP.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.9167944595597328,
+    "eval_combined_score": 0.9034945009640941,
+    "eval_f1": 0.8901945423684554,
+    "eval_loss": 0.2233511060476303,
+    "eval_runtime": 47.8389,
+    "eval_samples": 40430,
+    "eval_samples_per_second": 845.128,
+    "eval_steps_per_second": 1.651
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.9167944595597328,
+    "eval_combined_score": 0.9034945009640941,
+    "eval_f1": 0.8901945423684554,
+    "eval_loss": 0.2233511060476303,
+    "eval_runtime": 47.8389,
+    "eval_samples": 40430,
+    "eval_samples_per_second": 845.128,
+    "eval_steps_per_second": 1.651
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "auto_mapping": {
+    "base_model_class": "DebertaV2ForSequenceClassification",
+    "parent_library": "transformers.models.deberta_v2.modeling_deberta_v2"
+  },
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "boft_block_num": 0,
+  "boft_block_size": 4,
+  "boft_dropout": 0.05,
+  "boft_n_butterfly_factor": 2,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler"
+  ],
+  "peft_type": "BOFT",
+  "peft_version": "0.18.0",
+  "revision": null,
+  "target_modules": [
+    "output.dense",
+    "intermediate.dense",
+    "attention.output.dense",
+    "value_proj",
+    "query_proj",
+    "key_proj"
+  ],
+  "task_type": null
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2077 @@

+{
+  "best_global_step": 103000,
+  "best_metric": 0.9167944595597328,
+  "best_model_checkpoint": "./glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=22d00h06m39/checkpoint-103000",
+  "epoch": 10.0,
+  "eval_steps": 1000,
+  "global_step": 113710,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0879430129276229,
+      "grad_norm": 2.398847818374634,
+      "learning_rate": 0.00029969999999999997,
+      "loss": 0.442,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0879430129276229,
+      "eval_accuracy": 0.8523126391293594,
+      "eval_combined_score": 0.8349542422773726,
+      "eval_f1": 0.8175958454253857,
+      "eval_loss": 0.33211618661880493,
+      "eval_runtime": 85.5276,
+      "eval_samples_per_second": 472.713,
+      "eval_steps_per_second": 0.924,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1758860258552458,
+      "grad_norm": 0.9574108719825745,
+      "learning_rate": 0.00029994184111301736,
+      "loss": 0.3219,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1758860258552458,
+      "eval_accuracy": 0.8604748948800396,
+      "eval_combined_score": 0.845059420683157,
+      "eval_f1": 0.8296439464862743,
+      "eval_loss": 0.3096776604652405,
+      "eval_runtime": 85.1462,
+      "eval_samples_per_second": 474.83,
+      "eval_steps_per_second": 0.928,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2638290387828687,
+      "grad_norm": 0.7193896174430847,
+      "learning_rate": 0.00029976717673021227,
+      "loss": 0.2917,
+      "step": 3000
+    },
+    {
+      "epoch": 0.2638290387828687,
+      "eval_accuracy": 0.8810784071234232,
+      "eval_combined_score": 0.8629407529484128,
+      "eval_f1": 0.8448030987734022,
+      "eval_loss": 0.27602431178092957,
+      "eval_runtime": 84.7536,
+      "eval_samples_per_second": 477.03,
+      "eval_steps_per_second": 0.932,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3517720517104916,
+      "grad_norm": 0.9506718516349792,
+      "learning_rate": 0.0002994761425083971,
+      "loss": 0.2892,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3517720517104916,
+      "eval_accuracy": 0.8832797427652733,
+      "eval_combined_score": 0.8606881439321272,
+      "eval_f1": 0.838096545098981,
+      "eval_loss": 0.2720984220504761,
+      "eval_runtime": 83.6647,
+      "eval_samples_per_second": 483.238,
+      "eval_steps_per_second": 0.944,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4397150646381145,
+      "grad_norm": 1.3692947626113892,
+      "learning_rate": 0.0002990689645826054,
+      "loss": 0.2735,
+      "step": 5000
+    },
+    {
+      "epoch": 0.4397150646381145,
+      "eval_accuracy": 0.8903042295325253,
+      "eval_combined_score": 0.8715568142452046,
+      "eval_f1": 0.8528093989578839,
+      "eval_loss": 0.25894808769226074,
+      "eval_runtime": 55.3727,
+      "eval_samples_per_second": 730.143,
+      "eval_steps_per_second": 1.427,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5276580775657373,
+      "grad_norm": 0.8675212860107422,
+      "learning_rate": 0.00029854595933210474,
+      "loss": 0.2723,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5276580775657373,
+      "eval_accuracy": 0.8893643334157804,
+      "eval_combined_score": 0.8712073482184524,
+      "eval_f1": 0.8530503630211242,
+      "eval_loss": 0.26774412393569946,
+      "eval_runtime": 58.3831,
+      "eval_samples_per_second": 692.495,
+      "eval_steps_per_second": 1.353,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6156010904933603,
+      "grad_norm": 1.075390100479126,
+      "learning_rate": 0.0002979075331345683,
+      "loss": 0.2648,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6156010904933603,
+      "eval_accuracy": 0.886272569873856,
+      "eval_combined_score": 0.8708315925227879,
+      "eval_f1": 0.8553906151717197,
+      "eval_loss": 0.26676592230796814,
+      "eval_runtime": 54.0926,
+      "eval_samples_per_second": 747.422,
+      "eval_steps_per_second": 1.46,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7035441034209832,
+      "grad_norm": 1.3225692510604858,
+      "learning_rate": 0.0002971541820503175,
+      "loss": 0.2642,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7035441034209832,
+      "eval_accuracy": 0.8935196636161267,
+      "eval_combined_score": 0.8764051986980781,
+      "eval_f1": 0.8592907337800294,
+      "eval_loss": 0.25021693110466003,
+      "eval_runtime": 54.6586,
+      "eval_samples_per_second": 739.682,
+      "eval_steps_per_second": 1.445,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7914871163486061,
+      "grad_norm": 0.7988959550857544,
+      "learning_rate": 0.00029628649143688076,
+      "loss": 0.2578,
+      "step": 9000
+    },
+    {
+      "epoch": 0.7914871163486061,
+      "eval_accuracy": 0.8921840217660153,
+      "eval_combined_score": 0.8776726104749084,
+      "eval_f1": 0.8631611991838016,
+      "eval_loss": 0.25787219405174255,
+      "eval_runtime": 87.2076,
+      "eval_samples_per_second": 463.606,
+      "eval_steps_per_second": 0.906,
+      "step": 9000
+    },
+    {
+      "epoch": 0.879430129276229,
+      "grad_norm": 0.9499006271362305,
+      "learning_rate": 0.0002953051354941674,
+      "loss": 0.2592,
+      "step": 10000
+    },
+    {
+      "epoch": 0.879430129276229,
+      "eval_accuracy": 0.8905021023992085,
+      "eval_combined_score": 0.8760424091084933,
+      "eval_f1": 0.8615827158177782,
+      "eval_loss": 0.2585276961326599,
+      "eval_runtime": 87.1178,
+      "eval_samples_per_second": 464.084,
+      "eval_steps_per_second": 0.907,
+      "step": 10000
+    },
+    {
+      "epoch": 0.967373142203852,
+      "grad_norm": 1.2539165019989014,
+      "learning_rate": 0.0002942108767406115,
+      "loss": 0.2539,
+      "step": 11000
+    },
+    {
+      "epoch": 0.967373142203852,
+      "eval_accuracy": 0.8973287162997774,
+      "eval_combined_score": 0.8796948303527266,
+      "eval_f1": 0.8620609444056757,
+      "eval_loss": 0.23903892934322357,
+      "eval_runtime": 87.3443,
+      "eval_samples_per_second": 462.881,
+      "eval_steps_per_second": 0.904,
+      "step": 11000
+    },
+    {
+      "epoch": 1.0553161551314747,
+      "grad_norm": 0.8417719602584839,
+      "learning_rate": 0.00029300456542069104,
+      "loss": 0.2403,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0553161551314747,
+      "eval_accuracy": 0.8982933465248578,
+      "eval_combined_score": 0.8817324165898602,
+      "eval_f1": 0.8651714866548627,
+      "eval_loss": 0.24867697060108185,
+      "eval_runtime": 54.2947,
+      "eval_samples_per_second": 744.641,
+      "eval_steps_per_second": 1.455,
+      "step": 12000
+    },
+    {
+      "epoch": 1.1432591680590978,
+      "grad_norm": 0.9629989862442017,
+      "learning_rate": 0.0002916871388442835,
+      "loss": 0.2366,
+      "step": 13000
+    },
+    {
+      "epoch": 1.1432591680590978,
+      "eval_accuracy": 0.895176848874598,
+      "eval_combined_score": 0.8794971647971962,
+      "eval_f1": 0.8638174807197944,
+      "eval_loss": 0.25021758675575256,
+      "eval_runtime": 54.1759,
+      "eval_samples_per_second": 746.273,
+      "eval_steps_per_second": 1.458,
+      "step": 13000
+    },
+    {
+      "epoch": 1.2312021809867206,
+      "grad_norm": 1.174015760421753,
+      "learning_rate": 0.00029025962065837193,
+      "loss": 0.2331,
+      "step": 14000
+    },
+    {
+      "epoch": 1.2312021809867206,
+      "eval_accuracy": 0.8964630225080386,
+      "eval_combined_score": 0.88263667610296,
+      "eval_f1": 0.8688103296978814,
+      "eval_loss": 0.25016075372695923,
+      "eval_runtime": 54.4818,
+      "eval_samples_per_second": 742.083,
+      "eval_steps_per_second": 1.45,
+      "step": 14000
+    },
+    {
+      "epoch": 1.3191451939143435,
+      "grad_norm": 0.7278306484222412,
+      "learning_rate": 0.00028872312005166577,
+      "loss": 0.2299,
+      "step": 15000
+    },
+    {
+      "epoch": 1.3191451939143435,
+      "eval_accuracy": 0.8990353697749196,
+      "eval_combined_score": 0.8810690967863128,
+      "eval_f1": 0.8631028237977061,
+      "eval_loss": 0.23498821258544922,
+      "eval_runtime": 54.6828,
+      "eval_samples_per_second": 739.355,
+      "eval_steps_per_second": 1.445,
+      "step": 15000
+    },
+    {
+      "epoch": 1.4070882068419663,
+      "grad_norm": 1.6794105768203735,
+      "learning_rate": 0.00028707883089275593,
+      "loss": 0.2353,
+      "step": 16000
+    },
+    {
+      "epoch": 1.4070882068419663,
+      "eval_accuracy": 0.9013851100667821,
+      "eval_combined_score": 0.8853597460667211,
+      "eval_f1": 0.8693343820666601,
+      "eval_loss": 0.23489055037498474,
+      "eval_runtime": 54.6884,
+      "eval_samples_per_second": 739.279,
+      "eval_steps_per_second": 1.445,
+      "step": 16000
+    },
+    {
+      "epoch": 1.4950312197695892,
+      "grad_norm": 1.0810128450393677,
+      "learning_rate": 0.0002853280308024728,
+      "loss": 0.2313,
+      "step": 17000
+    },
+    {
+      "epoch": 1.4950312197695892,
+      "eval_accuracy": 0.9034380410586198,
+      "eval_combined_score": 0.8877316082169779,
+      "eval_f1": 0.872025175375336,
+      "eval_loss": 0.22801174223423004,
+      "eval_runtime": 89.5061,
+      "eval_samples_per_second": 451.701,
+      "eval_steps_per_second": 0.883,
+      "step": 17000
+    },
+    {
+      "epoch": 1.5829742326972123,
+      "grad_norm": 1.0413625240325928,
+      "learning_rate": 0.0002834720801611687,
+      "loss": 0.227,
+      "step": 18000
+    },
+    {
+      "epoch": 1.5829742326972123,
+      "eval_accuracy": 0.902819688350235,
+      "eval_combined_score": 0.8874883265881588,
+      "eval_f1": 0.8721569648260827,
+      "eval_loss": 0.2316894680261612,
+      "eval_runtime": 86.5521,
+      "eval_samples_per_second": 467.118,
+      "eval_steps_per_second": 0.913,
+      "step": 18000
+    },
+    {
+      "epoch": 1.6709172456248351,
+      "grad_norm": 1.8623915910720825,
+      "learning_rate": 0.0002815124210516956,
+      "loss": 0.2311,
+      "step": 19000
+    },
+    {
+      "epoch": 1.6709172456248351,
+      "eval_accuracy": 0.90375958446698,
+      "eval_combined_score": 0.8866361556259579,
+      "eval_f1": 0.8695127267849357,
+      "eval_loss": 0.23079416155815125,
+      "eval_runtime": 87.1377,
+      "eval_samples_per_second": 463.978,
+      "eval_steps_per_second": 0.907,
+      "step": 19000
+    },
+    {
+      "epoch": 1.758860258552458,
+      "grad_norm": 0.6980274319648743,
+      "learning_rate": 0.0002794505761388994,
+      "loss": 0.2277,
+      "step": 20000
+    },
+    {
+      "epoch": 1.758860258552458,
+      "eval_accuracy": 0.9012367054167697,
+      "eval_combined_score": 0.8872635467552861,
+      "eval_f1": 0.8732903880938025,
+      "eval_loss": 0.240788072347641,
+      "eval_runtime": 54.3707,
+      "eval_samples_per_second": 743.6,
+      "eval_steps_per_second": 1.453,
+      "step": 20000
+    },
+    {
+      "epoch": 1.846803271480081,
+      "grad_norm": 0.8938764333724976,
+      "learning_rate": 0.0002772881474865019,
+      "loss": 0.225,
+      "step": 21000
+    },
+    {
+      "epoch": 1.846803271480081,
+      "eval_accuracy": 0.9029680930002474,
+      "eval_combined_score": 0.8856906006878942,
+      "eval_f1": 0.8684131083755409,
+      "eval_loss": 0.23772455751895905,
+      "eval_runtime": 54.6804,
+      "eval_samples_per_second": 739.387,
+      "eval_steps_per_second": 1.445,
+      "step": 21000
+    },
+    {
+      "epoch": 1.9347462844077037,
+      "grad_norm": 0.7940501570701599,
+      "learning_rate": 0.00027502681531228946,
+      "loss": 0.2292,
+      "step": 22000
+    },
+    {
+      "epoch": 1.9347462844077037,
+      "eval_accuracy": 0.9016077170418006,
+      "eval_combined_score": 0.8875243980984009,
+      "eval_f1": 0.8734410791550012,
+      "eval_loss": 0.23382480442523956,
+      "eval_runtime": 53.9134,
+      "eval_samples_per_second": 749.906,
+      "eval_steps_per_second": 1.465,
+      "step": 22000
+    },
+    {
+      "epoch": 2.0226892973353268,
+      "grad_norm": 0.7027292251586914,
+      "learning_rate": 0.00027266833668257537,
+      "loss": 0.2212,
+      "step": 23000
+    },
+    {
+      "epoch": 2.0226892973353268,
+      "eval_accuracy": 0.9046500123670541,
+      "eval_combined_score": 0.889394450174516,
+      "eval_f1": 0.8741388879819779,
+      "eval_loss": 0.2338305413722992,
+      "eval_runtime": 54.6808,
+      "eval_samples_per_second": 739.382,
+      "eval_steps_per_second": 1.445,
+      "step": 23000
+    },
+    {
+      "epoch": 2.1106323102629494,
+      "grad_norm": 0.9791672825813293,
+      "learning_rate": 0.0002702145441469506,
+      "loss": 0.2102,
+      "step": 24000
+    },
+    {
+      "epoch": 2.1106323102629494,
+      "eval_accuracy": 0.9050457581004204,
+      "eval_combined_score": 0.8886693811625817,
+      "eval_f1": 0.872293004224743,
+      "eval_loss": 0.2333918660879135,
+      "eval_runtime": 54.0058,
+      "eval_samples_per_second": 748.623,
+      "eval_steps_per_second": 1.463,
+      "step": 24000
+    },
+    {
+      "epoch": 2.1985753231905725,
+      "grad_norm": 0.8743547201156616,
+      "learning_rate": 0.00026766734431438345,
+      "loss": 0.2123,
+      "step": 25000
+    },
+    {
+      "epoch": 2.1985753231905725,
+      "eval_accuracy": 0.9072223596339352,
+      "eval_combined_score": 0.8913415161495151,
+      "eval_f1": 0.8754606726650951,
+      "eval_loss": 0.2295483946800232,
+      "eval_runtime": 87.2432,
+      "eval_samples_per_second": 463.417,
+      "eval_steps_per_second": 0.906,
+      "step": 25000
+    },
+    {
+      "epoch": 2.2865183361181955,
+      "grad_norm": 1.2709019184112549,
+      "learning_rate": 0.0002650287163717754,
+      "loss": 0.2118,
+      "step": 26000
+    },
+    {
+      "epoch": 2.2865183361181955,
+      "eval_accuracy": 0.9080385852090033,
+      "eval_combined_score": 0.8922502867565485,
+      "eval_f1": 0.8764619883040936,
+      "eval_loss": 0.22616761922836304,
+      "eval_runtime": 87.1794,
+      "eval_samples_per_second": 463.756,
+      "eval_steps_per_second": 0.906,
+      "step": 26000
+    },
+    {
+      "epoch": 2.374461349045818,
+      "grad_norm": 1.1367487907409668,
+      "learning_rate": 0.0002623007105461227,
+      "loss": 0.2137,
+      "step": 27000
+    },
+    {
+      "epoch": 2.374461349045818,
+      "eval_accuracy": 0.9050952263170913,
+      "eval_combined_score": 0.8901675123619273,
+      "eval_f1": 0.8752397984067631,
+      "eval_loss": 0.2204943299293518,
+      "eval_runtime": 94.4103,
+      "eval_samples_per_second": 428.237,
+      "eval_steps_per_second": 0.837,
+      "step": 27000
+    },
+    {
+      "epoch": 2.4624043619734413,
+      "grad_norm": 1.0608514547348022,
+      "learning_rate": 0.00025948544651147997,
+      "loss": 0.2097,
+      "step": 28000
+    },
+    {
+      "epoch": 2.4624043619734413,
+      "eval_accuracy": 0.905144694533762,
+      "eval_combined_score": 0.8909421605282187,
+      "eval_f1": 0.8767396265226755,
+      "eval_loss": 0.2264743149280548,
+      "eval_runtime": 54.8838,
+      "eval_samples_per_second": 736.647,
+      "eval_steps_per_second": 1.439,
+      "step": 28000
+    },
+    {
+      "epoch": 2.5503473749010643,
+      "grad_norm": 0.9547954201698303,
+      "learning_rate": 0.00025658511174196294,
+      "loss": 0.2076,
+      "step": 29000
+    },
+    {
+      "epoch": 2.5503473749010643,
+      "eval_accuracy": 0.9054415038337867,
+      "eval_combined_score": 0.8911845190997154,
+      "eval_f1": 0.876927534365644,
+      "eval_loss": 0.22710390388965607,
+      "eval_runtime": 54.7864,
+      "eval_samples_per_second": 737.956,
+      "eval_steps_per_second": 1.442,
+      "step": 29000
+    },
+    {
+      "epoch": 2.638290387828687,
+      "grad_norm": 0.9954330325126648,
+      "learning_rate": 0.00025360195981207026,
+      "loss": 0.2129,
+      "step": 30000
+    },
+    {
+      "epoch": 2.638290387828687,
+      "eval_accuracy": 0.9066534751422212,
+      "eval_combined_score": 0.891764686155216,
+      "eval_f1": 0.8768758971682109,
+      "eval_loss": 0.23385684192180634,
+      "eval_runtime": 54.1927,
+      "eval_samples_per_second": 746.041,
+      "eval_steps_per_second": 1.458,
+      "step": 30000
+    },
+    {
+      "epoch": 2.72623340075631,
+      "grad_norm": 0.7042277455329895,
+      "learning_rate": 0.0002505383086456447,
+      "loss": 0.2125,
+      "step": 31000
+    },
+    {
+      "epoch": 2.72623340075631,
+      "eval_accuracy": 0.9085580014840465,
+      "eval_combined_score": 0.894393038387405,
+      "eval_f1": 0.8802280752907636,
+      "eval_loss": 0.22638675570487976,
+      "eval_runtime": 54.7177,
+      "eval_samples_per_second": 738.883,
+      "eval_steps_per_second": 1.444,
+      "step": 31000
+    },
+    {
+      "epoch": 2.8141764136839327,
+      "grad_norm": 1.7481952905654907,
+      "learning_rate": 0.0002473965387148352,
+      "loss": 0.2121,
+      "step": 32000
+    },
+    {
+      "epoch": 2.8141764136839327,
+      "eval_accuracy": 0.9079891169923324,
+      "eval_combined_score": 0.8917747150493207,
+      "eval_f1": 0.875560313106309,
+      "eval_loss": 0.2314489334821701,
+      "eval_runtime": 86.9488,
+      "eval_samples_per_second": 464.986,
+      "eval_steps_per_second": 0.909,
+      "step": 32000
+    },
+    {
+      "epoch": 2.9021194266115558,
+      "grad_norm": 0.9269095659255981,
+      "learning_rate": 0.000244179091190458,
+      "loss": 0.2061,
+      "step": 33000
+    },
+    {
+      "epoch": 2.9021194266115558,
+      "eval_accuracy": 0.9060351224338362,
+      "eval_combined_score": 0.8897072255838148,
+      "eval_f1": 0.8733793287337933,
+      "eval_loss": 0.23508088290691376,
+      "eval_runtime": 87.376,
+      "eval_samples_per_second": 462.713,
+      "eval_steps_per_second": 0.904,
+      "step": 33000
+    },
+    {
+      "epoch": 2.9900624395391784,
+      "grad_norm": 0.6865495443344116,
+      "learning_rate": 0.00024088846604519457,
+      "loss": 0.2073,
+      "step": 34000
+    },
+    {
+      "epoch": 2.9900624395391784,
+      "eval_accuracy": 0.9079149146673262,
+      "eval_combined_score": 0.8936073195479604,
+      "eval_f1": 0.8792997244285946,
+      "eval_loss": 0.22693374752998352,
+      "eval_runtime": 86.8693,
+      "eval_samples_per_second": 465.412,
+      "eval_steps_per_second": 0.909,
+      "step": 34000
+    },
+    {
+      "epoch": 3.0780054524668015,
+      "grad_norm": 1.1589127779006958,
+      "learning_rate": 0.00023752722011110102,
+      "loss": 0.1922,
+      "step": 35000
+    },
+    {
+      "epoch": 3.0780054524668015,
+      "eval_accuracy": 0.9080138511006678,
+      "eval_combined_score": 0.8938269844519164,
+      "eval_f1": 0.8796401178031652,
+      "eval_loss": 0.22861303389072418,
+      "eval_runtime": 87.5134,
+      "eval_samples_per_second": 461.986,
+      "eval_steps_per_second": 0.903,
+      "step": 35000
+    },
+    {
+      "epoch": 3.1659484653944245,
+      "grad_norm": 0.8257580995559692,
+      "learning_rate": 0.00023409796509293643,
+      "loss": 0.1965,
+      "step": 36000
+    },
+    {
+      "epoch": 3.1659484653944245,
+      "eval_accuracy": 0.9082364580756864,
+      "eval_combined_score": 0.894167353205641,
+      "eval_f1": 0.8800982483355956,
+      "eval_loss": 0.2238505333662033,
+      "eval_runtime": 55.5705,
+      "eval_samples_per_second": 727.545,
+      "eval_steps_per_second": 1.422,
+      "step": 36000
+    },
+    {
+      "epoch": 3.253891478322047,
+      "grad_norm": 1.379067063331604,
+      "learning_rate": 0.0002306033655388555,
+      "loss": 0.1937,
+      "step": 37000
+    },
+    {
+      "epoch": 3.253891478322047,
+      "eval_accuracy": 0.9101409844175118,
+      "eval_combined_score": 0.8959338577717992,
+      "eval_f1": 0.8817267311260866,
+      "eval_loss": 0.23340874910354614,
+      "eval_runtime": 53.9515,
+      "eval_samples_per_second": 749.376,
+      "eval_steps_per_second": 1.464,
+      "step": 37000
+    },
+    {
+      "epoch": 3.3418344912496702,
+      "grad_norm": 0.6008528470993042,
+      "learning_rate": 0.0002270461367700413,
+      "loss": 0.1993,
+      "step": 38000
+    },
+    {
+      "epoch": 3.3418344912496702,
+      "eval_accuracy": 0.9077417759089785,
+      "eval_combined_score": 0.8944759834958905,
+      "eval_f1": 0.8812101910828025,
+      "eval_loss": 0.22766782343387604,
+      "eval_runtime": 58.3838,
+      "eval_samples_per_second": 692.487,
+      "eval_steps_per_second": 1.353,
+      "step": 38000
+    },
+    {
+      "epoch": 3.4297775041772933,
+      "grad_norm": 0.3488192558288574,
+      "learning_rate": 0.00022342904277088745,
+      "loss": 0.1966,
+      "step": 39000
+    },
+    {
+      "epoch": 3.4297775041772933,
+      "eval_accuracy": 0.9076923076923077,
+      "eval_combined_score": 0.8940499608063538,
+      "eval_f1": 0.8804076139203999,
+      "eval_loss": 0.23169130086898804,
+      "eval_runtime": 54.7179,
+      "eval_samples_per_second": 738.881,
+      "eval_steps_per_second": 1.444,
+      "step": 39000
+    },
+    {
+      "epoch": 3.517720517104916,
+      "grad_norm": 1.225816011428833,
+      "learning_rate": 0.00021975489404136827,
+      "loss": 0.1947,
+      "step": 40000
+    },
+    {
+      "epoch": 3.517720517104916,
+      "eval_accuracy": 0.9097699727924808,
+      "eval_combined_score": 0.8946949124786058,
+      "eval_f1": 0.8796198521647307,
+      "eval_loss": 0.22107689082622528,
+      "eval_runtime": 87.0865,
+      "eval_samples_per_second": 464.251,
+      "eval_steps_per_second": 0.907,
+      "step": 40000
+    },
+    {
+      "epoch": 3.605663530032539,
+      "grad_norm": 1.0007948875427246,
+      "learning_rate": 0.00021602654541326668,
+      "loss": 0.192,
+      "step": 41000
+    },
+    {
+      "epoch": 3.605663530032539,
+      "eval_accuracy": 0.9105614642592135,
+      "eval_combined_score": 0.8974543392427647,
+      "eval_f1": 0.8843472142263161,
+      "eval_loss": 0.22493700683116913,
+      "eval_runtime": 86.9435,
+      "eval_samples_per_second": 465.015,
+      "eval_steps_per_second": 0.909,
+      "step": 41000
+    },
+    {
+      "epoch": 3.6936065429601617,
+      "grad_norm": 1.137495756149292,
+      "learning_rate": 0.00021224689383195542,
+      "loss": 0.1946,
+      "step": 42000
+    },
+    {
+      "epoch": 3.6936065429601617,
+      "eval_accuracy": 0.9088053425674004,
+      "eval_combined_score": 0.893506823498545,
+      "eval_f1": 0.8782083044296898,
+      "eval_loss": 0.22202743589878082,
+      "eval_runtime": 87.3222,
+      "eval_samples_per_second": 462.998,
+      "eval_steps_per_second": 0.905,
+      "step": 42000
+    },
+    {
+      "epoch": 3.7815495558877847,
+      "grad_norm": 0.5520714521408081,
+      "learning_rate": 0.00020841887610545634,
+      "loss": 0.195,
+      "step": 43000
+    },
+    {
+      "epoch": 3.7815495558877847,
+      "eval_accuracy": 0.9101409844175118,
+      "eval_combined_score": 0.8936004911935618,
+      "eval_f1": 0.8770599979696119,
+      "eval_loss": 0.22466640174388885,
+      "eval_runtime": 54.3269,
+      "eval_samples_per_second": 744.199,
+      "eval_steps_per_second": 1.454,
+      "step": 43000
+    },
+    {
+      "epoch": 3.8694925688154074,
+      "grad_norm": 1.8173424005508423,
+      "learning_rate": 0.00020454546662252592,
+      "loss": 0.1974,
+      "step": 44000
+    },
+    {
+      "epoch": 3.8694925688154074,
+      "eval_accuracy": 0.9104872619342073,
+      "eval_combined_score": 0.8968858407906919,
+      "eval_f1": 0.8832844196471764,
+      "eval_loss": 0.2287817895412445,
+      "eval_runtime": 54.2695,
+      "eval_samples_per_second": 744.986,
+      "eval_steps_per_second": 1.456,
+      "step": 44000
+    },
+    {
+      "epoch": 3.9574355817430305,
+      "grad_norm": 0.8394154906272888,
+      "learning_rate": 0.00020062967504154062,
+      "loss": 0.1973,
+      "step": 45000
+    },
+    {
+      "epoch": 3.9574355817430305,
+      "eval_accuracy": 0.9072470937422706,
+      "eval_combined_score": 0.8945386536966222,
+      "eval_f1": 0.8818302136509737,
+      "eval_loss": 0.22817550599575043,
+      "eval_runtime": 54.4452,
+      "eval_samples_per_second": 742.582,
+      "eval_steps_per_second": 1.451,
+      "step": 45000
+    },
+    {
+      "epoch": 4.0453785946706535,
+      "grad_norm": 1.104277491569519,
+      "learning_rate": 0.00019667454395197706,
+      "loss": 0.1892,
+      "step": 46000
+    },
+    {
+      "epoch": 4.0453785946706535,
+      "eval_accuracy": 0.9135048231511254,
+      "eval_combined_score": 0.8986376111634246,
+      "eval_f1": 0.8837703991757238,
+      "eval_loss": 0.22852258384227753,
+      "eval_runtime": 54.9374,
+      "eval_samples_per_second": 735.929,
+      "eval_steps_per_second": 1.438,
+      "step": 46000
+    },
+    {
+      "epoch": 4.133321607598276,
+      "grad_norm": 1.2995333671569824,
+      "learning_rate": 0.00019268314651030522,
+      "loss": 0.1833,
+      "step": 47000
+    },
+    {
+      "epoch": 4.133321607598276,
+      "eval_accuracy": 0.9120207766510018,
+      "eval_combined_score": 0.8978153030861435,
+      "eval_f1": 0.8836098295212853,
+      "eval_loss": 0.21560963988304138,
+      "eval_runtime": 54.9981,
+      "eval_samples_per_second": 735.116,
+      "eval_steps_per_second": 1.436,
+      "step": 47000
+    },
+    {
+      "epoch": 4.221264620525899,
+      "grad_norm": 1.6505780220031738,
+      "learning_rate": 0.00018865858405213055,
+      "loss": 0.1804,
+      "step": 48000
+    },
+    {
+      "epoch": 4.221264620525899,
+      "eval_accuracy": 0.9126391293593866,
+      "eval_combined_score": 0.8979239559236587,
+      "eval_f1": 0.8832087824879307,
+      "eval_loss": 0.2259899377822876,
+      "eval_runtime": 87.2335,
+      "eval_samples_per_second": 463.469,
+      "eval_steps_per_second": 0.906,
+      "step": 48000
+    },
+    {
+      "epoch": 4.309207633453522,
+      "grad_norm": 1.3793467283248901,
+      "learning_rate": 0.0001846039836824406,
+      "loss": 0.1844,
+      "step": 49000
+    },
+    {
+      "epoch": 4.309207633453522,
+      "eval_accuracy": 0.9140737076428395,
+      "eval_combined_score": 0.9003240420152293,
+      "eval_f1": 0.8865743763876192,
+      "eval_loss": 0.22719497978687286,
+      "eval_runtime": 94.4623,
+      "eval_samples_per_second": 428.001,
+      "eval_steps_per_second": 0.836,
+      "step": 49000
+    },
+    {
+      "epoch": 4.397150646381145,
+      "grad_norm": 1.4247913360595703,
+      "learning_rate": 0.00018052249584582937,
+      "loss": 0.1814,
+      "step": 50000
+    },
+    {
+      "epoch": 4.397150646381145,
+      "eval_accuracy": 0.9132822161761068,
+      "eval_combined_score": 0.8994954567645432,
+      "eval_f1": 0.8857086973529795,
+      "eval_loss": 0.2213682383298874,
+      "eval_runtime": 87.3662,
+      "eval_samples_per_second": 462.765,
+      "eval_steps_per_second": 0.904,
+      "step": 50000
+    },
+    {
+      "epoch": 4.485093659308768,
+      "grad_norm": 0.8198834657669067,
+      "learning_rate": 0.0001764172918785858,
+      "loss": 0.1823,
+      "step": 51000
+    },
+    {
+      "epoch": 4.485093659308768,
+      "eval_accuracy": 0.9134306208261193,
+      "eval_combined_score": 0.8997714082914925,
+      "eval_f1": 0.8861121957568658,
+      "eval_loss": 0.21433314681053162,
+      "eval_runtime": 54.737,
+      "eval_samples_per_second": 738.623,
+      "eval_steps_per_second": 1.443,
+      "step": 51000
+    },
+    {
+      "epoch": 4.573036672236391,
+      "grad_norm": 1.7346959114074707,
+      "learning_rate": 0.0001722915615445501,
+      "loss": 0.1861,
+      "step": 52000
+    },
+    {
+      "epoch": 4.573036672236391,
+      "eval_accuracy": 0.912292851842691,
+      "eval_combined_score": 0.8985777526308721,
+      "eval_f1": 0.8848626534190532,
+      "eval_loss": 0.21990624070167542,
+      "eval_runtime": 54.6796,
+      "eval_samples_per_second": 739.399,
+      "eval_steps_per_second": 1.445,
+      "step": 52000
+    },
+    {
+      "epoch": 4.660979685164014,
+      "grad_norm": 0.8727362751960754,
+      "learning_rate": 0.0001681485105566511,
+      "loss": 0.1885,
+      "step": 53000
+    },
+    {
+      "epoch": 4.660979685164014,
+      "eval_accuracy": 0.9137521642344794,
+      "eval_combined_score": 0.9000197312286045,
+      "eval_f1": 0.8862872982227294,
+      "eval_loss": 0.21856088936328888,
+      "eval_runtime": 54.0603,
+      "eval_samples_per_second": 747.868,
+      "eval_steps_per_second": 1.461,
+      "step": 53000
+    },
+    {
+      "epoch": 4.748922698091636,
+      "grad_norm": 0.7080467343330383,
+      "learning_rate": 0.00016399135808605172,
+      "loss": 0.1835,
+      "step": 54000
+    },
+    {
+      "epoch": 4.748922698091636,
+      "eval_accuracy": 0.9138758347761563,
+      "eval_combined_score": 0.8999045687672304,
+      "eval_f1": 0.8859333027583044,
+      "eval_loss": 0.22292451560497284,
+      "eval_runtime": 54.607,
+      "eval_samples_per_second": 740.382,
+      "eval_steps_per_second": 1.447,
+      "step": 54000
+    },
+    {
+      "epoch": 4.83686571101926,
+      "grad_norm": 0.5516489148139954,
+      "learning_rate": 0.00015982333426083677,
+      "loss": 0.186,
+      "step": 55000
+    },
+    {
+      "epoch": 4.83686571101926,
+      "eval_accuracy": 0.9153351471679446,
+      "eval_combined_score": 0.9019310965591897,
+      "eval_f1": 0.8885270459504347,
+      "eval_loss": 0.21966171264648438,
+      "eval_runtime": 53.8107,
+      "eval_samples_per_second": 751.337,
+      "eval_steps_per_second": 1.468,
+      "step": 55000
+    },
+    {
+      "epoch": 4.9248087239468825,
+      "grad_norm": 1.1122982501983643,
+      "learning_rate": 0.00015564767765618756,
+      "loss": 0.1846,
+      "step": 56000
+    },
+    {
+      "epoch": 4.9248087239468825,
+      "eval_accuracy": 0.9129854068760821,
+      "eval_combined_score": 0.8988205722905,
+      "eval_f1": 0.884655737704918,
+      "eval_loss": 0.21510818600654602,
+      "eval_runtime": 87.5693,
+      "eval_samples_per_second": 461.692,
+      "eval_steps_per_second": 0.902,
+      "step": 56000
+    },
+    {
+      "epoch": 5.012751736874505,
+      "grad_norm": 0.8173431158065796,
+      "learning_rate": 0.0001514676327779928,
+      "loss": 0.1791,
+      "step": 57000
+    },
+    {
+      "epoch": 5.012751736874505,
+      "eval_accuracy": 0.9143952510511996,
+      "eval_combined_score": 0.9002526783407632,
+      "eval_f1": 0.8861101056303268,
+      "eval_loss": 0.21763020753860474,
+      "eval_runtime": 87.3646,
+      "eval_samples_per_second": 462.774,
+      "eval_steps_per_second": 0.904,
+      "step": 57000
+    },
+    {
+      "epoch": 5.100694749802129,
+      "grad_norm": 1.5404053926467896,
+      "learning_rate": 0.00014728644754185164,
+      "loss": 0.1735,
+      "step": 58000
+    },
+    {
+      "epoch": 5.100694749802129,
+      "eval_accuracy": 0.9145931239178827,
+      "eval_combined_score": 0.9004645398383976,
+      "eval_f1": 0.8863359557589124,
+      "eval_loss": 0.21669216454029083,
+      "eval_runtime": 87.4837,
+      "eval_samples_per_second": 462.143,
+      "eval_steps_per_second": 0.903,
+      "step": 58000
+    },
+    {
+      "epoch": 5.188637762729751,
+      "grad_norm": 1.2535247802734375,
+      "learning_rate": 0.00014310737074942683,
+      "loss": 0.1733,
+      "step": 59000
+    },
+    {
+      "epoch": 5.188637762729751,
+      "eval_accuracy": 0.9115013603759584,
+      "eval_combined_score": 0.8982043600644589,
+      "eval_f1": 0.8849073597529593,
+      "eval_loss": 0.22689573466777802,
+      "eval_runtime": 55.208,
+      "eval_samples_per_second": 732.321,
+      "eval_steps_per_second": 1.431,
+      "step": 59000
+    },
+    {
+      "epoch": 5.276580775657374,
+      "grad_norm": 1.0199129581451416,
+      "learning_rate": 0.00013893364956411012,
+      "loss": 0.1684,
+      "step": 60000
+    },
+    {
+      "epoch": 5.276580775657374,
+      "eval_accuracy": 0.9096463022508039,
+      "eval_combined_score": 0.8967376049336386,
+      "eval_f1": 0.8838289076164733,
+      "eval_loss": 0.23635230958461761,
+      "eval_runtime": 58.8389,
+      "eval_samples_per_second": 687.13,
+      "eval_steps_per_second": 1.343,
+      "step": 60000
+    },
+    {
+      "epoch": 5.364523788584997,
+      "grad_norm": 1.3774573802947998,
+      "learning_rate": 0.0001347685269879597,
+      "loss": 0.1776,
+      "step": 61000
+    },
+    {
+      "epoch": 5.364523788584997,
+      "eval_accuracy": 0.9106356665842197,
+      "eval_combined_score": 0.8973484465193344,
+      "eval_f1": 0.8840612264544492,
+      "eval_loss": 0.22598478198051453,
+      "eval_runtime": 54.8948,
+      "eval_samples_per_second": 736.5,
+      "eval_steps_per_second": 1.439,
+      "step": 61000
+    },
+    {
+      "epoch": 5.45246680151262,
+      "grad_norm": 0.5923727750778198,
+      "learning_rate": 0.00013061523934187208,
+      "loss": 0.1746,
+      "step": 62000
+    },
+    {
+      "epoch": 5.45246680151262,
+      "eval_accuracy": 0.9127627999010636,
+      "eval_combined_score": 0.8995621197365935,
+      "eval_f1": 0.8863614395721235,
+      "eval_loss": 0.22661614418029785,
+      "eval_runtime": 55.9826,
+      "eval_samples_per_second": 722.188,
+      "eval_steps_per_second": 1.411,
+      "step": 62000
+    },
+    {
+      "epoch": 5.540409814440243,
+      "grad_norm": 0.7008156776428223,
+      "learning_rate": 0.0001264770137509442,
+      "loss": 0.1711,
+      "step": 63000
+    },
+    {
+      "epoch": 5.540409814440243,
+      "eval_accuracy": 0.9127627999010636,
+      "eval_combined_score": 0.8985408672994117,
+      "eval_f1": 0.8843189346977598,
+      "eval_loss": 0.22105169296264648,
+      "eval_runtime": 86.859,
+      "eval_samples_per_second": 465.467,
+      "eval_steps_per_second": 0.91,
+      "step": 63000
+    },
+    {
+      "epoch": 5.628352827367865,
+      "grad_norm": 1.5121339559555054,
+      "learning_rate": 0.00012235706563698158,
+      "loss": 0.1723,
+      "step": 64000
+    },
+    {
+      "epoch": 5.628352827367865,
+      "eval_accuracy": 0.9145683898095474,
+      "eval_combined_score": 0.9011690402388002,
+      "eval_f1": 0.887769690668053,
+      "eval_loss": 0.22686441242694855,
+      "eval_runtime": 87.1861,
+      "eval_samples_per_second": 463.721,
+      "eval_steps_per_second": 0.906,
+      "step": 64000
+    },
+    {
+      "epoch": 5.716295840295489,
+      "grad_norm": 1.6048673391342163,
+      "learning_rate": 0.00011825859622009953,
+      "loss": 0.1751,
+      "step": 65000
+    },
+    {
+      "epoch": 5.716295840295489,
+      "eval_accuracy": 0.9146673262428889,
+      "eval_combined_score": 0.9006424576527972,
+      "eval_f1": 0.8866175890627054,
+      "eval_loss": 0.22858625650405884,
+      "eval_runtime": 87.0073,
+      "eval_samples_per_second": 464.674,
+      "eval_steps_per_second": 0.908,
+      "step": 65000
+    },
+    {
+      "epoch": 5.8042388532231115,
+      "grad_norm": 1.0805526971817017,
+      "learning_rate": 0.00011418479003135898,
+      "loss": 0.1696,
+      "step": 66000
+    },
+    {
+      "epoch": 5.8042388532231115,
+      "eval_accuracy": 0.9142468464011873,
+      "eval_combined_score": 0.9009813109487557,
+      "eval_f1": 0.8877157754963241,
+      "eval_loss": 0.2191147804260254,
+      "eval_runtime": 55.1326,
+      "eval_samples_per_second": 733.323,
+      "eval_steps_per_second": 1.433,
+      "step": 66000
+    },
+    {
+      "epoch": 5.892181866150734,
+      "grad_norm": 0.6021662950515747,
+      "learning_rate": 0.00011013881243837068,
+      "loss": 0.1726,
+      "step": 67000
+    },
+    {
+      "epoch": 5.892181866150734,
+      "eval_accuracy": 0.914988869651249,
+      "eval_combined_score": 0.9015627830762347,
+      "eval_f1": 0.8881366965012205,
+      "eval_loss": 0.2130921483039856,
+      "eval_runtime": 56.0344,
+      "eval_samples_per_second": 721.52,
+      "eval_steps_per_second": 1.41,
+      "step": 67000
+    },
+    {
+      "epoch": 5.980124879078357,
+      "grad_norm": 1.1541500091552734,
+      "learning_rate": 0.00010612380718578806,
+      "loss": 0.1737,
+      "step": 68000
+    },
+    {
+      "epoch": 5.980124879078357,
+      "eval_accuracy": 0.9167449913430621,
+      "eval_combined_score": 0.9030797694740148,
+      "eval_f1": 0.8894145476049675,
+      "eval_loss": 0.22315308451652527,
+      "eval_runtime": 54.8044,
+      "eval_samples_per_second": 737.714,
+      "eval_steps_per_second": 1.441,
+      "step": 68000
+    },
+    {
+      "epoch": 6.06806789200598,
+      "grad_norm": 0.5831199288368225,
+      "learning_rate": 0.00010214289395260275,
+      "loss": 0.164,
+      "step": 69000
+    },
+    {
+      "epoch": 6.06806789200598,
+      "eval_accuracy": 0.914543655701212,
+      "eval_combined_score": 0.9012041896694369,
+      "eval_f1": 0.8878647236376619,
+      "eval_loss": 0.22724460065364838,
+      "eval_runtime": 55.5028,
+      "eval_samples_per_second": 728.432,
+      "eval_steps_per_second": 1.423,
+      "step": 69000
+    },
+    {
+      "epoch": 6.156010904933603,
+      "grad_norm": 1.3472540378570557,
+      "learning_rate": 9.819916592813812e-05,
+      "loss": 0.1605,
+      "step": 70000
+    },
+    {
+      "epoch": 6.156010904933603,
+      "eval_accuracy": 0.9143210487261935,
+      "eval_combined_score": 0.9014692060351224,
+      "eval_f1": 0.8886173633440514,
+      "eval_loss": 0.23116746544837952,
+      "eval_runtime": 55.3566,
+      "eval_samples_per_second": 730.355,
+      "eval_steps_per_second": 1.427,
+      "step": 70000
+    },
+    {
+      "epoch": 6.2439539178612256,
+      "grad_norm": 1.1969749927520752,
+      "learning_rate": 9.429568740862609e-05,
+      "loss": 0.1619,
+      "step": 71000
+    },
+    {
+      "epoch": 6.2439539178612256,
+      "eval_accuracy": 0.9136284936928024,
+      "eval_combined_score": 0.9008383555922335,
+      "eval_f1": 0.8880482174916645,
+      "eval_loss": 0.2302049845457077,
+      "eval_runtime": 53.2162,
+      "eval_samples_per_second": 759.732,
+      "eval_steps_per_second": 1.485,
+      "step": 71000
+    },
+    {
+      "epoch": 6.331896930788849,
+      "grad_norm": 0.6474857926368713,
+      "learning_rate": 9.043549141623341e-05,
+      "loss": 0.1549,
+      "step": 72000
+    },
+    {
+      "epoch": 6.331896930788849,
+      "eval_accuracy": 0.9153846153846154,
+      "eval_combined_score": 0.901999278681791,
+      "eval_f1": 0.8886139419789666,
+      "eval_loss": 0.23562392592430115,
+      "eval_runtime": 53.9629,
+      "eval_samples_per_second": 749.218,
+      "eval_steps_per_second": 1.464,
+      "step": 72000
+    },
+    {
+      "epoch": 6.419839943716472,
+      "grad_norm": 1.9965488910675049,
+      "learning_rate": 8.662157734238882e-05,
+      "loss": 0.1658,
+      "step": 73000
+    },
+    {
+      "epoch": 6.419839943716472,
+      "eval_accuracy": 0.9152114766262677,
+      "eval_combined_score": 0.9019202282416589,
+      "eval_f1": 0.88862897985705,
+      "eval_loss": 0.22398078441619873,
+      "eval_runtime": 53.8509,
+      "eval_samples_per_second": 750.777,
+      "eval_steps_per_second": 1.467,
+      "step": 73000
+    },
+    {
+      "epoch": 6.507782956644094,
+      "grad_norm": 1.2385900020599365,
+      "learning_rate": 8.285690861724085e-05,
+      "loss": 0.1656,
+      "step": 74000
+    },
+    {
+      "epoch": 6.507782956644094,
+      "eval_accuracy": 0.9112045510759337,
+      "eval_combined_score": 0.8983637551298036,
+      "eval_f1": 0.8855229591836735,
+      "eval_loss": 0.2247052639722824,
+      "eval_runtime": 53.3174,
+      "eval_samples_per_second": 758.289,
+      "eval_steps_per_second": 1.482,
+      "step": 74000
+    },
+    {
+      "epoch": 6.595725969571718,
+      "grad_norm": 1.513914942741394,
+      "learning_rate": 7.914441040705777e-05,
+      "loss": 0.1647,
+      "step": 75000
+    },
+    {
+      "epoch": 6.595725969571718,
+      "eval_accuracy": 0.9162997773930249,
+      "eval_combined_score": 0.9027180973192356,
+      "eval_f1": 0.8891364172454462,
+      "eval_loss": 0.22348518669605255,
+      "eval_runtime": 53.4091,
+      "eval_samples_per_second": 756.988,
+      "eval_steps_per_second": 1.479,
+      "step": 75000
+    },
+    {
+      "epoch": 6.6836689824993405,
+      "grad_norm": 1.1074211597442627,
+      "learning_rate": 7.5486967341359e-05,
+      "loss": 0.1611,
+      "step": 76000
+    },
+    {
+      "epoch": 6.6836689824993405,
+      "eval_accuracy": 0.913727430126144,
+      "eval_combined_score": 0.8999817842085385,
+      "eval_f1": 0.8862361382909328,
+      "eval_loss": 0.21794870495796204,
+      "eval_runtime": 53.6652,
+      "eval_samples_per_second": 753.375,
+      "eval_steps_per_second": 1.472,
+      "step": 76000
+    },
+    {
+      "epoch": 6.771611995426963,
+      "grad_norm": 1.8691868782043457,
+      "learning_rate": 7.188742127154373e-05,
+      "loss": 0.1698,
+      "step": 77000
+    },
+    {
+      "epoch": 6.771611995426963,
+      "eval_accuracy": 0.9149146673262429,
+      "eval_combined_score": 0.9020163847203675,
+      "eval_f1": 0.889118102114492,
+      "eval_loss": 0.2198248952627182,
+      "eval_runtime": 53.3414,
+      "eval_samples_per_second": 757.947,
+      "eval_steps_per_second": 1.481,
+      "step": 77000
+    },
+    {
+      "epoch": 6.859555008354587,
+      "grad_norm": 1.2905817031860352,
+      "learning_rate": 6.834856906275834e-05,
+      "loss": 0.1676,
+      "step": 78000
+    },
+    {
+      "epoch": 6.859555008354587,
+      "eval_accuracy": 0.912663863467722,
+      "eval_combined_score": 0.9001433954046545,
+      "eval_f1": 0.8876229273415869,
+      "eval_loss": 0.2259044647216797,
+      "eval_runtime": 53.1863,
+      "eval_samples_per_second": 760.159,
+      "eval_steps_per_second": 1.485,
+      "step": 78000
+    },
+    {
+      "epoch": 6.947498021282209,
+      "grad_norm": 1.9013108015060425,
+      "learning_rate": 6.487316042071804e-05,
+      "loss": 0.1659,
+      "step": 79000
+    },
+    {
+      "epoch": 6.947498021282209,
+      "eval_accuracy": 0.9139253029928271,
+      "eval_combined_score": 0.8987180240611856,
+      "eval_f1": 0.8835107451295441,
+      "eval_loss": 0.2250695824623108,
+      "eval_runtime": 53.3885,
+      "eval_samples_per_second": 757.279,
+      "eval_steps_per_second": 1.48,
+      "step": 79000
+    },
+    {
+      "epoch": 7.035441034209832,
+      "grad_norm": 0.7197607755661011,
+      "learning_rate": 6.146389575517211e-05,
+      "loss": 0.1592,
+      "step": 80000
+    },
+    {
+      "epoch": 7.035441034209832,
+      "eval_accuracy": 0.9150630719762552,
+      "eval_combined_score": 0.9013947413762137,
+      "eval_f1": 0.8877264107761721,
+      "eval_loss": 0.2220790535211563,
+      "eval_runtime": 53.4285,
+      "eval_samples_per_second": 756.713,
+      "eval_steps_per_second": 1.479,
+      "step": 80000
+    },
+    {
+      "epoch": 7.1233840471374545,
+      "grad_norm": 1.0090577602386475,
+      "learning_rate": 5.81234240816722e-05,
+      "loss": 0.1585,
+      "step": 81000
+    },
+    {
+      "epoch": 7.1233840471374545,
+      "eval_accuracy": 0.9149394014345783,
+      "eval_combined_score": 0.9015200700271515,
+      "eval_f1": 0.8881007386197247,
+      "eval_loss": 0.22591271996498108,
+      "eval_runtime": 66.5471,
+      "eval_samples_per_second": 607.539,
+      "eval_steps_per_second": 1.187,
+      "step": 81000
+    },
+    {
+      "epoch": 7.211327060065078,
+      "grad_norm": 0.8818415403366089,
+      "learning_rate": 5.485434096327387e-05,
+      "loss": 0.1556,
+      "step": 82000
+    },
+    {
+      "epoch": 7.211327060065078,
+      "eval_accuracy": 0.9145931239178827,
+      "eval_combined_score": 0.9012395471207972,
+      "eval_f1": 0.8878859703237119,
+      "eval_loss": 0.22191596031188965,
+      "eval_runtime": 66.6411,
+      "eval_samples_per_second": 606.683,
+      "eval_steps_per_second": 1.185,
+      "step": 82000
+    },
+    {
+      "epoch": 7.299270072992701,
+      "grad_norm": 1.0010974407196045,
+      "learning_rate": 5.165918649377139e-05,
+      "loss": 0.1529,
+      "step": 83000
+    },
+    {
+      "epoch": 7.299270072992701,
+      "eval_accuracy": 0.9133069502844422,
+      "eval_combined_score": 0.9001303337134192,
+      "eval_f1": 0.8869537171423963,
+      "eval_loss": 0.22674131393432617,
+      "eval_runtime": 65.3133,
+      "eval_samples_per_second": 619.016,
+      "eval_steps_per_second": 1.21,
+      "step": 83000
+    },
+    {
+      "epoch": 7.387213085920323,
+      "grad_norm": 1.4556635618209839,
+      "learning_rate": 4.854044332403218e-05,
+      "loss": 0.1524,
+      "step": 84000
+    },
+    {
+      "epoch": 7.387213085920323,
+      "eval_accuracy": 0.9162255750680188,
+      "eval_combined_score": 0.9033477259293785,
+      "eval_f1": 0.8904698767907383,
+      "eval_loss": 0.22501328587532043,
+      "eval_runtime": 65.3744,
+      "eval_samples_per_second": 618.438,
+      "eval_steps_per_second": 1.208,
+      "step": 84000
+    },
+    {
+      "epoch": 7.475156098847947,
+      "grad_norm": 1.5750316381454468,
+      "learning_rate": 4.550053473296499e-05,
+      "loss": 0.1565,
+      "step": 85000
+    },
+    {
+      "epoch": 7.475156098847947,
+      "eval_accuracy": 0.9158792975513232,
+      "eval_combined_score": 0.9019671659739106,
+      "eval_f1": 0.8880550343964978,
+      "eval_loss": 0.22253504395484924,
+      "eval_runtime": 65.3176,
+      "eval_samples_per_second": 618.975,
+      "eval_steps_per_second": 1.209,
+      "step": 85000
+    },
+    {
+      "epoch": 7.5630991117755695,
+      "grad_norm": 0.5022881627082825,
+      "learning_rate": 4.254182274461983e-05,
+      "loss": 0.1579,
+      "step": 86000
+    },
+    {
+      "epoch": 7.5630991117755695,
+      "eval_accuracy": 0.9155330200346278,
+      "eval_combined_score": 0.9024413634016252,
+      "eval_f1": 0.8893497067686226,
+      "eval_loss": 0.22446686029434204,
+      "eval_runtime": 47.9666,
+      "eval_samples_per_second": 842.878,
+      "eval_steps_per_second": 1.647,
+      "step": 86000
+    },
+    {
+      "epoch": 7.651042124703192,
+      "grad_norm": 0.5855485200881958,
+      "learning_rate": 3.966660629288376e-05,
+      "loss": 0.1593,
+      "step": 87000
+    },
+    {
+      "epoch": 7.651042124703192,
+      "eval_accuracy": 0.9165223843680436,
+      "eval_combined_score": 0.9034811240132703,
+      "eval_f1": 0.890439863658497,
+      "eval_loss": 0.22174741327762604,
+      "eval_runtime": 47.9873,
+      "eval_samples_per_second": 842.514,
+      "eval_steps_per_second": 1.646,
+      "step": 87000
+    },
+    {
+      "epoch": 7.738985137630815,
+      "grad_norm": 2.386737108230591,
+      "learning_rate": 3.687711943519798e-05,
+      "loss": 0.1557,
+      "step": 88000
+    },
+    {
+      "epoch": 7.738985137630815,
+      "eval_accuracy": 0.9156319564679694,
+      "eval_combined_score": 0.9024408037153315,
+      "eval_f1": 0.8892496509626936,
+      "eval_loss": 0.22780916094779968,
+      "eval_runtime": 47.9697,
+      "eval_samples_per_second": 842.824,
+      "eval_steps_per_second": 1.647,
+      "step": 88000
+    },
+    {
+      "epoch": 7.826928150558438,
+      "grad_norm": 1.339406967163086,
+      "learning_rate": 3.4175529616683805e-05,
+      "loss": 0.1586,
+      "step": 89000
+    },
+    {
+      "epoch": 7.826928150558438,
+      "eval_accuracy": 0.9154588177096216,
+      "eval_combined_score": 0.9022315846033333,
+      "eval_f1": 0.8890043514970449,
+      "eval_loss": 0.2238481193780899,
+      "eval_runtime": 48.005,
+      "eval_samples_per_second": 842.204,
+      "eval_steps_per_second": 1.646,
+      "step": 89000
+    },
+    {
+      "epoch": 7.914871163486061,
+      "grad_norm": 0.8423387408256531,
+      "learning_rate": 3.156393598602742e-05,
+      "loss": 0.1592,
+      "step": 90000
+    },
+    {
+      "epoch": 7.914871163486061,
+      "eval_accuracy": 0.9166707890180559,
+      "eval_combined_score": 0.9032521729008398,
+      "eval_f1": 0.8898335567836239,
+      "eval_loss": 0.21675018966197968,
+      "eval_runtime": 47.9354,
+      "eval_samples_per_second": 843.428,
+      "eval_steps_per_second": 1.648,
+      "step": 90000
+    },
+    {
+      "epoch": 8.002814176413684,
+      "grad_norm": 0.36737295985221863,
+      "learning_rate": 2.9044367764430513e-05,
+      "loss": 0.1539,
+      "step": 91000
+    },
+    {
+      "epoch": 8.002814176413684,
+      "eval_accuracy": 0.9154835518179569,
+      "eval_combined_score": 0.9016278730614073,
+      "eval_f1": 0.8877721943048577,
+      "eval_loss": 0.2243315726518631,
+      "eval_runtime": 47.9598,
+      "eval_samples_per_second": 842.998,
+      "eval_steps_per_second": 1.647,
+      "step": 91000
+    },
+    {
+      "epoch": 8.090757189341307,
+      "grad_norm": 1.1826375722885132,
+      "learning_rate": 2.661878266889586e-05,
+      "loss": 0.1486,
+      "step": 92000
+    },
+    {
+      "epoch": 8.090757189341307,
+      "eval_accuracy": 0.9158792975513232,
+      "eval_combined_score": 0.9024312433570227,
+      "eval_f1": 0.8889831891627223,
+      "eval_loss": 0.22577287256717682,
+      "eval_runtime": 48.067,
+      "eval_samples_per_second": 841.117,
+      "eval_steps_per_second": 1.644,
+      "step": 92000
+    },
+    {
+      "epoch": 8.17870020226893,
+      "grad_norm": 1.1861492395401,
+      "learning_rate": 2.428906539107102e-05,
+      "loss": 0.1505,
+      "step": 93000
+    },
+    {
+      "epoch": 8.17870020226893,
+      "eval_accuracy": 0.9159287657679941,
+      "eval_combined_score": 0.9030337128558772,
+      "eval_f1": 0.8901386599437603,
+      "eval_loss": 0.22480596601963043,
+      "eval_runtime": 51.9003,
+      "eval_samples_per_second": 778.994,
+      "eval_steps_per_second": 1.522,
+      "step": 93000
+    },
+    {
+      "epoch": 8.266643215196552,
+      "grad_norm": 1.6536142826080322,
+      "learning_rate": 2.2057026132833862e-05,
+      "loss": 0.1521,
+      "step": 94000
+    },
+    {
+      "epoch": 8.266643215196552,
+      "eval_accuracy": 0.9164481820430374,
+      "eval_combined_score": 0.9030352268207607,
+      "eval_f1": 0.8896222715984838,
+      "eval_loss": 0.2237117737531662,
+      "eval_runtime": 47.9654,
+      "eval_samples_per_second": 842.899,
+      "eval_steps_per_second": 1.647,
+      "step": 94000
+    },
+    {
+      "epoch": 8.354586228124175,
+      "grad_norm": 1.2048615217208862,
+      "learning_rate": 1.992439919975663e-05,
+      "loss": 0.1504,
+      "step": 95000
+    },
+    {
+      "epoch": 8.354586228124175,
+      "eval_accuracy": 0.91535988127628,
+      "eval_combined_score": 0.9023686326921905,
+      "eval_f1": 0.8893773841081011,
+      "eval_loss": 0.2246434986591339,
+      "eval_runtime": 47.9948,
+      "eval_samples_per_second": 842.384,
+      "eval_steps_per_second": 1.646,
+      "step": 95000
+    },
+    {
+      "epoch": 8.442529241051798,
+      "grad_norm": 1.1018518209457397,
+      "learning_rate": 1.7892841653541984e-05,
+      "loss": 0.1458,
+      "step": 96000
+    },
+    {
+      "epoch": 8.442529241051798,
+      "eval_accuracy": 0.9163739797180311,
+      "eval_combined_score": 0.9027698451286434,
+      "eval_f1": 0.8891657105392559,
+      "eval_loss": 0.22791457176208496,
+      "eval_runtime": 47.9639,
+      "eval_samples_per_second": 842.926,
+      "eval_steps_per_second": 1.647,
+      "step": 96000
+    },
+    {
+      "epoch": 8.530472253979422,
+      "grad_norm": 0.7790504097938538,
+      "learning_rate": 1.596393202447782e-05,
+      "loss": 0.153,
+      "step": 97000
+    },
+    {
+      "epoch": 8.530472253979422,
+      "eval_accuracy": 0.9166460549097205,
+      "eval_combined_score": 0.903004577028071,
+      "eval_f1": 0.8893630991464215,
+      "eval_loss": 0.22113507986068726,
+      "eval_runtime": 47.9635,
+      "eval_samples_per_second": 842.932,
+      "eval_steps_per_second": 1.647,
+      "step": 97000
+    },
+    {
+      "epoch": 8.618415266907045,
+      "grad_norm": 0.6206575036048889,
+      "learning_rate": 1.4139169084911189e-05,
+      "loss": 0.149,
+      "step": 98000
+    },
+    {
+      "epoch": 8.618415266907045,
+      "eval_accuracy": 0.9167449913430621,
+      "eval_combined_score": 0.9033760902078358,
+      "eval_f1": 0.8900071890726097,
+      "eval_loss": 0.2230953723192215,
+      "eval_runtime": 47.918,
+      "eval_samples_per_second": 843.732,
+      "eval_steps_per_second": 1.649,
+      "step": 98000
+    },
+    {
+      "epoch": 8.706358279834667,
+      "grad_norm": 0.9861566424369812,
+      "learning_rate": 1.2419970684695196e-05,
+      "loss": 0.1554,
+      "step": 99000
+    },
+    {
+      "epoch": 8.706358279834667,
+      "eval_accuracy": 0.916423447934702,
+      "eval_combined_score": 0.9031773580270923,
+      "eval_f1": 0.8899312681194828,
+      "eval_loss": 0.2201649397611618,
+      "eval_runtime": 47.9763,
+      "eval_samples_per_second": 842.708,
+      "eval_steps_per_second": 1.647,
+      "step": 99000
+    },
+    {
+      "epoch": 8.79430129276229,
+      "grad_norm": 1.2466603517532349,
+      "learning_rate": 1.0807672649512177e-05,
+      "loss": 0.1494,
+      "step": 100000
+    },
+    {
+      "epoch": 8.79430129276229,
+      "eval_accuracy": 0.9156814246846401,
+      "eval_combined_score": 0.9023141136518943,
+      "eval_f1": 0.8889468026191485,
+      "eval_loss": 0.22495532035827637,
+      "eval_runtime": 47.9521,
+      "eval_samples_per_second": 843.133,
+      "eval_steps_per_second": 1.647,
+      "step": 100000
+    },
+    {
+      "epoch": 8.882244305689913,
+      "grad_norm": 1.0836381912231445,
+      "learning_rate": 9.3035277429309e-06,
+      "loss": 0.1493,
+      "step": 101000
+    },
+    {
+      "epoch": 8.882244305689913,
+      "eval_accuracy": 0.9164481820430374,
+      "eval_combined_score": 0.9030712697049043,
+      "eval_f1": 0.8896943573667712,
+      "eval_loss": 0.2241670787334442,
+      "eval_runtime": 47.9327,
+      "eval_samples_per_second": 843.475,
+      "eval_steps_per_second": 1.648,
+      "step": 101000
+    },
+    {
+      "epoch": 8.970187318617535,
+      "grad_norm": 0.9767763614654541,
+      "learning_rate": 7.908704693002666e-06,
+      "loss": 0.1453,
+      "step": 102000
+    },
+    {
+      "epoch": 8.970187318617535,
+      "eval_accuracy": 0.9160771704180064,
+      "eval_combined_score": 0.9029090885723412,
+      "eval_f1": 0.889741006726676,
+      "eval_loss": 0.2252817302942276,
+      "eval_runtime": 47.9718,
+      "eval_samples_per_second": 842.787,
+      "eval_steps_per_second": 1.647,
+      "step": 102000
+    },
+    {
+      "epoch": 9.05813033154516,
+      "grad_norm": 1.684928297996521,
+      "learning_rate": 6.624287284154212e-06,
+      "loss": 0.1533,
+      "step": 103000
+    },
+    {
+      "epoch": 9.05813033154516,
+      "eval_accuracy": 0.9167944595597328,
+      "eval_combined_score": 0.9034945009640941,
+      "eval_f1": 0.8901945423684554,
+      "eval_loss": 0.2233511060476303,
+      "eval_runtime": 47.9608,
+      "eval_samples_per_second": 842.98,
+      "eval_steps_per_second": 1.647,
+      "step": 103000
+    },
+    {
+      "epoch": 9.146073344472782,
+      "grad_norm": 1.3675307035446167,
+      "learning_rate": 5.451273515081639e-06,
+      "loss": 0.1487,
+      "step": 104000
+    },
+    {
+      "epoch": 9.146073344472782,
+      "eval_accuracy": 0.9162255750680188,
+      "eval_combined_score": 0.9029876288477687,
+      "eval_f1": 0.8897496826275186,
+      "eval_loss": 0.22376590967178345,
+      "eval_runtime": 47.9992,
+      "eval_samples_per_second": 842.306,
+      "eval_steps_per_second": 1.646,
+      "step": 104000
+    },
+    {
+      "epoch": 9.234016357400405,
+      "grad_norm": 0.4817681312561035,
+      "learning_rate": 4.3905748233003915e-06,
+      "loss": 0.1466,
+      "step": 105000
+    },
+    {
+      "epoch": 9.234016357400405,
+      "eval_accuracy": 0.9162750432846896,
+      "eval_combined_score": 0.9027818388950022,
+      "eval_f1": 0.8892886345053148,
+      "eval_loss": 0.2244621366262436,
+      "eval_runtime": 51.9298,
+      "eval_samples_per_second": 778.551,
+      "eval_steps_per_second": 1.521,
+      "step": 105000
+    },
+    {
+      "epoch": 9.321959370328027,
+      "grad_norm": 2.7926080226898193,
+      "learning_rate": 3.4430153769539838e-06,
+      "loss": 0.1469,
+      "step": 106000
+    },
+    {
+      "epoch": 9.321959370328027,
+      "eval_accuracy": 0.9162255750680188,
+      "eval_combined_score": 0.9030378257466343,
+      "eval_f1": 0.8898500764252496,
+      "eval_loss": 0.2267247438430786,
+      "eval_runtime": 47.9367,
+      "eval_samples_per_second": 843.403,
+      "eval_steps_per_second": 1.648,
+      "step": 106000
+    },
+    {
+      "epoch": 9.40990238325565,
+      "grad_norm": 1.4503751993179321,
+      "learning_rate": 2.609331434431139e-06,
+      "loss": 0.1515,
+      "step": 107000
+    },
+    {
+      "epoch": 9.40990238325565,
+      "eval_accuracy": 0.916176106851348,
+      "eval_combined_score": 0.9029554684248606,
+      "eval_f1": 0.8897348299983732,
+      "eval_loss": 0.2243395447731018,
+      "eval_runtime": 47.9531,
+      "eval_samples_per_second": 843.116,
+      "eval_steps_per_second": 1.647,
+      "step": 107000
+    },
+    {
+      "epoch": 9.497845396183273,
+      "grad_norm": 1.1244585514068604,
+      "learning_rate": 1.890170772289401e-06,
+      "loss": 0.1493,
+      "step": 108000
+    },
+    {
+      "epoch": 9.497845396183273,
+      "eval_accuracy": 0.9162750432846896,
+      "eval_combined_score": 0.9030197960423187,
+      "eval_f1": 0.8897645487999479,
+      "eval_loss": 0.2248089611530304,
+      "eval_runtime": 47.9657,
+      "eval_samples_per_second": 842.895,
+      "eval_steps_per_second": 1.647,
+      "step": 108000
+    },
+    {
+      "epoch": 9.585788409110895,
+      "grad_norm": 1.1632763147354126,
+      "learning_rate": 1.286092181929571e-06,
+      "loss": 0.1505,
+      "step": 109000
+    },
+    {
+      "epoch": 9.585788409110895,
+      "eval_accuracy": 0.9162008409596833,
+      "eval_combined_score": 0.9029320494774318,
+      "eval_f1": 0.8896632579951801,
+      "eval_loss": 0.22427567839622498,
+      "eval_runtime": 48.0054,
+      "eval_samples_per_second": 842.197,
+      "eval_steps_per_second": 1.646,
+      "step": 109000
+    },
+    {
+      "epoch": 9.67373142203852,
+      "grad_norm": 3.00376296043396,
+      "learning_rate": 7.975650354119345e-07,
+      "loss": 0.1409,
+      "step": 110000
+    },
+    {
+      "epoch": 9.67373142203852,
+      "eval_accuracy": 0.9162750432846896,
+      "eval_combined_score": 0.9029407046316152,
+      "eval_f1": 0.8896063659785409,
+      "eval_loss": 0.2249860167503357,
+      "eval_runtime": 48.0308,
+      "eval_samples_per_second": 841.752,
+      "eval_steps_per_second": 1.645,
+      "step": 110000
+    },
+    {
+      "epoch": 9.761674434966142,
+      "grad_norm": 0.831674337387085,
+      "learning_rate": 4.249689207519447e-07,
+      "loss": 0.1489,
+      "step": 111000
+    },
+    {
+      "epoch": 9.761674434966142,
+      "eval_accuracy": 0.9162255750680188,
+      "eval_combined_score": 0.9029481241899265,
+      "eval_f1": 0.8896706733118342,
+      "eval_loss": 0.22530485689640045,
+      "eval_runtime": 47.9605,
+      "eval_samples_per_second": 842.985,
+      "eval_steps_per_second": 1.647,
+      "step": 111000
+    },
+    {
+      "epoch": 9.849617447893765,
+      "grad_norm": 0.972335159778595,
+      "learning_rate": 1.6859334697840177e-07,
+      "loss": 0.152,
+      "step": 112000
+    },
+    {
+      "epoch": 9.849617447893765,
+      "eval_accuracy": 0.916176106851348,
+      "eval_combined_score": 0.9029303437157037,
+      "eval_f1": 0.8896845805800593,
+      "eval_loss": 0.22533808648586273,
+      "eval_runtime": 47.9968,
+      "eval_samples_per_second": 842.348,
+      "eval_steps_per_second": 1.646,
+      "step": 112000
+    },
+    {
+      "epoch": 9.937560460821388,
+      "grad_norm": 0.8028485178947449,
+      "learning_rate": 2.863751918346091e-08,
+      "loss": 0.1449,
+      "step": 113000
+    },
+    {
+      "epoch": 9.937560460821388,
+      "eval_accuracy": 0.9161513727430126,
+      "eval_combined_score": 0.9028999051215063,
+      "eval_f1": 0.8896484375,
+      "eval_loss": 0.22538121044635773,
+      "eval_runtime": 47.9803,
+      "eval_samples_per_second": 842.637,
+      "eval_steps_per_second": 1.647,
+      "step": 113000
+    },
+    {
+      "epoch": 10.0,
+      "step": 113710,
+      "total_flos": 6.076865681478144e+17,
+      "train_loss": 0.18996371687816216,
+      "train_runtime": 52014.9626,
+      "train_samples_per_second": 69.95,
+      "train_steps_per_second": 2.186
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 113710,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.076865681478144e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/QQP.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.9170912688597576,
+    "eval_combined_score": 0.9035767921865203,
+    "eval_f1": 0.8900623155132831,
+    "eval_loss": 0.22255383431911469,
+    "eval_runtime": 55.1264,
+    "eval_samples": 40430,
+    "eval_samples_per_second": 733.405,
+    "eval_steps_per_second": 1.433
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.9170912688597576,
+    "eval_combined_score": 0.9035767921865203,
+    "eval_f1": 0.8900623155132831,
+    "eval_loss": 0.22255383431911469,
+    "eval_runtime": 55.1264,
+    "eval_samples": 40430,
+    "eval_samples_per_second": 733.405,
+    "eval_steps_per_second": 1.433
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "auto_mapping": {
+    "base_model_class": "DebertaV2ForSequenceClassification",
+    "parent_library": "transformers.models.deberta_v2.modeling_deberta_v2"
+  },
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "boft_block_num": 0,
+  "boft_block_size": 4,
+  "boft_dropout": 0.05,
+  "boft_n_butterfly_factor": 2,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler"
+  ],
+  "peft_type": "BOFT",
+  "peft_version": "0.18.0",
+  "revision": null,
+  "target_modules": [
+    "value_proj",
+    "attention.output.dense",
+    "key_proj",
+    "output.dense",
+    "query_proj",
+    "intermediate.dense"
+  ],
+  "task_type": null
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2077 @@

+{
+  "best_global_step": 94000,
+  "best_metric": 0.9170912688597576,
+  "best_model_checkpoint": "./glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d01h13m32,sd43/checkpoint-94000",
+  "epoch": 10.0,
+  "eval_steps": 1000,
+  "global_step": 113710,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0879430129276229,
+      "grad_norm": 2.7297446727752686,
+      "learning_rate": 0.00029969999999999997,
+      "loss": 0.4413,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0879430129276229,
+      "eval_accuracy": 0.8535988127627999,
+      "eval_combined_score": 0.8363529041351361,
+      "eval_f1": 0.8191069955074722,
+      "eval_loss": 0.3258603811264038,
+      "eval_runtime": 57.5406,
+      "eval_samples_per_second": 702.634,
+      "eval_steps_per_second": 1.373,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1758860258552458,
+      "grad_norm": 0.6822599768638611,
+      "learning_rate": 0.00029994184111301736,
+      "loss": 0.3205,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1758860258552458,
+      "eval_accuracy": 0.8633687855552807,
+      "eval_combined_score": 0.8474359789172207,
+      "eval_f1": 0.8315031722791606,
+      "eval_loss": 0.30383479595184326,
+      "eval_runtime": 55.7418,
+      "eval_samples_per_second": 725.309,
+      "eval_steps_per_second": 1.417,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2638290387828687,
+      "grad_norm": 0.7207789421081543,
+      "learning_rate": 0.00029976717673021227,
+      "loss": 0.2897,
+      "step": 3000
+    },
+    {
+      "epoch": 0.2638290387828687,
+      "eval_accuracy": 0.881375216423448,
+      "eval_combined_score": 0.8639466967933932,
+      "eval_f1": 0.8465181771633384,
+      "eval_loss": 0.27747777104377747,
+      "eval_runtime": 55.436,
+      "eval_samples_per_second": 729.309,
+      "eval_steps_per_second": 1.425,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3517720517104916,
+      "grad_norm": 0.9168917536735535,
+      "learning_rate": 0.0002994761425083971,
+      "loss": 0.2887,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3517720517104916,
+      "eval_accuracy": 0.8850853326737571,
+      "eval_combined_score": 0.8636792768746298,
+      "eval_f1": 0.8422732210755024,
+      "eval_loss": 0.26767390966415405,
+      "eval_runtime": 62.1194,
+      "eval_samples_per_second": 650.843,
+      "eval_steps_per_second": 1.272,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4397150646381145,
+      "grad_norm": 1.0872021913528442,
+      "learning_rate": 0.0002990689645826054,
+      "loss": 0.2715,
+      "step": 5000
+    },
+    {
+      "epoch": 0.4397150646381145,
+      "eval_accuracy": 0.889339599307445,
+      "eval_combined_score": 0.8715030566694875,
+      "eval_f1": 0.85366651403153,
+      "eval_loss": 0.2571745216846466,
+      "eval_runtime": 93.9863,
+      "eval_samples_per_second": 430.169,
+      "eval_steps_per_second": 0.841,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5276580775657373,
+      "grad_norm": 0.8852691054344177,
+      "learning_rate": 0.00029854595933210474,
+      "loss": 0.2718,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5276580775657373,
+      "eval_accuracy": 0.8892653969824388,
+      "eval_combined_score": 0.8717672318722942,
+      "eval_f1": 0.8542690667621496,
+      "eval_loss": 0.2696632146835327,
+      "eval_runtime": 87.155,
+      "eval_samples_per_second": 463.886,
+      "eval_steps_per_second": 0.906,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6156010904933603,
+      "grad_norm": 0.9273120164871216,
+      "learning_rate": 0.0002979075331345683,
+      "loss": 0.2637,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6156010904933603,
+      "eval_accuracy": 0.8877318822656444,
+      "eval_combined_score": 0.8720894776140518,
+      "eval_f1": 0.8564470729624593,
+      "eval_loss": 0.2592132091522217,
+      "eval_runtime": 87.1323,
+      "eval_samples_per_second": 464.007,
+      "eval_steps_per_second": 0.907,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7035441034209832,
+      "grad_norm": 1.545639991760254,
+      "learning_rate": 0.0002971541820503175,
+      "loss": 0.2637,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7035441034209832,
+      "eval_accuracy": 0.893099183774425,
+      "eval_combined_score": 0.8766595530773806,
+      "eval_f1": 0.8602199223803364,
+      "eval_loss": 0.2516544759273529,
+      "eval_runtime": 56.9694,
+      "eval_samples_per_second": 709.679,
+      "eval_steps_per_second": 1.387,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7914871163486061,
+      "grad_norm": 0.8067322373390198,
+      "learning_rate": 0.00029628649143688076,
+      "loss": 0.2578,
+      "step": 9000
+    },
+    {
+      "epoch": 0.7914871163486061,
+      "eval_accuracy": 0.8898095473658174,
+      "eval_combined_score": 0.8757041150728245,
+      "eval_f1": 0.8615986827798316,
+      "eval_loss": 0.26392853260040283,
+      "eval_runtime": 55.9304,
+      "eval_samples_per_second": 722.863,
+      "eval_steps_per_second": 1.412,
+      "step": 9000
+    },
+    {
+      "epoch": 0.879430129276229,
+      "grad_norm": 1.1267387866973877,
+      "learning_rate": 0.0002953051354941674,
+      "loss": 0.2582,
+      "step": 10000
+    },
+    {
+      "epoch": 0.879430129276229,
+      "eval_accuracy": 0.8933465248577789,
+      "eval_combined_score": 0.8785575035510934,
+      "eval_f1": 0.8637684822444079,
+      "eval_loss": 0.25557711720466614,
+      "eval_runtime": 55.7874,
+      "eval_samples_per_second": 724.715,
+      "eval_steps_per_second": 1.416,
+      "step": 10000
+    },
+    {
+      "epoch": 0.967373142203852,
+      "grad_norm": 1.7442392110824585,
+      "learning_rate": 0.0002942108767406115,
+      "loss": 0.2531,
+      "step": 11000
+    },
+    {
+      "epoch": 0.967373142203852,
+      "eval_accuracy": 0.8981944100915162,
+      "eval_combined_score": 0.8805794263801568,
+      "eval_f1": 0.8629644426687975,
+      "eval_loss": 0.2394532710313797,
+      "eval_runtime": 79.3594,
+      "eval_samples_per_second": 509.454,
+      "eval_steps_per_second": 0.995,
+      "step": 11000
+    },
+    {
+      "epoch": 1.0553161551314747,
+      "grad_norm": 0.8848230838775635,
+      "learning_rate": 0.00029300456542069104,
+      "loss": 0.24,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0553161551314747,
+      "eval_accuracy": 0.8990106356665842,
+      "eval_combined_score": 0.8819082183994985,
+      "eval_f1": 0.8648058011324128,
+      "eval_loss": 0.24989046156406403,
+      "eval_runtime": 87.0661,
+      "eval_samples_per_second": 464.36,
+      "eval_steps_per_second": 0.907,
+      "step": 12000
+    },
+    {
+      "epoch": 1.1432591680590978,
+      "grad_norm": 1.031847596168518,
+      "learning_rate": 0.0002916871388442835,
+      "loss": 0.2372,
+      "step": 13000
+    },
+    {
+      "epoch": 1.1432591680590978,
+      "eval_accuracy": 0.8948553054662379,
+      "eval_combined_score": 0.8795961544085618,
+      "eval_f1": 0.8643370033508856,
+      "eval_loss": 0.2568126618862152,
+      "eval_runtime": 86.9093,
+      "eval_samples_per_second": 465.198,
+      "eval_steps_per_second": 0.909,
+      "step": 13000
+    },
+    {
+      "epoch": 1.2312021809867206,
+      "grad_norm": 1.1493035554885864,
+      "learning_rate": 0.00029025962065837193,
+      "loss": 0.2316,
+      "step": 14000
+    },
+    {
+      "epoch": 1.2312021809867206,
+      "eval_accuracy": 0.897180311649765,
+      "eval_combined_score": 0.8832675498347509,
+      "eval_f1": 0.8693547880197366,
+      "eval_loss": 0.249246746301651,
+      "eval_runtime": 87.1761,
+      "eval_samples_per_second": 463.774,
+      "eval_steps_per_second": 0.906,
+      "step": 14000
+    },
+    {
+      "epoch": 1.3191451939143435,
+      "grad_norm": 0.6977606415748596,
+      "learning_rate": 0.00028872312005166577,
+      "loss": 0.2282,
+      "step": 15000
+    },
+    {
+      "epoch": 1.3191451939143435,
+      "eval_accuracy": 0.8985406876082117,
+      "eval_combined_score": 0.880514058185601,
+      "eval_f1": 0.8624874287629902,
+      "eval_loss": 0.23751328885555267,
+      "eval_runtime": 61.8847,
+      "eval_samples_per_second": 653.312,
+      "eval_steps_per_second": 1.277,
+      "step": 15000
+    },
+    {
+      "epoch": 1.4070882068419663,
+      "grad_norm": 1.7894372940063477,
+      "learning_rate": 0.00028707883089275593,
+      "loss": 0.2344,
+      "step": 16000
+    },
+    {
+      "epoch": 1.4070882068419663,
+      "eval_accuracy": 0.9016571852584714,
+      "eval_combined_score": 0.8850791548729187,
+      "eval_f1": 0.868501124487366,
+      "eval_loss": 0.2350623905658722,
+      "eval_runtime": 55.7055,
+      "eval_samples_per_second": 725.782,
+      "eval_steps_per_second": 1.418,
+      "step": 16000
+    },
+    {
+      "epoch": 1.4950312197695892,
+      "grad_norm": 0.8567989468574524,
+      "learning_rate": 0.0002853280308024728,
+      "loss": 0.231,
+      "step": 17000
+    },
+    {
+      "epoch": 1.4950312197695892,
+      "eval_accuracy": 0.9044768736087064,
+      "eval_combined_score": 0.8896452439356336,
+      "eval_f1": 0.8748136142625608,
+      "eval_loss": 0.22801724076271057,
+      "eval_runtime": 56.0896,
+      "eval_samples_per_second": 720.811,
+      "eval_steps_per_second": 1.408,
+      "step": 17000
+    },
+    {
+      "epoch": 1.5829742326972123,
+      "grad_norm": 0.8832383155822754,
+      "learning_rate": 0.0002834720801611687,
+      "loss": 0.2268,
+      "step": 18000
+    },
+    {
+      "epoch": 1.5829742326972123,
+      "eval_accuracy": 0.9038337867919861,
+      "eval_combined_score": 0.8878852728426334,
+      "eval_f1": 0.8719367588932806,
+      "eval_loss": 0.22873158752918243,
+      "eval_runtime": 87.1297,
+      "eval_samples_per_second": 464.021,
+      "eval_steps_per_second": 0.907,
+      "step": 18000
+    },
+    {
+      "epoch": 1.6709172456248351,
+      "grad_norm": 1.8913209438323975,
+      "learning_rate": 0.0002815124210516956,
+      "loss": 0.2296,
+      "step": 19000
+    },
+    {
+      "epoch": 1.6709172456248351,
+      "eval_accuracy": 0.9036606480336384,
+      "eval_combined_score": 0.8865546410940774,
+      "eval_f1": 0.8694486341545165,
+      "eval_loss": 0.23362140357494354,
+      "eval_runtime": 86.6867,
+      "eval_samples_per_second": 466.392,
+      "eval_steps_per_second": 0.911,
+      "step": 19000
+    },
+    {
+      "epoch": 1.758860258552458,
+      "grad_norm": 0.9055523872375488,
+      "learning_rate": 0.0002794505761388994,
+      "loss": 0.2267,
+      "step": 20000
+    },
+    {
+      "epoch": 1.758860258552458,
+      "eval_accuracy": 0.9018055899084838,
+      "eval_combined_score": 0.8878749166282116,
+      "eval_f1": 0.8739442433479393,
+      "eval_loss": 0.23946107923984528,
+      "eval_runtime": 87.1633,
+      "eval_samples_per_second": 463.842,
+      "eval_steps_per_second": 0.906,
+      "step": 20000
+    },
+    {
+      "epoch": 1.846803271480081,
+      "grad_norm": 0.7792288661003113,
+      "learning_rate": 0.0002772881474865019,
+      "loss": 0.2253,
+      "step": 21000
+    },
+    {
+      "epoch": 1.846803271480081,
+      "eval_accuracy": 0.9050457581004204,
+      "eval_combined_score": 0.888817724890043,
+      "eval_f1": 0.8725896916796655,
+      "eval_loss": 0.23969051241874695,
+      "eval_runtime": 86.906,
+      "eval_samples_per_second": 465.215,
+      "eval_steps_per_second": 0.909,
+      "step": 21000
+    },
+    {
+      "epoch": 1.9347462844077037,
+      "grad_norm": 0.8400819897651672,
+      "learning_rate": 0.00027502681531228946,
+      "loss": 0.2281,
+      "step": 22000
+    },
+    {
+      "epoch": 1.9347462844077037,
+      "eval_accuracy": 0.9032401681919366,
+      "eval_combined_score": 0.8893151850706769,
+      "eval_f1": 0.8753902019494171,
+      "eval_loss": 0.2290925830602646,
+      "eval_runtime": 55.9966,
+      "eval_samples_per_second": 722.008,
+      "eval_steps_per_second": 1.411,
+      "step": 22000
+    },
+    {
+      "epoch": 2.0226892973353268,
+      "grad_norm": 0.6936965584754944,
+      "learning_rate": 0.00027266833668257537,
+      "loss": 0.2211,
+      "step": 23000
+    },
+    {
+      "epoch": 2.0226892973353268,
+      "eval_accuracy": 0.9054415038337867,
+      "eval_combined_score": 0.8907576412812164,
+      "eval_f1": 0.876073778728646,
+      "eval_loss": 0.23454435169696808,
+      "eval_runtime": 54.9548,
+      "eval_samples_per_second": 735.695,
+      "eval_steps_per_second": 1.438,
+      "step": 23000
+    },
+    {
+      "epoch": 2.1106323102629494,
+      "grad_norm": 0.9834011793136597,
+      "learning_rate": 0.0002702145441469506,
+      "loss": 0.2105,
+      "step": 24000
+    },
+    {
+      "epoch": 2.1106323102629494,
+      "eval_accuracy": 0.906331931733861,
+      "eval_combined_score": 0.8905067117552788,
+      "eval_f1": 0.8746814917766967,
+      "eval_loss": 0.22863534092903137,
+      "eval_runtime": 55.5285,
+      "eval_samples_per_second": 728.095,
+      "eval_steps_per_second": 1.423,
+      "step": 24000
+    },
+    {
+      "epoch": 2.1985753231905725,
+      "grad_norm": 0.8303177952766418,
+      "learning_rate": 0.00026766734431438345,
+      "loss": 0.2116,
+      "step": 25000
+    },
+    {
+      "epoch": 2.1985753231905725,
+      "eval_accuracy": 0.907395498392283,
+      "eval_combined_score": 0.8916986765326984,
+      "eval_f1": 0.8760018546731139,
+      "eval_loss": 0.2305864840745926,
+      "eval_runtime": 87.1391,
+      "eval_samples_per_second": 463.971,
+      "eval_steps_per_second": 0.907,
+      "step": 25000
+    },
+    {
+      "epoch": 2.2865183361181955,
+      "grad_norm": 1.1610081195831299,
+      "learning_rate": 0.0002650287163717754,
+      "loss": 0.21,
+      "step": 26000
+    },
+    {
+      "epoch": 2.2865183361181955,
+      "eval_accuracy": 0.908780608459065,
+      "eval_combined_score": 0.8933953320146608,
+      "eval_f1": 0.8780100555702567,
+      "eval_loss": 0.22183135151863098,
+      "eval_runtime": 94.1343,
+      "eval_samples_per_second": 429.493,
+      "eval_steps_per_second": 0.839,
+      "step": 26000
+    },
+    {
+      "epoch": 2.374461349045818,
+      "grad_norm": 1.1182605028152466,
+      "learning_rate": 0.0002623007105461227,
+      "loss": 0.2133,
+      "step": 27000
+    },
+    {
+      "epoch": 2.374461349045818,
+      "eval_accuracy": 0.9062329953005194,
+      "eval_combined_score": 0.8922872559699542,
+      "eval_f1": 0.878341516639389,
+      "eval_loss": 0.21990598738193512,
+      "eval_runtime": 86.9528,
+      "eval_samples_per_second": 464.965,
+      "eval_steps_per_second": 0.909,
+      "step": 27000
+    },
+    {
+      "epoch": 2.4624043619734413,
+      "grad_norm": 1.0740619897842407,
+      "learning_rate": 0.00025948544651147997,
+      "loss": 0.2091,
+      "step": 28000
+    },
+    {
+      "epoch": 2.4624043619734413,
+      "eval_accuracy": 0.9060845906505071,
+      "eval_combined_score": 0.8920267079879565,
+      "eval_f1": 0.8779688253254058,
+      "eval_loss": 0.22643305361270905,
+      "eval_runtime": 85.7066,
+      "eval_samples_per_second": 471.725,
+      "eval_steps_per_second": 0.922,
+      "step": 28000
+    },
+    {
+      "epoch": 2.5503473749010643,
+      "grad_norm": 0.6771745085716248,
+      "learning_rate": 0.00025658511174196294,
+      "loss": 0.2056,
+      "step": 29000
+    },
+    {
+      "epoch": 2.5503473749010643,
+      "eval_accuracy": 0.9063566658421964,
+      "eval_combined_score": 0.8922513937514812,
+      "eval_f1": 0.878146121660766,
+      "eval_loss": 0.22508816421031952,
+      "eval_runtime": 55.4822,
+      "eval_samples_per_second": 728.702,
+      "eval_steps_per_second": 1.424,
+      "step": 29000
+    },
+    {
+      "epoch": 2.638290387828687,
+      "grad_norm": 0.9677979946136475,
+      "learning_rate": 0.00025360195981207026,
+      "loss": 0.2114,
+      "step": 30000
+    },
+    {
+      "epoch": 2.638290387828687,
+      "eval_accuracy": 0.907271827850606,
+      "eval_combined_score": 0.8924317476667729,
+      "eval_f1": 0.8775916674829399,
+      "eval_loss": 0.23263554275035858,
+      "eval_runtime": 55.2748,
+      "eval_samples_per_second": 731.437,
+      "eval_steps_per_second": 1.429,
+      "step": 30000
+    },
+    {
+      "epoch": 2.72623340075631,
+      "grad_norm": 0.6644540429115295,
+      "learning_rate": 0.0002505383086456447,
+      "loss": 0.2112,
+      "step": 31000
+    },
+    {
+      "epoch": 2.72623340075631,
+      "eval_accuracy": 0.9091021518674252,
+      "eval_combined_score": 0.895075432625734,
+      "eval_f1": 0.8810487133840427,
+      "eval_loss": 0.22498038411140442,
+      "eval_runtime": 56.1057,
+      "eval_samples_per_second": 720.604,
+      "eval_steps_per_second": 1.408,
+      "step": 31000
+    },
+    {
+      "epoch": 2.8141764136839327,
+      "grad_norm": 1.8015542030334473,
+      "learning_rate": 0.0002473965387148352,
+      "loss": 0.2111,
+      "step": 32000
+    },
+    {
+      "epoch": 2.8141764136839327,
+      "eval_accuracy": 0.9067771456838981,
+      "eval_combined_score": 0.8896950587986192,
+      "eval_f1": 0.8726129719133403,
+      "eval_loss": 0.23708254098892212,
+      "eval_runtime": 86.5803,
+      "eval_samples_per_second": 466.965,
+      "eval_steps_per_second": 0.912,
+      "step": 32000
+    },
+    {
+      "epoch": 2.9021194266115558,
+      "grad_norm": 0.9836463332176208,
+      "learning_rate": 0.000244179091190458,
+      "loss": 0.2053,
+      "step": 33000
+    },
+    {
+      "epoch": 2.9021194266115558,
+      "eval_accuracy": 0.907271827850606,
+      "eval_combined_score": 0.8913291165179571,
+      "eval_f1": 0.8753864051853083,
+      "eval_loss": 0.2347380369901657,
+      "eval_runtime": 87.041,
+      "eval_samples_per_second": 464.494,
+      "eval_steps_per_second": 0.908,
+      "step": 33000
+    },
+    {
+      "epoch": 2.9900624395391784,
+      "grad_norm": 0.8091123700141907,
+      "learning_rate": 0.00024088846604519457,
+      "loss": 0.2065,
+      "step": 34000
+    },
+    {
+      "epoch": 2.9900624395391784,
+      "eval_accuracy": 0.9093989611674499,
+      "eval_combined_score": 0.8952525657211847,
+      "eval_f1": 0.8811061702749197,
+      "eval_loss": 0.2226964384317398,
+      "eval_runtime": 87.4423,
+      "eval_samples_per_second": 462.362,
+      "eval_steps_per_second": 0.903,
+      "step": 34000
+    },
+    {
+      "epoch": 3.0780054524668015,
+      "grad_norm": 1.2436619997024536,
+      "learning_rate": 0.00023752722011110102,
+      "loss": 0.1908,
+      "step": 35000
+    },
+    {
+      "epoch": 3.0780054524668015,
+      "eval_accuracy": 0.9093989611674499,
+      "eval_combined_score": 0.8953527322605987,
+      "eval_f1": 0.8813065033537475,
+      "eval_loss": 0.2280348539352417,
+      "eval_runtime": 66.5104,
+      "eval_samples_per_second": 607.875,
+      "eval_steps_per_second": 1.188,
+      "step": 35000
+    },
+    {
+      "epoch": 3.1659484653944245,
+      "grad_norm": 0.7347617149353027,
+      "learning_rate": 0.00023409796509293643,
+      "loss": 0.1955,
+      "step": 36000
+    },
+    {
+      "epoch": 3.1659484653944245,
+      "eval_accuracy": 0.9095720999257977,
+      "eval_combined_score": 0.8955507939680836,
+      "eval_f1": 0.8815294880103695,
+      "eval_loss": 0.2231292426586151,
+      "eval_runtime": 56.1448,
+      "eval_samples_per_second": 720.102,
+      "eval_steps_per_second": 1.407,
+      "step": 36000
+    },
+    {
+      "epoch": 3.253891478322047,
+      "grad_norm": 1.5832217931747437,
+      "learning_rate": 0.0002306033655388555,
+      "loss": 0.1924,
+      "step": 37000
+    },
+    {
+      "epoch": 3.253891478322047,
+      "eval_accuracy": 0.9100915162008409,
+      "eval_combined_score": 0.896175547884374,
+      "eval_f1": 0.8822595795679072,
+      "eval_loss": 0.2340392768383026,
+      "eval_runtime": 59.6999,
+      "eval_samples_per_second": 677.221,
+      "eval_steps_per_second": 1.323,
+      "step": 37000
+    },
+    {
+      "epoch": 3.3418344912496702,
+      "grad_norm": 0.591686487197876,
+      "learning_rate": 0.0002270461367700413,
+      "loss": 0.1988,
+      "step": 38000
+    },
+    {
+      "epoch": 3.3418344912496702,
+      "eval_accuracy": 0.9090032154340836,
+      "eval_combined_score": 0.8956507903001432,
+      "eval_f1": 0.8822983651662027,
+      "eval_loss": 0.22800563275814056,
+      "eval_runtime": 56.1427,
+      "eval_samples_per_second": 720.129,
+      "eval_steps_per_second": 1.407,
+      "step": 38000
+    },
+    {
+      "epoch": 3.4297775041772933,
+      "grad_norm": 0.40456414222717285,
+      "learning_rate": 0.00022342904277088745,
+      "loss": 0.1956,
+      "step": 39000
+    },
+    {
+      "epoch": 3.4297775041772933,
+      "eval_accuracy": 0.9068266139005688,
+      "eval_combined_score": 0.8933508049572362,
+      "eval_f1": 0.8798749960139035,
+      "eval_loss": 0.23531748354434967,
+      "eval_runtime": 87.0769,
+      "eval_samples_per_second": 464.302,
+      "eval_steps_per_second": 0.907,
+      "step": 39000
+    },
+    {
+      "epoch": 3.517720517104916,
+      "grad_norm": 1.1434704065322876,
+      "learning_rate": 0.00021975489404136827,
+      "loss": 0.1938,
+      "step": 40000
+    },
+    {
+      "epoch": 3.517720517104916,
+      "eval_accuracy": 0.9121197130843434,
+      "eval_combined_score": 0.8974546376591842,
+      "eval_f1": 0.882789562234025,
+      "eval_loss": 0.21503011882305145,
+      "eval_runtime": 87.6754,
+      "eval_samples_per_second": 461.133,
+      "eval_steps_per_second": 0.901,
+      "step": 40000
+    },
+    {
+      "epoch": 3.605663530032539,
+      "grad_norm": 1.0183204412460327,
+      "learning_rate": 0.00021602654541326668,
+      "loss": 0.1924,
+      "step": 41000
+    },
+    {
+      "epoch": 3.605663530032539,
+      "eval_accuracy": 0.9107098689092258,
+      "eval_combined_score": 0.8974986616166105,
+      "eval_f1": 0.8842874543239951,
+      "eval_loss": 0.224385604262352,
+      "eval_runtime": 87.4339,
+      "eval_samples_per_second": 462.407,
+      "eval_steps_per_second": 0.904,
+      "step": 41000
+    },
+    {
+      "epoch": 3.6936065429601617,
+      "grad_norm": 0.9868887662887573,
+      "learning_rate": 0.00021224689383195542,
+      "loss": 0.195,
+      "step": 42000
+    },
+    {
+      "epoch": 3.6936065429601617,
+      "eval_accuracy": 0.9104377937175365,
+      "eval_combined_score": 0.8954959874080013,
+      "eval_f1": 0.8805541810984661,
+      "eval_loss": 0.21859273314476013,
+      "eval_runtime": 55.287,
+      "eval_samples_per_second": 731.275,
+      "eval_steps_per_second": 1.429,
+      "step": 42000
+    },
+    {
+      "epoch": 3.7815495558877847,
+      "grad_norm": 0.6419038772583008,
+      "learning_rate": 0.00020841887610545634,
+      "loss": 0.1958,
+      "step": 43000
+    },
+    {
+      "epoch": 3.7815495558877847,
+      "eval_accuracy": 0.9104625278258719,
+      "eval_combined_score": 0.8938753317095461,
+      "eval_f1": 0.8772881355932204,
+      "eval_loss": 0.22058646380901337,
+      "eval_runtime": 56.1494,
+      "eval_samples_per_second": 720.044,
+      "eval_steps_per_second": 1.407,
+      "step": 43000
+    },
+    {
+      "epoch": 3.8694925688154074,
+      "grad_norm": 1.719427227973938,
+      "learning_rate": 0.00020454546662252592,
+      "loss": 0.196,
+      "step": 44000
+    },
+    {
+      "epoch": 3.8694925688154074,
+      "eval_accuracy": 0.9113529557259461,
+      "eval_combined_score": 0.8976904566359474,
+      "eval_f1": 0.8840279575459488,
+      "eval_loss": 0.22054925560951233,
+      "eval_runtime": 55.0531,
+      "eval_samples_per_second": 734.382,
+      "eval_steps_per_second": 1.435,
+      "step": 44000
+    },
+    {
+      "epoch": 3.9574355817430305,
+      "grad_norm": 0.8242283463478088,
+      "learning_rate": 0.00020062967504154062,
+      "loss": 0.1959,
+      "step": 45000
+    },
+    {
+      "epoch": 3.9574355817430305,
+      "eval_accuracy": 0.908088053425674,
+      "eval_combined_score": 0.8953616945796805,
+      "eval_f1": 0.882635335733687,
+      "eval_loss": 0.22607550024986267,
+      "eval_runtime": 55.7392,
+      "eval_samples_per_second": 725.342,
+      "eval_steps_per_second": 1.417,
+      "step": 45000
+    },
+    {
+      "epoch": 4.0453785946706535,
+      "grad_norm": 1.3167576789855957,
+      "learning_rate": 0.00019667454395197706,
+      "loss": 0.1894,
+      "step": 46000
+    },
+    {
+      "epoch": 4.0453785946706535,
+      "eval_accuracy": 0.914296314617858,
+      "eval_combined_score": 0.8999982315296118,
+      "eval_f1": 0.8857001484413657,
+      "eval_loss": 0.2266334593296051,
+      "eval_runtime": 86.689,
+      "eval_samples_per_second": 466.38,
+      "eval_steps_per_second": 0.911,
+      "step": 46000
+    },
+    {
+      "epoch": 4.133321607598276,
+      "grad_norm": 1.0003962516784668,
+      "learning_rate": 0.00019268314651030522,
+      "loss": 0.1817,
+      "step": 47000
+    },
+    {
+      "epoch": 4.133321607598276,
+      "eval_accuracy": 0.913356418501113,
+      "eval_combined_score": 0.8990763412596334,
+      "eval_f1": 0.8847962640181537,
+      "eval_loss": 0.21194230020046234,
+      "eval_runtime": 87.412,
+      "eval_samples_per_second": 462.522,
+      "eval_steps_per_second": 0.904,
+      "step": 47000
+    },
+    {
+      "epoch": 4.221264620525899,
+      "grad_norm": 1.556255578994751,
+      "learning_rate": 0.00018865858405213055,
+      "loss": 0.1797,
+      "step": 48000
+    },
+    {
+      "epoch": 4.221264620525899,
+      "eval_accuracy": 0.9149394014345783,
+      "eval_combined_score": 0.9006436324400824,
+      "eval_f1": 0.8863478634455865,
+      "eval_loss": 0.22268745303153992,
+      "eval_runtime": 93.9761,
+      "eval_samples_per_second": 430.216,
+      "eval_steps_per_second": 0.841,
+      "step": 48000
+    },
+    {
+      "epoch": 4.309207633453522,
+      "grad_norm": 1.4525554180145264,
+      "learning_rate": 0.0001846039836824406,
+      "loss": 0.1837,
+      "step": 49000
+    },
+    {
+      "epoch": 4.309207633453522,
+      "eval_accuracy": 0.9146425921345536,
+      "eval_combined_score": 0.9013003876552123,
+      "eval_f1": 0.8879581831758709,
+      "eval_loss": 0.22220176458358765,
+      "eval_runtime": 55.5494,
+      "eval_samples_per_second": 727.821,
+      "eval_steps_per_second": 1.422,
+      "step": 49000
+    },
+    {
+      "epoch": 4.397150646381145,
+      "grad_norm": 1.4938559532165527,
+      "learning_rate": 0.00018052249584582937,
+      "loss": 0.1808,
+      "step": 50000
+    },
+    {
+      "epoch": 4.397150646381145,
+      "eval_accuracy": 0.914419985159535,
+      "eval_combined_score": 0.9005963398538037,
+      "eval_f1": 0.8867726945480725,
+      "eval_loss": 0.21833352744579315,
+      "eval_runtime": 56.2669,
+      "eval_samples_per_second": 718.539,
+      "eval_steps_per_second": 1.404,
+      "step": 50000
+    },
+    {
+      "epoch": 4.485093659308768,
+      "grad_norm": 0.8967867493629456,
+      "learning_rate": 0.0001764172918785858,
+      "loss": 0.1809,
+      "step": 51000
+    },
+    {
+      "epoch": 4.485093659308768,
+      "eval_accuracy": 0.9135790254761316,
+      "eval_combined_score": 0.8999912813836214,
+      "eval_f1": 0.8864035372911112,
+      "eval_loss": 0.2153746634721756,
+      "eval_runtime": 55.6547,
+      "eval_samples_per_second": 726.443,
+      "eval_steps_per_second": 1.419,
+      "step": 51000
+    },
+    {
+      "epoch": 4.573036672236391,
+      "grad_norm": 1.5915240049362183,
+      "learning_rate": 0.0001722915615445501,
+      "loss": 0.1844,
+      "step": 52000
+    },
+    {
+      "epoch": 4.573036672236391,
+      "eval_accuracy": 0.9124412564927035,
+      "eval_combined_score": 0.8987269622942956,
+      "eval_f1": 0.8850126680958877,
+      "eval_loss": 0.22099778056144714,
+      "eval_runtime": 56.0449,
+      "eval_samples_per_second": 721.386,
+      "eval_steps_per_second": 1.41,
+      "step": 52000
+    },
+    {
+      "epoch": 4.660979685164014,
+      "grad_norm": 1.076545000076294,
+      "learning_rate": 0.0001681485105566511,
+      "loss": 0.1882,
+      "step": 53000
+    },
+    {
+      "epoch": 4.660979685164014,
+      "eval_accuracy": 0.9136779619094731,
+      "eval_combined_score": 0.9001352700299299,
+      "eval_f1": 0.8865925781503867,
+      "eval_loss": 0.21928681433200836,
+      "eval_runtime": 87.0569,
+      "eval_samples_per_second": 464.409,
+      "eval_steps_per_second": 0.907,
+      "step": 53000
+    },
+    {
+      "epoch": 4.748922698091636,
+      "grad_norm": 0.7791244983673096,
+      "learning_rate": 0.00016399135808605172,
+      "loss": 0.1831,
+      "step": 54000
+    },
+    {
+      "epoch": 4.748922698091636,
+      "eval_accuracy": 0.9146425921345536,
+      "eval_combined_score": 0.9009379349588887,
+      "eval_f1": 0.8872332777832239,
+      "eval_loss": 0.22267895936965942,
+      "eval_runtime": 87.0469,
+      "eval_samples_per_second": 464.462,
+      "eval_steps_per_second": 0.908,
+      "step": 54000
+    },
+    {
+      "epoch": 4.83686571101926,
+      "grad_norm": 0.657599687576294,
+      "learning_rate": 0.00015982333426083677,
+      "loss": 0.1866,
+      "step": 55000
+    },
+    {
+      "epoch": 4.83686571101926,
+      "eval_accuracy": 0.9149394014345783,
+      "eval_combined_score": 0.901197815388232,
+      "eval_f1": 0.8874562293418856,
+      "eval_loss": 0.21784672141075134,
+      "eval_runtime": 87.5052,
+      "eval_samples_per_second": 462.03,
+      "eval_steps_per_second": 0.903,
+      "step": 55000
+    },
+    {
+      "epoch": 4.9248087239468825,
+      "grad_norm": 1.3747438192367554,
+      "learning_rate": 0.00015564767765618756,
+      "loss": 0.1849,
+      "step": 56000
+    },
+    {
+      "epoch": 4.9248087239468825,
+      "eval_accuracy": 0.9138016324511501,
+      "eval_combined_score": 0.8987884266974777,
+      "eval_f1": 0.8837752209438052,
+      "eval_loss": 0.21690765023231506,
+      "eval_runtime": 55.9393,
+      "eval_samples_per_second": 722.747,
+      "eval_steps_per_second": 1.412,
+      "step": 56000
+    },
+    {
+      "epoch": 5.012751736874505,
+      "grad_norm": 0.8309698104858398,
+      "learning_rate": 0.0001514676327779928,
+      "loss": 0.1786,
+      "step": 57000
+    },
+    {
+      "epoch": 5.012751736874505,
+      "eval_accuracy": 0.9144941874845411,
+      "eval_combined_score": 0.9010631184456672,
+      "eval_f1": 0.8876320494067934,
+      "eval_loss": 0.2155766487121582,
+      "eval_runtime": 55.5419,
+      "eval_samples_per_second": 727.919,
+      "eval_steps_per_second": 1.422,
+      "step": 57000
+    },
+    {
+      "epoch": 5.100694749802129,
+      "grad_norm": 1.6811013221740723,
+      "learning_rate": 0.00014728644754185164,
+      "loss": 0.1717,
+      "step": 58000
+    },
+    {
+      "epoch": 5.100694749802129,
+      "eval_accuracy": 0.9157061587929756,
+      "eval_combined_score": 0.9017413828738323,
+      "eval_f1": 0.8877766069546892,
+      "eval_loss": 0.2196960747241974,
+      "eval_runtime": 55.5821,
+      "eval_samples_per_second": 727.392,
+      "eval_steps_per_second": 1.421,
+      "step": 58000
+    },
+    {
+      "epoch": 5.188637762729751,
+      "grad_norm": 1.4050065279006958,
+      "learning_rate": 0.00014310737074942683,
+      "loss": 0.1724,
+      "step": 59000
+    },
+    {
+      "epoch": 5.188637762729751,
+      "eval_accuracy": 0.9139253029928271,
+      "eval_combined_score": 0.9006920351067881,
+      "eval_f1": 0.887458767220749,
+      "eval_loss": 0.23073293268680573,
+      "eval_runtime": 59.0316,
+      "eval_samples_per_second": 684.887,
+      "eval_steps_per_second": 1.338,
+      "step": 59000
+    },
+    {
+      "epoch": 5.276580775657374,
+      "grad_norm": 0.8422167301177979,
+      "learning_rate": 0.00013893364956411012,
+      "loss": 0.1669,
+      "step": 60000
+    },
+    {
+      "epoch": 5.276580775657374,
+      "eval_accuracy": 0.9110808805342567,
+      "eval_combined_score": 0.8985330507139901,
+      "eval_f1": 0.8859852208937237,
+      "eval_loss": 0.23831692337989807,
+      "eval_runtime": 87.0945,
+      "eval_samples_per_second": 464.208,
+      "eval_steps_per_second": 0.907,
+      "step": 60000
+    },
+    {
+      "epoch": 5.364523788584997,
+      "grad_norm": 1.245219111442566,
+      "learning_rate": 0.0001347685269879597,
+      "loss": 0.1765,
+      "step": 61000
+    },
+    {
+      "epoch": 5.364523788584997,
+      "eval_accuracy": 0.9122186495176848,
+      "eval_combined_score": 0.89931260229301,
+      "eval_f1": 0.8864065550683353,
+      "eval_loss": 0.2277195006608963,
+      "eval_runtime": 86.9443,
+      "eval_samples_per_second": 465.01,
+      "eval_steps_per_second": 0.909,
+      "step": 61000
+    },
+    {
+      "epoch": 5.45246680151262,
+      "grad_norm": 0.5509847402572632,
+      "learning_rate": 0.00013061523934187208,
+      "loss": 0.174,
+      "step": 62000
+    },
+    {
+      "epoch": 5.45246680151262,
+      "eval_accuracy": 0.9133316843927777,
+      "eval_combined_score": 0.8998822809077391,
+      "eval_f1": 0.8864328774227005,
+      "eval_loss": 0.22177070379257202,
+      "eval_runtime": 87.0562,
+      "eval_samples_per_second": 464.413,
+      "eval_steps_per_second": 0.907,
+      "step": 62000
+    },
+    {
+      "epoch": 5.540409814440243,
+      "grad_norm": 0.7231882810592651,
+      "learning_rate": 0.0001264770137509442,
+      "loss": 0.1693,
+      "step": 63000
+    },
+    {
+      "epoch": 5.540409814440243,
+      "eval_accuracy": 0.9148899332179075,
+      "eval_combined_score": 0.9007357804129683,
+      "eval_f1": 0.8865816276080293,
+      "eval_loss": 0.21918977797031403,
+      "eval_runtime": 55.6828,
+      "eval_samples_per_second": 726.076,
+      "eval_steps_per_second": 1.419,
+      "step": 63000
+    },
+    {
+      "epoch": 5.628352827367865,
+      "grad_norm": 2.424527883529663,
+      "learning_rate": 0.00012235706563698158,
+      "loss": 0.1705,
+      "step": 64000
+    },
+    {
+      "epoch": 5.628352827367865,
+      "eval_accuracy": 0.9151867425179322,
+      "eval_combined_score": 0.9015731131312092,
+      "eval_f1": 0.8879594837444862,
+      "eval_loss": 0.22360049188137054,
+      "eval_runtime": 55.7753,
+      "eval_samples_per_second": 724.873,
+      "eval_steps_per_second": 1.416,
+      "step": 64000
+    },
+    {
+      "epoch": 5.716295840295489,
+      "grad_norm": 1.5083374977111816,
+      "learning_rate": 0.00011825859622009953,
+      "loss": 0.1744,
+      "step": 65000
+    },
+    {
+      "epoch": 5.716295840295489,
+      "eval_accuracy": 0.91535988127628,
+      "eval_combined_score": 0.901267148023567,
+      "eval_f1": 0.8871744147708539,
+      "eval_loss": 0.22406791150569916,
+      "eval_runtime": 55.5444,
+      "eval_samples_per_second": 727.886,
+      "eval_steps_per_second": 1.422,
+      "step": 65000
+    },
+    {
+      "epoch": 5.8042388532231115,
+      "grad_norm": 1.0378375053405762,
+      "learning_rate": 0.00011418479003135898,
+      "loss": 0.1684,
+      "step": 66000
+    },
+    {
+      "epoch": 5.8042388532231115,
+      "eval_accuracy": 0.9145931239178827,
+      "eval_combined_score": 0.9014245837058104,
+      "eval_f1": 0.8882560434937381,
+      "eval_loss": 0.2192625105381012,
+      "eval_runtime": 55.9265,
+      "eval_samples_per_second": 722.913,
+      "eval_steps_per_second": 1.413,
+      "step": 66000
+    },
+    {
+      "epoch": 5.892181866150734,
+      "grad_norm": 0.6121230125427246,
+      "learning_rate": 0.00011013881243837068,
+      "loss": 0.1712,
+      "step": 67000
+    },
+    {
+      "epoch": 5.892181866150734,
+      "eval_accuracy": 0.9155577541429631,
+      "eval_combined_score": 0.9020273583569999,
+      "eval_f1": 0.8884969625710366,
+      "eval_loss": 0.21181334555149078,
+      "eval_runtime": 86.9155,
+      "eval_samples_per_second": 465.164,
+      "eval_steps_per_second": 0.909,
+      "step": 67000
+    },
+    {
+      "epoch": 5.980124879078357,
+      "grad_norm": 1.4167020320892334,
+      "learning_rate": 0.00010612380718578806,
+      "loss": 0.1724,
+      "step": 68000
+    },
+    {
+      "epoch": 5.980124879078357,
+      "eval_accuracy": 0.9161019045263418,
+      "eval_combined_score": 0.9022137230539788,
+      "eval_f1": 0.8883255415816158,
+      "eval_loss": 0.22262895107269287,
+      "eval_runtime": 87.1789,
+      "eval_samples_per_second": 463.759,
+      "eval_steps_per_second": 0.906,
+      "step": 68000
+    },
+    {
+      "epoch": 6.06806789200598,
+      "grad_norm": 0.5954177379608154,
+      "learning_rate": 0.00010214289395260275,
+      "loss": 0.1618,
+      "step": 69000
+    },
+    {
+      "epoch": 6.06806789200598,
+      "eval_accuracy": 0.9145683898095474,
+      "eval_combined_score": 0.9011945554114317,
+      "eval_f1": 0.887820721013316,
+      "eval_loss": 0.2276068925857544,
+      "eval_runtime": 92.9201,
+      "eval_samples_per_second": 435.105,
+      "eval_steps_per_second": 0.85,
+      "step": 69000
+    },
+    {
+      "epoch": 6.156010904933603,
+      "grad_norm": 0.9870212078094482,
+      "learning_rate": 9.819916592813812e-05,
+      "loss": 0.1609,
+      "step": 70000
+    },
+    {
+      "epoch": 6.156010904933603,
+      "eval_accuracy": 0.9152856789512738,
+      "eval_combined_score": 0.9020295507411842,
+      "eval_f1": 0.8887734225310947,
+      "eval_loss": 0.2195996344089508,
+      "eval_runtime": 55.6543,
+      "eval_samples_per_second": 726.449,
+      "eval_steps_per_second": 1.419,
+      "step": 70000
+    },
+    {
+      "epoch": 6.2439539178612256,
+      "grad_norm": 1.3545230627059937,
+      "learning_rate": 9.429568740862609e-05,
+      "loss": 0.1602,
+      "step": 71000
+    },
+    {
+      "epoch": 6.2439539178612256,
+      "eval_accuracy": 0.9127380657927282,
+      "eval_combined_score": 0.900172792055332,
+      "eval_f1": 0.8876075183179356,
+      "eval_loss": 0.23225632309913635,
+      "eval_runtime": 55.2108,
+      "eval_samples_per_second": 732.285,
+      "eval_steps_per_second": 1.431,
+      "step": 71000
+    },
+    {
+      "epoch": 6.331896930788849,
+      "grad_norm": 0.6814817190170288,
+      "learning_rate": 9.043549141623341e-05,
+      "loss": 0.1535,
+      "step": 72000
+    },
+    {
+      "epoch": 6.331896930788849,
+      "eval_accuracy": 0.9164481820430374,
+      "eval_combined_score": 0.9029123278567296,
+      "eval_f1": 0.8893764736704218,
+      "eval_loss": 0.2333795428276062,
+      "eval_runtime": 55.2621,
+      "eval_samples_per_second": 731.604,
+      "eval_steps_per_second": 1.43,
+      "step": 72000
+    },
+    {
+      "epoch": 6.419839943716472,
+      "grad_norm": 1.3187615871429443,
+      "learning_rate": 8.662157734238882e-05,
+      "loss": 0.1646,
+      "step": 73000
+    },
+    {
+      "epoch": 6.419839943716472,
+      "eval_accuracy": 0.9153846153846154,
+      "eval_combined_score": 0.9020861830539669,
+      "eval_f1": 0.8887877507233185,
+      "eval_loss": 0.22094346582889557,
+      "eval_runtime": 55.8826,
+      "eval_samples_per_second": 723.482,
+      "eval_steps_per_second": 1.414,
+      "step": 73000
+    },
+    {
+      "epoch": 6.507782956644094,
+      "grad_norm": 1.0354348421096802,
+      "learning_rate": 8.285690861724085e-05,
+      "loss": 0.1644,
+      "step": 74000
+    },
+    {
+      "epoch": 6.507782956644094,
+      "eval_accuracy": 0.9130101409844175,
+      "eval_combined_score": 0.9001699751854652,
+      "eval_f1": 0.8873298093865128,
+      "eval_loss": 0.22492603957653046,
+      "eval_runtime": 87.294,
+      "eval_samples_per_second": 463.147,
+      "eval_steps_per_second": 0.905,
+      "step": 74000
+    },
+    {
+      "epoch": 6.595725969571718,
+      "grad_norm": 1.4580389261245728,
+      "learning_rate": 7.914441040705777e-05,
+      "loss": 0.1638,
+      "step": 75000
+    },
+    {
+      "epoch": 6.595725969571718,
+      "eval_accuracy": 0.9161513727430126,
+      "eval_combined_score": 0.9026364242533667,
+      "eval_f1": 0.8891214757637208,
+      "eval_loss": 0.22241519391536713,
+      "eval_runtime": 87.259,
+      "eval_samples_per_second": 463.333,
+      "eval_steps_per_second": 0.905,
+      "step": 75000
+    },
+    {
+      "epoch": 6.6836689824993405,
+      "grad_norm": 0.8584627509117126,
+      "learning_rate": 7.5486967341359e-05,
+      "loss": 0.1609,
+      "step": 76000
+    },
+    {
+      "epoch": 6.6836689824993405,
+      "eval_accuracy": 0.9152114766262677,
+      "eval_combined_score": 0.9017350818166217,
+      "eval_f1": 0.8882586870069756,
+      "eval_loss": 0.21768353879451752,
+      "eval_runtime": 87.0299,
+      "eval_samples_per_second": 464.553,
+      "eval_steps_per_second": 0.908,
+      "step": 76000
+    },
+    {
+      "epoch": 6.771611995426963,
+      "grad_norm": 2.1091301441192627,
+      "learning_rate": 7.188742127154373e-05,
+      "loss": 0.1688,
+      "step": 77000
+    },
+    {
+      "epoch": 6.771611995426963,
+      "eval_accuracy": 0.9150878060845906,
+      "eval_combined_score": 0.9021246669334263,
+      "eval_f1": 0.889161527782262,
+      "eval_loss": 0.21927987039089203,
+      "eval_runtime": 55.2963,
+      "eval_samples_per_second": 731.153,
+      "eval_steps_per_second": 1.429,
+      "step": 77000
+    },
+    {
+      "epoch": 6.859555008354587,
+      "grad_norm": 1.2470057010650635,
+      "learning_rate": 6.834856906275834e-05,
+      "loss": 0.1675,
+      "step": 78000
+    },
+    {
+      "epoch": 6.859555008354587,
+      "eval_accuracy": 0.914419985159535,
+      "eval_combined_score": 0.902044176253237,
+      "eval_f1": 0.8896683673469388,
+      "eval_loss": 0.22205699980258942,
+      "eval_runtime": 55.5761,
+      "eval_samples_per_second": 727.471,
+      "eval_steps_per_second": 1.421,
+      "step": 78000
+    },
+    {
+      "epoch": 6.947498021282209,
+      "grad_norm": 1.7795581817626953,
+      "learning_rate": 6.487316042071804e-05,
+      "loss": 0.1645,
+      "step": 79000
+    },
+    {
+      "epoch": 6.947498021282209,
+      "eval_accuracy": 0.9150383378679199,
+      "eval_combined_score": 0.9001869928148558,
+      "eval_f1": 0.8853356477617919,
+      "eval_loss": 0.2218712568283081,
+      "eval_runtime": 55.3681,
+      "eval_samples_per_second": 730.203,
+      "eval_steps_per_second": 1.427,
+      "step": 79000
+    },
+    {
+      "epoch": 7.035441034209832,
+      "grad_norm": 1.0313372611999512,
+      "learning_rate": 6.146389575517211e-05,
+      "loss": 0.1578,
+      "step": 80000
+    },
+    {
+      "epoch": 7.035441034209832,
+      "eval_accuracy": 0.9153104130596093,
+      "eval_combined_score": 0.9019514257007554,
+      "eval_f1": 0.8885924383419015,
+      "eval_loss": 0.22430460155010223,
+      "eval_runtime": 60.6209,
+      "eval_samples_per_second": 666.932,
+      "eval_steps_per_second": 1.303,
+      "step": 80000
+    },
+    {
+      "epoch": 7.1233840471374545,
+      "grad_norm": 1.0180041790008545,
+      "learning_rate": 5.81234240816722e-05,
+      "loss": 0.1584,
+      "step": 81000
+    },
+    {
+      "epoch": 7.1233840471374545,
+      "eval_accuracy": 0.9158545634429879,
+      "eval_combined_score": 0.9025670005264148,
+      "eval_f1": 0.8892794376098418,
+      "eval_loss": 0.2226150631904602,
+      "eval_runtime": 87.3967,
+      "eval_samples_per_second": 462.604,
+      "eval_steps_per_second": 0.904,
+      "step": 81000
+    },
+    {
+      "epoch": 7.211327060065078,
+      "grad_norm": 0.9006807804107666,
+      "learning_rate": 5.485434096327387e-05,
+      "loss": 0.1522,
+      "step": 82000
+    },
+    {
+      "epoch": 7.211327060065078,
+      "eval_accuracy": 0.9151867425179322,
+      "eval_combined_score": 0.9020881752344914,
+      "eval_f1": 0.8889896079510505,
+      "eval_loss": 0.22395850718021393,
+      "eval_runtime": 87.4178,
+      "eval_samples_per_second": 462.492,
+      "eval_steps_per_second": 0.904,
+      "step": 82000
+    },
+    {
+      "epoch": 7.299270072992701,
+      "grad_norm": 1.0538363456726074,
+      "learning_rate": 5.165918649377139e-05,
+      "loss": 0.1527,
+      "step": 83000
+    },
+    {
+      "epoch": 7.299270072992701,
+      "eval_accuracy": 0.9146920603512243,
+      "eval_combined_score": 0.901625328375877,
+      "eval_f1": 0.8885585964005299,
+      "eval_loss": 0.22327056527137756,
+      "eval_runtime": 87.1691,
+      "eval_samples_per_second": 463.811,
+      "eval_steps_per_second": 0.906,
+      "step": 83000
+    },
+    {
+      "epoch": 7.387213085920323,
+      "grad_norm": 1.3840506076812744,
+      "learning_rate": 4.854044332403218e-05,
+      "loss": 0.1507,
+      "step": 84000
+    },
+    {
+      "epoch": 7.387213085920323,
+      "eval_accuracy": 0.9158792975513232,
+      "eval_combined_score": 0.9028520204106352,
+      "eval_f1": 0.8898247432699472,
+      "eval_loss": 0.22502297163009644,
+      "eval_runtime": 55.4268,
+      "eval_samples_per_second": 729.43,
+      "eval_steps_per_second": 1.425,
+      "step": 84000
+    },
+    {
+      "epoch": 7.475156098847947,
+      "grad_norm": 1.4362976551055908,
+      "learning_rate": 4.550053473296499e-05,
+      "loss": 0.1549,
+      "step": 85000
+    },
+    {
+      "epoch": 7.475156098847947,
+      "eval_accuracy": 0.916052436309671,
+      "eval_combined_score": 0.9026338692842257,
+      "eval_f1": 0.8892153022587805,
+      "eval_loss": 0.2227443903684616,
+      "eval_runtime": 55.1943,
+      "eval_samples_per_second": 732.504,
+      "eval_steps_per_second": 1.431,
+      "step": 85000
+    },
+    {
+      "epoch": 7.5630991117755695,
+      "grad_norm": 0.39123019576072693,
+      "learning_rate": 4.254182274461983e-05,
+      "loss": 0.1565,
+      "step": 86000
+    },
+    {
+      "epoch": 7.5630991117755695,
+      "eval_accuracy": 0.916052436309671,
+      "eval_combined_score": 0.9031177861351629,
+      "eval_f1": 0.8901831359606549,
+      "eval_loss": 0.22492727637290955,
+      "eval_runtime": 55.3134,
+      "eval_samples_per_second": 730.926,
+      "eval_steps_per_second": 1.428,
+      "step": 86000
+    },
+    {
+      "epoch": 7.651042124703192,
+      "grad_norm": 1.4433910846710205,
+      "learning_rate": 3.966660629288376e-05,
+      "loss": 0.1579,
+      "step": 87000
+    },
+    {
+      "epoch": 7.651042124703192,
+      "eval_accuracy": 0.9166707890180559,
+      "eval_combined_score": 0.9037908230619536,
+      "eval_f1": 0.8909108571058512,
+      "eval_loss": 0.2216387242078781,
+      "eval_runtime": 55.8191,
+      "eval_samples_per_second": 724.304,
+      "eval_steps_per_second": 1.415,
+      "step": 87000
+    },
+    {
+      "epoch": 7.738985137630815,
+      "grad_norm": 2.134287118911743,
+      "learning_rate": 3.687711943519798e-05,
+      "loss": 0.1558,
+      "step": 88000
+    },
+    {
+      "epoch": 7.738985137630815,
+      "eval_accuracy": 0.9162008409596833,
+      "eval_combined_score": 0.9030432181917502,
+      "eval_f1": 0.889885595423817,
+      "eval_loss": 0.22495825588703156,
+      "eval_runtime": 87.1663,
+      "eval_samples_per_second": 463.826,
+      "eval_steps_per_second": 0.906,
+      "step": 88000
+    },
+    {
+      "epoch": 7.826928150558438,
+      "grad_norm": 0.8385611772537231,
+      "learning_rate": 3.4175529616683805e-05,
+      "loss": 0.1571,
+      "step": 89000
+    },
+    {
+      "epoch": 7.826928150558438,
+      "eval_accuracy": 0.9150136037595845,
+      "eval_combined_score": 0.9018612748991612,
+      "eval_f1": 0.8887089460387381,
+      "eval_loss": 0.2220984548330307,
+      "eval_runtime": 87.3283,
+      "eval_samples_per_second": 462.965,
+      "eval_steps_per_second": 0.905,
+      "step": 89000
+    },
+    {
+      "epoch": 7.914871163486061,
+      "grad_norm": 1.0239052772521973,
+      "learning_rate": 3.156393598602742e-05,
+      "loss": 0.1581,
+      "step": 90000
+    },
+    {
+      "epoch": 7.914871163486061,
+      "eval_accuracy": 0.9166707890180559,
+      "eval_combined_score": 0.9029806575631504,
+      "eval_f1": 0.8892905261082449,
+      "eval_loss": 0.21750399470329285,
+      "eval_runtime": 87.1287,
+      "eval_samples_per_second": 464.026,
+      "eval_steps_per_second": 0.907,
+      "step": 90000
+    },
+    {
+      "epoch": 8.002814176413684,
+      "grad_norm": 0.38908326625823975,
+      "learning_rate": 2.9044367764430513e-05,
+      "loss": 0.1531,
+      "step": 91000
+    },
+    {
+      "epoch": 8.002814176413684,
+      "eval_accuracy": 0.9162750432846896,
+      "eval_combined_score": 0.9024576848163421,
+      "eval_f1": 0.8886403263479948,
+      "eval_loss": 0.22433432936668396,
+      "eval_runtime": 60.0446,
+      "eval_samples_per_second": 673.333,
+      "eval_steps_per_second": 1.316,
+      "step": 91000
+    },
+    {
+      "epoch": 8.090757189341307,
+      "grad_norm": 1.5134445428848267,
+      "learning_rate": 2.661878266889586e-05,
+      "loss": 0.1484,
+      "step": 92000
+    },
+    {
+      "epoch": 8.090757189341307,
+      "eval_accuracy": 0.9166460549097205,
+      "eval_combined_score": 0.9034298817681259,
+      "eval_f1": 0.8902137086265312,
+      "eval_loss": 0.22620514035224915,
+      "eval_runtime": 55.5114,
+      "eval_samples_per_second": 728.318,
+      "eval_steps_per_second": 1.423,
+      "step": 92000
+    },
+    {
+      "epoch": 8.17870020226893,
+      "grad_norm": 1.3153518438339233,
+      "learning_rate": 2.428906539107102e-05,
+      "loss": 0.1496,
+      "step": 93000
+    },
+    {
+      "epoch": 8.17870020226893,
+      "eval_accuracy": 0.9165965866930497,
+      "eval_combined_score": 0.9037845840863076,
+      "eval_f1": 0.8909725814795655,
+      "eval_loss": 0.22277146577835083,
+      "eval_runtime": 55.2882,
+      "eval_samples_per_second": 731.259,
+      "eval_steps_per_second": 1.429,
+      "step": 93000
+    },
+    {
+      "epoch": 8.266643215196552,
+      "grad_norm": 1.276479721069336,
+      "learning_rate": 2.2057026132833862e-05,
+      "loss": 0.1506,
+      "step": 94000
+    },
+    {
+      "epoch": 8.266643215196552,
+      "eval_accuracy": 0.9170912688597576,
+      "eval_combined_score": 0.9035767921865203,
+      "eval_f1": 0.8900623155132831,
+      "eval_loss": 0.22255383431911469,
+      "eval_runtime": 55.8223,
+      "eval_samples_per_second": 724.263,
+      "eval_steps_per_second": 1.415,
+      "step": 94000
+    },
+    {
+      "epoch": 8.354586228124175,
+      "grad_norm": 1.188973307609558,
+      "learning_rate": 1.992439919975663e-05,
+      "loss": 0.1493,
+      "step": 95000
+    },
+    {
+      "epoch": 8.354586228124175,
+      "eval_accuracy": 0.9159040316596587,
+      "eval_combined_score": 0.9031239180423043,
+      "eval_f1": 0.89034380442495,
+      "eval_loss": 0.2243431955575943,
+      "eval_runtime": 87.1287,
+      "eval_samples_per_second": 464.026,
+      "eval_steps_per_second": 0.907,
+      "step": 95000
+    },
+    {
+      "epoch": 8.442529241051798,
+      "grad_norm": 1.3669207096099854,
+      "learning_rate": 1.7892841653541984e-05,
+      "loss": 0.1447,
+      "step": 96000
+    },
+    {
+      "epoch": 8.442529241051798,
+      "eval_accuracy": 0.9167202572347267,
+      "eval_combined_score": 0.903349181978145,
+      "eval_f1": 0.8899781067215633,
+      "eval_loss": 0.2281969040632248,
+      "eval_runtime": 87.3222,
+      "eval_samples_per_second": 462.998,
+      "eval_steps_per_second": 0.905,
+      "step": 96000
+    },
+    {
+      "epoch": 8.530472253979422,
+      "grad_norm": 0.6875282526016235,
+      "learning_rate": 1.596393202447782e-05,
+      "loss": 0.1508,
+      "step": 97000
+    },
+    {
+      "epoch": 8.530472253979422,
+      "eval_accuracy": 0.9163492456096958,
+      "eval_combined_score": 0.9029312382899835,
+      "eval_f1": 0.8895132309702711,
+      "eval_loss": 0.22148585319519043,
+      "eval_runtime": 87.0802,
+      "eval_samples_per_second": 464.285,
+      "eval_steps_per_second": 0.907,
+      "step": 97000
+    },
+    {
+      "epoch": 8.618415266907045,
+      "grad_norm": 0.5993226170539856,
+      "learning_rate": 1.4139169084911189e-05,
+      "loss": 0.1479,
+      "step": 98000
+    },
+    {
+      "epoch": 8.618415266907045,
+      "eval_accuracy": 0.9169675983180806,
+      "eval_combined_score": 0.9035788238556481,
+      "eval_f1": 0.8901900493932158,
+      "eval_loss": 0.2228359580039978,
+      "eval_runtime": 55.3123,
+      "eval_samples_per_second": 730.94,
+      "eval_steps_per_second": 1.428,
+      "step": 98000
+    },
+    {
+      "epoch": 8.706358279834667,
+      "grad_norm": 1.0595625638961792,
+      "learning_rate": 1.2419970684695196e-05,
+      "loss": 0.1548,
+      "step": 99000
+    },
+    {
+      "epoch": 8.706358279834667,
+      "eval_accuracy": 0.916423447934702,
+      "eval_combined_score": 0.9032096078752847,
+      "eval_f1": 0.8899957678158674,
+      "eval_loss": 0.2201036661863327,
+      "eval_runtime": 55.2492,
+      "eval_samples_per_second": 731.775,
+      "eval_steps_per_second": 1.43,
+      "step": 99000
+    },
+    {
+      "epoch": 8.79430129276229,
+      "grad_norm": 1.308894395828247,
+      "learning_rate": 1.0807672649512177e-05,
+      "loss": 0.1488,
+      "step": 100000
+    },
+    {
+      "epoch": 8.79430129276229,
+      "eval_accuracy": 0.9162255750680188,
+      "eval_combined_score": 0.9028761522882415,
+      "eval_f1": 0.8895267295084641,
+      "eval_loss": 0.2235955446958542,
+      "eval_runtime": 55.191,
+      "eval_samples_per_second": 732.547,
+      "eval_steps_per_second": 1.431,
+      "step": 100000
+    },
+    {
+      "epoch": 8.882244305689913,
+      "grad_norm": 0.6770079731941223,
+      "learning_rate": 9.3035277429309e-06,
+      "loss": 0.1478,
+      "step": 101000
+    },
+    {
+      "epoch": 8.882244305689913,
+      "eval_accuracy": 0.9167202572347267,
+      "eval_combined_score": 0.903277185189035,
+      "eval_f1": 0.8898341131433433,
+      "eval_loss": 0.22350822389125824,
+      "eval_runtime": 60.3308,
+      "eval_samples_per_second": 670.138,
+      "eval_steps_per_second": 1.309,
+      "step": 101000
+    },
+    {
+      "epoch": 8.970187318617535,
+      "grad_norm": 0.7858123779296875,
+      "learning_rate": 7.908704693002666e-06,
+      "loss": 0.1444,
+      "step": 102000
+    },
+    {
+      "epoch": 8.970187318617535,
+      "eval_accuracy": 0.9165471184763789,
+      "eval_combined_score": 0.9034474298914231,
+      "eval_f1": 0.8903477413064673,
+      "eval_loss": 0.2248321771621704,
+      "eval_runtime": 87.05,
+      "eval_samples_per_second": 464.446,
+      "eval_steps_per_second": 0.908,
+      "step": 102000
+    },
+    {
+      "epoch": 9.05813033154516,
+      "grad_norm": 1.6393145322799683,
+      "learning_rate": 6.624287284154212e-06,
+      "loss": 0.1528,
+      "step": 103000
+    },
+    {
+      "epoch": 9.05813033154516,
+      "eval_accuracy": 0.9163245115013604,
+      "eval_combined_score": 0.9029548403650606,
+      "eval_f1": 0.8895851692287607,
+      "eval_loss": 0.22281712293624878,
+      "eval_runtime": 87.2239,
+      "eval_samples_per_second": 463.52,
+      "eval_steps_per_second": 0.906,
+      "step": 103000
+    },
+    {
+      "epoch": 9.146073344472782,
+      "grad_norm": 1.7177001237869263,
+      "learning_rate": 5.451273515081639e-06,
+      "loss": 0.1472,
+      "step": 104000
+    },
+    {
+      "epoch": 9.146073344472782,
+      "eval_accuracy": 0.916423447934702,
+      "eval_combined_score": 0.903327534642074,
+      "eval_f1": 0.8902316213494461,
+      "eval_loss": 0.2237127125263214,
+      "eval_runtime": 87.0582,
+      "eval_samples_per_second": 464.402,
+      "eval_steps_per_second": 0.907,
+      "step": 104000
+    },
+    {
+      "epoch": 9.234016357400405,
+      "grad_norm": 0.5357476472854614,
+      "learning_rate": 4.3905748233003915e-06,
+      "loss": 0.1462,
+      "step": 105000
+    },
+    {
+      "epoch": 9.234016357400405,
+      "eval_accuracy": 0.9163987138263665,
+      "eval_combined_score": 0.90299224858965,
+      "eval_f1": 0.8895857833529335,
+      "eval_loss": 0.22355595231056213,
+      "eval_runtime": 55.747,
+      "eval_samples_per_second": 725.241,
+      "eval_steps_per_second": 1.417,
+      "step": 105000
+    },
+    {
+      "epoch": 9.321959370328027,
+      "grad_norm": 2.119542121887207,
+      "learning_rate": 3.4430153769539838e-06,
+      "loss": 0.1467,
+      "step": 106000
+    },
+    {
+      "epoch": 9.321959370328027,
+      "eval_accuracy": 0.9161513727430126,
+      "eval_combined_score": 0.9029967236107342,
+      "eval_f1": 0.8898420744784559,
+      "eval_loss": 0.22608432173728943,
+      "eval_runtime": 55.7404,
+      "eval_samples_per_second": 725.327,
+      "eval_steps_per_second": 1.417,
+      "step": 106000
+    },
+    {
+      "epoch": 9.40990238325565,
+      "grad_norm": 1.2164239883422852,
+      "learning_rate": 2.609331434431139e-06,
+      "loss": 0.1491,
+      "step": 107000
+    },
+    {
+      "epoch": 9.40990238325565,
+      "eval_accuracy": 0.9165471184763789,
+      "eval_combined_score": 0.9033724918078327,
+      "eval_f1": 0.8901978651392867,
+      "eval_loss": 0.2239413857460022,
+      "eval_runtime": 55.5045,
+      "eval_samples_per_second": 728.41,
+      "eval_steps_per_second": 1.423,
+      "step": 107000
+    },
+    {
+      "epoch": 9.497845396183273,
+      "grad_norm": 0.8952678442001343,
+      "learning_rate": 1.890170772289401e-06,
+      "loss": 0.1471,
+      "step": 108000
+    },
+    {
+      "epoch": 9.497845396183273,
+      "eval_accuracy": 0.9166707890180559,
+      "eval_combined_score": 0.9034531738072393,
+      "eval_f1": 0.8902355585964227,
+      "eval_loss": 0.2244831621646881,
+      "eval_runtime": 55.9049,
+      "eval_samples_per_second": 723.192,
+      "eval_steps_per_second": 1.413,
+      "step": 108000
+    },
+    {
+      "epoch": 9.585788409110895,
+      "grad_norm": 1.3746293783187866,
+      "learning_rate": 1.286092181929571e-06,
+      "loss": 0.1477,
+      "step": 109000
+    },
+    {
+      "epoch": 9.585788409110895,
+      "eval_accuracy": 0.916423447934702,
+      "eval_combined_score": 0.9031737723759903,
+      "eval_f1": 0.8899240968172786,
+      "eval_loss": 0.22419258952140808,
+      "eval_runtime": 86.669,
+      "eval_samples_per_second": 466.487,
+      "eval_steps_per_second": 0.912,
+      "step": 109000
+    },
+    {
+      "epoch": 9.67373142203852,
+      "grad_norm": 2.9468863010406494,
+      "learning_rate": 7.975650354119345e-07,
+      "loss": 0.1398,
+      "step": 110000
+    },
+    {
+      "epoch": 9.67373142203852,
+      "eval_accuracy": 0.9164481820430374,
+      "eval_combined_score": 0.9031072655418163,
+      "eval_f1": 0.8897663490405953,
+      "eval_loss": 0.22482836246490479,
+      "eval_runtime": 86.9147,
+      "eval_samples_per_second": 465.169,
+      "eval_steps_per_second": 0.909,
+      "step": 110000
+    },
+    {
+      "epoch": 9.761674434966142,
+      "grad_norm": 0.9196714162826538,
+      "learning_rate": 4.249689207519447e-07,
+      "loss": 0.1484,
+      "step": 111000
+    },
+    {
+      "epoch": 9.761674434966142,
+      "eval_accuracy": 0.9164481820430374,
+      "eval_combined_score": 0.9031898779227894,
+      "eval_f1": 0.8899315738025415,
+      "eval_loss": 0.22509995102882385,
+      "eval_runtime": 87.3187,
+      "eval_samples_per_second": 463.016,
+      "eval_steps_per_second": 0.905,
+      "step": 111000
+    },
+    {
+      "epoch": 9.849617447893765,
+      "grad_norm": 0.945548415184021,
+      "learning_rate": 1.6859334697840177e-07,
+      "loss": 0.15,
+      "step": 112000
+    },
+    {
+      "epoch": 9.849617447893765,
+      "eval_accuracy": 0.9164729161513727,
+      "eval_combined_score": 0.9032597381199673,
+      "eval_f1": 0.8900465600885619,
+      "eval_loss": 0.2251836657524109,
+      "eval_runtime": 56.0654,
+      "eval_samples_per_second": 721.122,
+      "eval_steps_per_second": 1.409,
+      "step": 112000
+    },
+    {
+      "epoch": 9.937560460821388,
+      "grad_norm": 0.8757835030555725,
+      "learning_rate": 2.863751918346091e-08,
+      "loss": 0.1434,
+      "step": 113000
+    },
+    {
+      "epoch": 9.937560460821388,
+      "eval_accuracy": 0.9164976502597081,
+      "eval_combined_score": 0.9032901743517072,
+      "eval_f1": 0.8900826984437065,
+      "eval_loss": 0.22522608935832977,
+      "eval_runtime": 59.9448,
+      "eval_samples_per_second": 674.454,
+      "eval_steps_per_second": 1.318,
+      "step": 113000
+    },
+    {
+      "epoch": 10.0,
+      "step": 113710,
+      "total_flos": 6.076865681478144e+17,
+      "train_loss": 0.18900428874628303,
+      "train_runtime": 59418.549,
+      "train_samples_per_second": 61.234,
+      "train_steps_per_second": 1.914
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 113710,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.076865681478144e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/QQP.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.9159782339846648,
+    "eval_combined_score": 0.9024553586140425,
+    "eval_f1": 0.88893248324342,
+    "eval_loss": 0.2253103107213974,
+    "eval_runtime": 51.8525,
+    "eval_samples": 40430,
+    "eval_samples_per_second": 779.711,
+    "eval_steps_per_second": 1.524
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.9159782339846648,
+    "eval_combined_score": 0.9024553586140425,
+    "eval_f1": 0.88893248324342,
+    "eval_loss": 0.2253103107213974,
+    "eval_runtime": 51.8525,
+    "eval_samples": 40430,
+    "eval_samples_per_second": 779.711,
+    "eval_steps_per_second": 1.524
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "auto_mapping": {
+    "base_model_class": "DebertaV2ForSequenceClassification",
+    "parent_library": "transformers.models.deberta_v2.modeling_deberta_v2"
+  },
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "boft_block_num": 0,
+  "boft_block_size": 4,
+  "boft_dropout": 0.05,
+  "boft_n_butterfly_factor": 2,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler"
+  ],
+  "peft_type": "BOFT",
+  "peft_version": "0.18.0",
+  "revision": null,
+  "target_modules": [
+    "output.dense",
+    "attention.output.dense",
+    "intermediate.dense",
+    "value_proj",
+    "key_proj",
+    "query_proj"
+  ],
+  "task_type": null
+}

reproduction/glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2077 @@

+{
+  "best_global_step": 105000,
+  "best_metric": 0.9159782339846648,
+  "best_model_checkpoint": "./glue_expBOFT/qqp/dr0.05,mlr3e-04,clr3e-04,ep=10.0t=26d17h54m17,sd44/checkpoint-105000",
+  "epoch": 10.0,
+  "eval_steps": 1000,
+  "global_step": 113710,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0879430129276229,
+      "grad_norm": 2.4402430057525635,
+      "learning_rate": 0.00029969999999999997,
+      "loss": 0.4407,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0879430129276229,
+      "eval_accuracy": 0.8518179569626515,
+      "eval_combined_score": 0.8343454755010415,
+      "eval_f1": 0.8168729940394315,
+      "eval_loss": 0.3301476538181305,
+      "eval_runtime": 87.2157,
+      "eval_samples_per_second": 463.563,
+      "eval_steps_per_second": 0.906,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1758860258552458,
+      "grad_norm": 0.9877966046333313,
+      "learning_rate": 0.00029994184111301736,
+      "loss": 0.3209,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1758860258552458,
+      "eval_accuracy": 0.8608706406134059,
+      "eval_combined_score": 0.8454013067012608,
+      "eval_f1": 0.8299319727891157,
+      "eval_loss": 0.30784711241722107,
+      "eval_runtime": 86.747,
+      "eval_samples_per_second": 466.068,
+      "eval_steps_per_second": 0.911,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2638290387828687,
+      "grad_norm": 0.6972408294677734,
+      "learning_rate": 0.00029976717673021227,
+      "loss": 0.2912,
+      "step": 3000
+    },
+    {
+      "epoch": 0.2638290387828687,
+      "eval_accuracy": 0.881251545881771,
+      "eval_combined_score": 0.8630827293643115,
+      "eval_f1": 0.8449139128468521,
+      "eval_loss": 0.27525821328163147,
+      "eval_runtime": 89.5625,
+      "eval_samples_per_second": 451.417,
+      "eval_steps_per_second": 0.882,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3517720517104916,
+      "grad_norm": 0.9264038801193237,
+      "learning_rate": 0.0002994761425083971,
+      "loss": 0.2889,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3517720517104916,
+      "eval_accuracy": 0.8837496908236459,
+      "eval_combined_score": 0.8615823758204604,
+      "eval_f1": 0.8394150608172748,
+      "eval_loss": 0.2710655629634857,
+      "eval_runtime": 56.4509,
+      "eval_samples_per_second": 716.197,
+      "eval_steps_per_second": 1.399,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4397150646381145,
+      "grad_norm": 1.364985466003418,
+      "learning_rate": 0.0002990689645826054,
+      "loss": 0.2733,
+      "step": 5000
+    },
+    {
+      "epoch": 0.4397150646381145,
+      "eval_accuracy": 0.8894632698491219,
+      "eval_combined_score": 0.8706655405893162,
+      "eval_f1": 0.8518678113295104,
+      "eval_loss": 0.2592947483062744,
+      "eval_runtime": 55.852,
+      "eval_samples_per_second": 723.877,
+      "eval_steps_per_second": 1.414,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5276580775657373,
+      "grad_norm": 1.0107234716415405,
+      "learning_rate": 0.00029854595933210474,
+      "loss": 0.2713,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5276580775657373,
+      "eval_accuracy": 0.8898342814741529,
+      "eval_combined_score": 0.8716219853921581,
+      "eval_f1": 0.8534096893101633,
+      "eval_loss": 0.26888197660446167,
+      "eval_runtime": 55.9812,
+      "eval_samples_per_second": 722.206,
+      "eval_steps_per_second": 1.411,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6156010904933603,
+      "grad_norm": 1.0506044626235962,
+      "learning_rate": 0.0002979075331345683,
+      "loss": 0.2651,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6156010904933603,
+      "eval_accuracy": 0.8876329458323028,
+      "eval_combined_score": 0.8718629742307322,
+      "eval_f1": 0.8560930026291615,
+      "eval_loss": 0.2643047571182251,
+      "eval_runtime": 55.2175,
+      "eval_samples_per_second": 732.195,
+      "eval_steps_per_second": 1.431,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7035441034209832,
+      "grad_norm": 1.359427571296692,
+      "learning_rate": 0.0002971541820503175,
+      "loss": 0.2642,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7035441034209832,
+      "eval_accuracy": 0.8933959930744496,
+      "eval_combined_score": 0.8754111953463548,
+      "eval_f1": 0.85742639761826,
+      "eval_loss": 0.25238949060440063,
+      "eval_runtime": 87.0135,
+      "eval_samples_per_second": 464.641,
+      "eval_steps_per_second": 0.908,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7914871163486061,
+      "grad_norm": 0.7769826650619507,
+      "learning_rate": 0.00029628649143688076,
+      "loss": 0.2584,
+      "step": 9000
+    },
+    {
+      "epoch": 0.7914871163486061,
+      "eval_accuracy": 0.8923324264160277,
+      "eval_combined_score": 0.8774179899539629,
+      "eval_f1": 0.862503553491898,
+      "eval_loss": 0.25590795278549194,
+      "eval_runtime": 87.1955,
+      "eval_samples_per_second": 463.671,
+      "eval_steps_per_second": 0.906,
+      "step": 9000
+    },
+    {
+      "epoch": 0.879430129276229,
+      "grad_norm": 1.009511947631836,
+      "learning_rate": 0.0002953051354941674,
+      "loss": 0.2595,
+      "step": 10000
+    },
+    {
+      "epoch": 0.879430129276229,
+      "eval_accuracy": 0.8916151372743013,
+      "eval_combined_score": 0.8769688103111484,
+      "eval_f1": 0.8623224833479954,
+      "eval_loss": 0.254254013299942,
+      "eval_runtime": 87.0743,
+      "eval_samples_per_second": 464.316,
+      "eval_steps_per_second": 0.907,
+      "step": 10000
+    },
+    {
+      "epoch": 0.967373142203852,
+      "grad_norm": 1.7336089611053467,
+      "learning_rate": 0.0002942108767406115,
+      "loss": 0.2541,
+      "step": 11000
+    },
+    {
+      "epoch": 0.967373142203852,
+      "eval_accuracy": 0.897180311649765,
+      "eval_combined_score": 0.8794474127358303,
+      "eval_f1": 0.8617145138218955,
+      "eval_loss": 0.23982903361320496,
+      "eval_runtime": 56.7413,
+      "eval_samples_per_second": 712.532,
+      "eval_steps_per_second": 1.392,
+      "step": 11000
+    },
+    {
+      "epoch": 1.0553161551314747,
+      "grad_norm": 0.8252896666526794,
+      "learning_rate": 0.00029300456542069104,
+      "loss": 0.2407,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0553161551314747,
+      "eval_accuracy": 0.8977244620331437,
+      "eval_combined_score": 0.881272574604136,
+      "eval_f1": 0.8648206871751283,
+      "eval_loss": 0.24860291182994843,
+      "eval_runtime": 55.8804,
+      "eval_samples_per_second": 723.51,
+      "eval_steps_per_second": 1.414,
+      "step": 12000
+    },
+    {
+      "epoch": 1.1432591680590978,
+      "grad_norm": 1.1061173677444458,
+      "learning_rate": 0.0002916871388442835,
+      "loss": 0.2371,
+      "step": 13000
+    },
+    {
+      "epoch": 1.1432591680590978,
+      "eval_accuracy": 0.8950779124412565,
+      "eval_combined_score": 0.8795756134879955,
+      "eval_f1": 0.8640733145347347,
+      "eval_loss": 0.25066396594047546,
+      "eval_runtime": 56.1438,
+      "eval_samples_per_second": 720.116,
+      "eval_steps_per_second": 1.407,
+      "step": 13000
+    },
+    {
+      "epoch": 1.2312021809867206,
+      "grad_norm": 1.1123906373977661,
+      "learning_rate": 0.00029025962065837193,
+      "loss": 0.2327,
+      "step": 14000
+    },
+    {
+      "epoch": 1.2312021809867206,
+      "eval_accuracy": 0.8974771209497897,
+      "eval_combined_score": 0.8832505205343002,
+      "eval_f1": 0.8690239201188106,
+      "eval_loss": 0.24921134114265442,
+      "eval_runtime": 94.1253,
+      "eval_samples_per_second": 429.534,
+      "eval_steps_per_second": 0.839,
+      "step": 14000
+    },
+    {
+      "epoch": 1.3191451939143435,
+      "grad_norm": 0.6919705271720886,
+      "learning_rate": 0.00028872312005166577,
+      "loss": 0.2305,
+      "step": 15000
+    },
+    {
+      "epoch": 1.3191451939143435,
+      "eval_accuracy": 0.8989116992332427,
+      "eval_combined_score": 0.8814094975137943,
+      "eval_f1": 0.8639072957943459,
+      "eval_loss": 0.2356240302324295,
+      "eval_runtime": 87.3232,
+      "eval_samples_per_second": 462.993,
+      "eval_steps_per_second": 0.905,
+      "step": 15000
+    },
+    {
+      "epoch": 1.4070882068419663,
+      "grad_norm": 1.8297632932662964,
+      "learning_rate": 0.00028707883089275593,
+      "loss": 0.2362,
+      "step": 16000
+    },
+    {
+      "epoch": 1.4070882068419663,
+      "eval_accuracy": 0.9004452139500371,
+      "eval_combined_score": 0.8845040294352609,
+      "eval_f1": 0.8685628449204846,
+      "eval_loss": 0.23727574944496155,
+      "eval_runtime": 86.7703,
+      "eval_samples_per_second": 465.943,
+      "eval_steps_per_second": 0.91,
+      "step": 16000
+    },
+    {
+      "epoch": 1.4950312197695892,
+      "grad_norm": 1.0713611841201782,
+      "learning_rate": 0.0002853280308024728,
+      "loss": 0.2321,
+      "step": 17000
+    },
+    {
+      "epoch": 1.4950312197695892,
+      "eval_accuracy": 0.9034875092752906,
+      "eval_combined_score": 0.8879104867407732,
+      "eval_f1": 0.8723334642062557,
+      "eval_loss": 0.22905229032039642,
+      "eval_runtime": 87.3498,
+      "eval_samples_per_second": 462.852,
+      "eval_steps_per_second": 0.904,
+      "step": 17000
+    },
+    {
+      "epoch": 1.5829742326972123,
+      "grad_norm": 1.0400513410568237,
+      "learning_rate": 0.0002834720801611687,
+      "loss": 0.2271,
+      "step": 18000
+    },
+    {
+      "epoch": 1.5829742326972123,
+      "eval_accuracy": 0.9022013356418501,
+      "eval_combined_score": 0.8872069311523193,
+      "eval_f1": 0.8722125266627885,
+      "eval_loss": 0.23319664597511292,
+      "eval_runtime": 55.8286,
+      "eval_samples_per_second": 724.18,
+      "eval_steps_per_second": 1.415,
+      "step": 18000
+    },
+    {
+      "epoch": 1.6709172456248351,
+      "grad_norm": 2.248392105102539,
+      "learning_rate": 0.0002815124210516956,
+      "loss": 0.2318,
+      "step": 19000
+    },
+    {
+      "epoch": 1.6709172456248351,
+      "eval_accuracy": 0.902448676725204,
+      "eval_combined_score": 0.8844990219925675,
+      "eval_f1": 0.8665493672599309,
+      "eval_loss": 0.2336564064025879,
+      "eval_runtime": 55.5382,
+      "eval_samples_per_second": 727.967,
+      "eval_steps_per_second": 1.422,
+      "step": 19000
+    },
+    {
+      "epoch": 1.758860258552458,
+      "grad_norm": 0.8035272359848022,
+      "learning_rate": 0.0002794505761388994,
+      "loss": 0.2287,
+      "step": 20000
+    },
+    {
+      "epoch": 1.758860258552458,
+      "eval_accuracy": 0.9015335147167944,
+      "eval_combined_score": 0.8876584221756192,
+      "eval_f1": 0.873783329634444,
+      "eval_loss": 0.24032531678676605,
+      "eval_runtime": 56.1973,
+      "eval_samples_per_second": 719.43,
+      "eval_steps_per_second": 1.406,
+      "step": 20000
+    },
+    {
+      "epoch": 1.846803271480081,
+      "grad_norm": 0.9019431471824646,
+      "learning_rate": 0.0002772881474865019,
+      "loss": 0.2253,
+      "step": 21000
+    },
+    {
+      "epoch": 1.846803271480081,
+      "eval_accuracy": 0.9032896364086075,
+      "eval_combined_score": 0.8860451940180075,
+      "eval_f1": 0.8688007516274076,
+      "eval_loss": 0.23804490268230438,
+      "eval_runtime": 87.2417,
+      "eval_samples_per_second": 463.425,
+      "eval_steps_per_second": 0.906,
+      "step": 21000
+    },
+    {
+      "epoch": 1.9347462844077037,
+      "grad_norm": 0.7785677313804626,
+      "learning_rate": 0.00027502681531228946,
+      "loss": 0.2311,
+      "step": 22000
+    },
+    {
+      "epoch": 1.9347462844077037,
+      "eval_accuracy": 0.9008656937917388,
+      "eval_combined_score": 0.8864890051600685,
+      "eval_f1": 0.8721123165283983,
+      "eval_loss": 0.23252907395362854,
+      "eval_runtime": 87.0149,
+      "eval_samples_per_second": 464.633,
+      "eval_steps_per_second": 0.908,
+      "step": 22000
+    },
+    {
+      "epoch": 2.0226892973353268,
+      "grad_norm": 0.6860449314117432,
+      "learning_rate": 0.00027266833668257537,
+      "loss": 0.2228,
+      "step": 23000
+    },
+    {
+      "epoch": 2.0226892973353268,
+      "eval_accuracy": 0.903635913925303,
+      "eval_combined_score": 0.8885753103812606,
+      "eval_f1": 0.8735147068372183,
+      "eval_loss": 0.235237717628479,
+      "eval_runtime": 86.8685,
+      "eval_samples_per_second": 465.416,
+      "eval_steps_per_second": 0.909,
+      "step": 23000
+    },
+    {
+      "epoch": 2.1106323102629494,
+      "grad_norm": 0.8559027910232544,
+      "learning_rate": 0.0002702145441469506,
+      "loss": 0.211,
+      "step": 24000
+    },
+    {
+      "epoch": 2.1106323102629494,
+      "eval_accuracy": 0.9057135790254761,
+      "eval_combined_score": 0.8897984953289229,
+      "eval_f1": 0.8738834116323695,
+      "eval_loss": 0.23580744862556458,
+      "eval_runtime": 55.7446,
+      "eval_samples_per_second": 725.272,
+      "eval_steps_per_second": 1.417,
+      "step": 24000
+    },
+    {
+      "epoch": 2.1985753231905725,
+      "grad_norm": 0.779170036315918,
+      "learning_rate": 0.00026766734431438345,
+      "loss": 0.2137,
+      "step": 25000
+    },
+    {
+      "epoch": 2.1985753231905725,
+      "eval_accuracy": 0.9070739549839228,
+      "eval_combined_score": 0.8914480665681472,
+      "eval_f1": 0.8758221781523715,
+      "eval_loss": 0.23073111474514008,
+      "eval_runtime": 60.3864,
+      "eval_samples_per_second": 669.522,
+      "eval_steps_per_second": 1.308,
+      "step": 25000
+    },
+    {
+      "epoch": 2.2865183361181955,
+      "grad_norm": 1.2027239799499512,
+      "learning_rate": 0.0002650287163717754,
+      "loss": 0.2126,
+      "step": 26000
+    },
+    {
+      "epoch": 2.2865183361181955,
+      "eval_accuracy": 0.9067524115755627,
+      "eval_combined_score": 0.8911649846656692,
+      "eval_f1": 0.8755775577557756,
+      "eval_loss": 0.22513732314109802,
+      "eval_runtime": 55.9295,
+      "eval_samples_per_second": 722.874,
+      "eval_steps_per_second": 1.412,
+      "step": 26000
+    },
+    {
+      "epoch": 2.374461349045818,
+      "grad_norm": 1.0992302894592285,
+      "learning_rate": 0.0002623007105461227,
+      "loss": 0.2151,
+      "step": 27000
+    },
+    {
+      "epoch": 2.374461349045818,
+      "eval_accuracy": 0.9044026712837002,
+      "eval_combined_score": 0.8888801259036543,
+      "eval_f1": 0.8733575805236082,
+      "eval_loss": 0.22250224649906158,
+      "eval_runtime": 56.2936,
+      "eval_samples_per_second": 718.199,
+      "eval_steps_per_second": 1.403,
+      "step": 27000
+    },
+    {
+      "epoch": 2.4624043619734413,
+      "grad_norm": 0.9432693719863892,
+      "learning_rate": 0.00025948544651147997,
+      "loss": 0.2105,
+      "step": 28000
+    },
+    {
+      "epoch": 2.4624043619734413,
+      "eval_accuracy": 0.9040316596586693,
+      "eval_combined_score": 0.8899398026950712,
+      "eval_f1": 0.8758479457314732,
+      "eval_loss": 0.2282586693763733,
+      "eval_runtime": 87.1287,
+      "eval_samples_per_second": 464.026,
+      "eval_steps_per_second": 0.907,
+      "step": 28000
+    },
+    {
+      "epoch": 2.5503473749010643,
+      "grad_norm": 0.8697973489761353,
+      "learning_rate": 0.00025658511174196294,
+      "loss": 0.2084,
+      "step": 29000
+    },
+    {
+      "epoch": 2.5503473749010643,
+      "eval_accuracy": 0.9056146425921345,
+      "eval_combined_score": 0.8904910367575605,
+      "eval_f1": 0.8753674309229865,
+      "eval_loss": 0.2263556867837906,
+      "eval_runtime": 87.0161,
+      "eval_samples_per_second": 464.627,
+      "eval_steps_per_second": 0.908,
+      "step": 29000
+    },
+    {
+      "epoch": 2.638290387828687,
+      "grad_norm": 0.9848024845123291,
+      "learning_rate": 0.00025360195981207026,
+      "loss": 0.214,
+      "step": 30000
+    },
+    {
+      "epoch": 2.638290387828687,
+      "eval_accuracy": 0.9048973534504081,
+      "eval_combined_score": 0.8893061667899067,
+      "eval_f1": 0.8737149801294052,
+      "eval_loss": 0.23553258180618286,
+      "eval_runtime": 86.9823,
+      "eval_samples_per_second": 464.807,
+      "eval_steps_per_second": 0.908,
+      "step": 30000
+    },
+    {
+      "epoch": 2.72623340075631,
+      "grad_norm": 0.7595154047012329,
+      "learning_rate": 0.0002505383086456447,
+      "loss": 0.213,
+      "step": 31000
+    },
+    {
+      "epoch": 2.72623340075631,
+      "eval_accuracy": 0.9091268859757605,
+      "eval_combined_score": 0.8950828057647227,
+      "eval_f1": 0.8810387255536848,
+      "eval_loss": 0.22583059966564178,
+      "eval_runtime": 56.2161,
+      "eval_samples_per_second": 719.189,
+      "eval_steps_per_second": 1.405,
+      "step": 31000
+    },
+    {
+      "epoch": 2.8141764136839327,
+      "grad_norm": 1.9866888523101807,
+      "learning_rate": 0.0002473965387148352,
+      "loss": 0.2137,
+      "step": 32000
+    },
+    {
+      "epoch": 2.8141764136839327,
+      "eval_accuracy": 0.9067771456838981,
+      "eval_combined_score": 0.8903090749339992,
+      "eval_f1": 0.8738410041841004,
+      "eval_loss": 0.2325998991727829,
+      "eval_runtime": 55.3837,
+      "eval_samples_per_second": 729.999,
+      "eval_steps_per_second": 1.426,
+      "step": 32000
+    },
+    {
+      "epoch": 2.9021194266115558,
+      "grad_norm": 0.944116473197937,
+      "learning_rate": 0.000244179091190458,
+      "loss": 0.207,
+      "step": 33000
+    },
+    {
+      "epoch": 2.9021194266115558,
+      "eval_accuracy": 0.9053425674004452,
+      "eval_combined_score": 0.888638221424012,
+      "eval_f1": 0.8719338754475789,
+      "eval_loss": 0.24054807424545288,
+      "eval_runtime": 56.3214,
+      "eval_samples_per_second": 717.844,
+      "eval_steps_per_second": 1.403,
+      "step": 33000
+    },
+    {
+      "epoch": 2.9900624395391784,
+      "grad_norm": 0.6180978417396545,
+      "learning_rate": 0.00024088846604519457,
+      "loss": 0.2087,
+      "step": 34000
+    },
+    {
+      "epoch": 2.9900624395391784,
+      "eval_accuracy": 0.9076923076923077,
+      "eval_combined_score": 0.8927819480735247,
+      "eval_f1": 0.8778715884547418,
+      "eval_loss": 0.22520828247070312,
+      "eval_runtime": 55.5236,
+      "eval_samples_per_second": 728.159,
+      "eval_steps_per_second": 1.423,
+      "step": 34000
+    },
+    {
+      "epoch": 3.0780054524668015,
+      "grad_norm": 1.2374540567398071,
+      "learning_rate": 0.00023752722011110102,
+      "loss": 0.1925,
+      "step": 35000
+    },
+    {
+      "epoch": 3.0780054524668015,
+      "eval_accuracy": 0.9074944348256245,
+      "eval_combined_score": 0.8931313341064914,
+      "eval_f1": 0.8787682333873582,
+      "eval_loss": 0.22987455129623413,
+      "eval_runtime": 87.0711,
+      "eval_samples_per_second": 464.333,
+      "eval_steps_per_second": 0.907,
+      "step": 35000
+    },
+    {
+      "epoch": 3.1659484653944245,
+      "grad_norm": 0.8898099660873413,
+      "learning_rate": 0.00023409796509293643,
+      "loss": 0.1967,
+      "step": 36000
+    },
+    {
+      "epoch": 3.1659484653944245,
+      "eval_accuracy": 0.9072223596339352,
+      "eval_combined_score": 0.8932183284242772,
+      "eval_f1": 0.8792142972146192,
+      "eval_loss": 0.22618883848190308,
+      "eval_runtime": 93.9738,
+      "eval_samples_per_second": 430.226,
+      "eval_steps_per_second": 0.841,
+      "step": 36000
+    },
+    {
+      "epoch": 3.253891478322047,
+      "grad_norm": 1.2053686380386353,
+      "learning_rate": 0.0002306033655388555,
+      "loss": 0.1941,
+      "step": 37000
+    },
+    {
+      "epoch": 3.253891478322047,
+      "eval_accuracy": 0.9096463022508039,
+      "eval_combined_score": 0.8952601313960689,
+      "eval_f1": 0.8808739605413338,
+      "eval_loss": 0.23468315601348877,
+      "eval_runtime": 86.9077,
+      "eval_samples_per_second": 465.206,
+      "eval_steps_per_second": 0.909,
+      "step": 37000
+    },
+    {
+      "epoch": 3.3418344912496702,
+      "grad_norm": 1.3579250574111938,
+      "learning_rate": 0.0002270461367700413,
+      "loss": 0.2011,
+      "step": 38000
+    },
+    {
+      "epoch": 3.3418344912496702,
+      "eval_accuracy": 0.9070739549839228,
+      "eval_combined_score": 0.8937216614594825,
+      "eval_f1": 0.8803693679350422,
+      "eval_loss": 0.22943687438964844,
+      "eval_runtime": 56.3453,
+      "eval_samples_per_second": 717.54,
+      "eval_steps_per_second": 1.402,
+      "step": 38000
+    },
+    {
+      "epoch": 3.4297775041772933,
+      "grad_norm": 0.38186776638031006,
+      "learning_rate": 0.00022342904277088745,
+      "loss": 0.1984,
+      "step": 39000
+    },
+    {
+      "epoch": 3.4297775041772933,
+      "eval_accuracy": 0.9076675735839723,
+      "eval_combined_score": 0.8940503077234105,
+      "eval_f1": 0.8804330418628488,
+      "eval_loss": 0.22878248989582062,
+      "eval_runtime": 56.1136,
+      "eval_samples_per_second": 720.503,
+      "eval_steps_per_second": 1.408,
+      "step": 39000
+    },
+    {
+      "epoch": 3.517720517104916,
+      "grad_norm": 1.1301718950271606,
+      "learning_rate": 0.00021975489404136827,
+      "loss": 0.1948,
+      "step": 40000
+    },
+    {
+      "epoch": 3.517720517104916,
+      "eval_accuracy": 0.9086569379173881,
+      "eval_combined_score": 0.8933979294437625,
+      "eval_f1": 0.8781389209701369,
+      "eval_loss": 0.2234371155500412,
+      "eval_runtime": 55.9217,
+      "eval_samples_per_second": 722.975,
+      "eval_steps_per_second": 1.413,
+      "step": 40000
+    },
+    {
+      "epoch": 3.605663530032539,
+      "grad_norm": 1.0810197591781616,
+      "learning_rate": 0.00021602654541326668,
+      "loss": 0.1929,
+      "step": 41000
+    },
+    {
+      "epoch": 3.605663530032539,
+      "eval_accuracy": 0.9084095968340341,
+      "eval_combined_score": 0.8952942381064759,
+      "eval_f1": 0.8821788793789176,
+      "eval_loss": 0.22578567266464233,
+      "eval_runtime": 86.5162,
+      "eval_samples_per_second": 467.311,
+      "eval_steps_per_second": 0.913,
+      "step": 41000
+    },
+    {
+      "epoch": 3.6936065429601617,
+      "grad_norm": 1.3687130212783813,
+      "learning_rate": 0.00021224689383195542,
+      "loss": 0.1946,
+      "step": 42000
+    },
+    {
+      "epoch": 3.6936065429601617,
+      "eval_accuracy": 0.9075933712589661,
+      "eval_combined_score": 0.8921709268540805,
+      "eval_f1": 0.876748482449195,
+      "eval_loss": 0.22414971888065338,
+      "eval_runtime": 87.1571,
+      "eval_samples_per_second": 463.875,
+      "eval_steps_per_second": 0.906,
+      "step": 42000
+    },
+    {
+      "epoch": 3.7815495558877847,
+      "grad_norm": 0.675777018070221,
+      "learning_rate": 0.00020841887610545634,
+      "loss": 0.1971,
+      "step": 43000
+    },
+    {
+      "epoch": 3.7815495558877847,
+      "eval_accuracy": 0.9100420479841702,
+      "eval_combined_score": 0.8939421941798391,
+      "eval_f1": 0.877842340375508,
+      "eval_loss": 0.22170396149158478,
+      "eval_runtime": 87.0916,
+      "eval_samples_per_second": 464.224,
+      "eval_steps_per_second": 0.907,
+      "step": 43000
+    },
+    {
+      "epoch": 3.8694925688154074,
+      "grad_norm": 1.8298357725143433,
+      "learning_rate": 0.00020454546662252592,
+      "loss": 0.1986,
+      "step": 44000
+    },
+    {
+      "epoch": 3.8694925688154074,
+      "eval_accuracy": 0.9101657185258472,
+      "eval_combined_score": 0.895972124284732,
+      "eval_f1": 0.881778530043617,
+      "eval_loss": 0.2266804426908493,
+      "eval_runtime": 87.1467,
+      "eval_samples_per_second": 463.931,
+      "eval_steps_per_second": 0.907,
+      "step": 44000
+    },
+    {
+      "epoch": 3.9574355817430305,
+      "grad_norm": 0.7815334796905518,
+      "learning_rate": 0.00020062967504154062,
+      "loss": 0.1985,
+      "step": 45000
+    },
+    {
+      "epoch": 3.9574355817430305,
+      "eval_accuracy": 0.9075439030422954,
+      "eval_combined_score": 0.8947048887564678,
+      "eval_f1": 0.8818658744706402,
+      "eval_loss": 0.22852376103401184,
+      "eval_runtime": 56.4004,
+      "eval_samples_per_second": 716.839,
+      "eval_steps_per_second": 1.401,
+      "step": 45000
+    },
+    {
+      "epoch": 4.0453785946706535,
+      "grad_norm": 0.8892888426780701,
+      "learning_rate": 0.00019667454395197706,
+      "loss": 0.1903,
+      "step": 46000
+    },
+    {
+      "epoch": 4.0453785946706535,
+      "eval_accuracy": 0.9117981696759832,
+      "eval_combined_score": 0.8963943458178341,
+      "eval_f1": 0.880990521959685,
+      "eval_loss": 0.23053193092346191,
+      "eval_runtime": 55.3909,
+      "eval_samples_per_second": 729.903,
+      "eval_steps_per_second": 1.426,
+      "step": 46000
+    },
+    {
+      "epoch": 4.133321607598276,
+      "grad_norm": 1.172505497932434,
+      "learning_rate": 0.00019268314651030522,
+      "loss": 0.1845,
+      "step": 47000
+    },
+    {
+      "epoch": 4.133321607598276,
+      "eval_accuracy": 0.9109077417759089,
+      "eval_combined_score": 0.8964897535490336,
+      "eval_f1": 0.8820717653221583,
+      "eval_loss": 0.2176717221736908,
+      "eval_runtime": 60.2724,
+      "eval_samples_per_second": 670.788,
+      "eval_steps_per_second": 1.311,
+      "step": 47000
+    },
+    {
+      "epoch": 4.221264620525899,
+      "grad_norm": 1.5994923114776611,
+      "learning_rate": 0.00018865858405213055,
+      "loss": 0.1819,
+      "step": 48000
+    },
+    {
+      "epoch": 4.221264620525899,
+      "eval_accuracy": 0.9123670541676973,
+      "eval_combined_score": 0.8978356465792539,
+      "eval_f1": 0.8833042389908106,
+      "eval_loss": 0.2258807122707367,
+      "eval_runtime": 86.9447,
+      "eval_samples_per_second": 465.008,
+      "eval_steps_per_second": 0.909,
+      "step": 48000
+    },
+    {
+      "epoch": 4.309207633453522,
+      "grad_norm": 1.8464044332504272,
+      "learning_rate": 0.0001846039836824406,
+      "loss": 0.1857,
+      "step": 49000
+    },
+    {
+      "epoch": 4.309207633453522,
+      "eval_accuracy": 0.9128122681177343,
+      "eval_combined_score": 0.8989938404988163,
+      "eval_f1": 0.8851754128798983,
+      "eval_loss": 0.224745512008667,
+      "eval_runtime": 86.7886,
+      "eval_samples_per_second": 465.845,
+      "eval_steps_per_second": 0.91,
+      "step": 49000
+    },
+    {
+      "epoch": 4.397150646381145,
+      "grad_norm": 1.784670114517212,
+      "learning_rate": 0.00018052249584582937,
+      "loss": 0.1816,
+      "step": 50000
+    },
+    {
+      "epoch": 4.397150646381145,
+      "eval_accuracy": 0.9119713084343309,
+      "eval_combined_score": 0.8984543749180804,
+      "eval_f1": 0.8849374414018298,
+      "eval_loss": 0.22437089681625366,
+      "eval_runtime": 87.3119,
+      "eval_samples_per_second": 463.052,
+      "eval_steps_per_second": 0.905,
+      "step": 50000
+    },
+    {
+      "epoch": 4.485093659308768,
+      "grad_norm": 0.8956874012947083,
+      "learning_rate": 0.0001764172918785858,
+      "loss": 0.1833,
+      "step": 51000
+    },
+    {
+      "epoch": 4.485093659308768,
+      "eval_accuracy": 0.9124412564927035,
+      "eval_combined_score": 0.8985396010678338,
+      "eval_f1": 0.8846379456429642,
+      "eval_loss": 0.21341578662395477,
+      "eval_runtime": 76.9889,
+      "eval_samples_per_second": 525.141,
+      "eval_steps_per_second": 1.026,
+      "step": 51000
+    },
+    {
+      "epoch": 4.573036672236391,
+      "grad_norm": 1.915276050567627,
+      "learning_rate": 0.0001722915615445501,
+      "loss": 0.1865,
+      "step": 52000
+    },
+    {
+      "epoch": 4.573036672236391,
+      "eval_accuracy": 0.9127627999010636,
+      "eval_combined_score": 0.8988202810420225,
+      "eval_f1": 0.8848777621829813,
+      "eval_loss": 0.2196654975414276,
+      "eval_runtime": 55.9179,
+      "eval_samples_per_second": 723.025,
+      "eval_steps_per_second": 1.413,
+      "step": 52000
+    },
+    {
+      "epoch": 4.660979685164014,
+      "grad_norm": 0.7660688757896423,
+      "learning_rate": 0.0001681485105566511,
+      "loss": 0.1891,
+      "step": 53000
+    },
+    {
+      "epoch": 4.660979685164014,
+      "eval_accuracy": 0.9142715805095226,
+      "eval_combined_score": 0.9003310177360777,
+      "eval_f1": 0.8863904549626328,
+      "eval_loss": 0.2194739133119583,
+      "eval_runtime": 55.3544,
+      "eval_samples_per_second": 730.385,
+      "eval_steps_per_second": 1.427,
+      "step": 53000
+    },
+    {
+      "epoch": 4.748922698091636,
+      "grad_norm": 0.5751957893371582,
+      "learning_rate": 0.00016399135808605172,
+      "loss": 0.185,
+      "step": 54000
+    },
+    {
+      "epoch": 4.748922698091636,
+      "eval_accuracy": 0.9136779619094731,
+      "eval_combined_score": 0.8991720939752257,
+      "eval_f1": 0.8846662260409782,
+      "eval_loss": 0.2241617739200592,
+      "eval_runtime": 55.9679,
+      "eval_samples_per_second": 722.379,
+      "eval_steps_per_second": 1.412,
+      "step": 54000
+    },
+    {
+      "epoch": 4.83686571101926,
+      "grad_norm": 0.588286817073822,
+      "learning_rate": 0.00015982333426083677,
+      "loss": 0.1868,
+      "step": 55000
+    },
+    {
+      "epoch": 4.83686571101926,
+      "eval_accuracy": 0.9145931239178827,
+      "eval_combined_score": 0.9007955965500334,
+      "eval_f1": 0.8869980691821842,
+      "eval_loss": 0.21942467987537384,
+      "eval_runtime": 87.1584,
+      "eval_samples_per_second": 463.868,
+      "eval_steps_per_second": 0.906,
+      "step": 55000
+    },
+    {
+      "epoch": 4.9248087239468825,
+      "grad_norm": 1.0260065793991089,
+      "learning_rate": 0.00015564767765618756,
+      "loss": 0.1857,
+      "step": 56000
+    },
+    {
+      "epoch": 4.9248087239468825,
+      "eval_accuracy": 0.912540192926045,
+      "eval_combined_score": 0.8981389726384681,
+      "eval_f1": 0.883737752350891,
+      "eval_loss": 0.21640419960021973,
+      "eval_runtime": 87.3018,
+      "eval_samples_per_second": 463.106,
+      "eval_steps_per_second": 0.905,
+      "step": 56000
+    },
+    {
+      "epoch": 5.012751736874505,
+      "grad_norm": 0.8171947598457336,
+      "learning_rate": 0.0001514676327779928,
+      "loss": 0.18,
+      "step": 57000
+    },
+    {
+      "epoch": 5.012751736874505,
+      "eval_accuracy": 0.9140737076428395,
+      "eval_combined_score": 0.899864844078809,
+      "eval_f1": 0.8856559805147785,
+      "eval_loss": 0.21834981441497803,
+      "eval_runtime": 86.7804,
+      "eval_samples_per_second": 465.889,
+      "eval_steps_per_second": 0.91,
+      "step": 57000
+    },
+    {
+      "epoch": 5.100694749802129,
+      "grad_norm": 1.5669310092926025,
+      "learning_rate": 0.00014728644754185164,
+      "loss": 0.1749,
+      "step": 58000
+    },
+    {
+      "epoch": 5.100694749802129,
+      "eval_accuracy": 0.9147909967845659,
+      "eval_combined_score": 0.9004589962272084,
+      "eval_f1": 0.8861269956698509,
+      "eval_loss": 0.21679632365703583,
+      "eval_runtime": 60.0987,
+      "eval_samples_per_second": 672.726,
+      "eval_steps_per_second": 1.315,
+      "step": 58000
+    },
+    {
+      "epoch": 5.188637762729751,
+      "grad_norm": 1.1074833869934082,
+      "learning_rate": 0.00014310737074942683,
+      "loss": 0.1744,
+      "step": 59000
+    },
+    {
+      "epoch": 5.188637762729751,
+      "eval_accuracy": 0.9115013603759584,
+      "eval_combined_score": 0.8979029145538849,
+      "eval_f1": 0.8843044687318115,
+      "eval_loss": 0.2294030636548996,
+      "eval_runtime": 56.2355,
+      "eval_samples_per_second": 718.94,
+      "eval_steps_per_second": 1.405,
+      "step": 59000
+    },
+    {
+      "epoch": 5.276580775657374,
+      "grad_norm": 1.083426594734192,
+      "learning_rate": 0.00013893364956411012,
+      "loss": 0.1698,
+      "step": 60000
+    },
+    {
+      "epoch": 5.276580775657374,
+      "eval_accuracy": 0.9093494929507792,
+      "eval_combined_score": 0.8959915556469398,
+      "eval_f1": 0.8826336183431005,
+      "eval_loss": 0.2406802922487259,
+      "eval_runtime": 55.9488,
+      "eval_samples_per_second": 722.625,
+      "eval_steps_per_second": 1.412,
+      "step": 60000
+    },
+    {
+      "epoch": 5.364523788584997,
+      "grad_norm": 1.933881163597107,
+      "learning_rate": 0.0001347685269879597,
+      "loss": 0.1778,
+      "step": 61000
+    },
+    {
+      "epoch": 5.364523788584997,
+      "eval_accuracy": 0.9120702448676725,
+      "eval_combined_score": 0.8986871630855543,
+      "eval_f1": 0.8853040813034361,
+      "eval_loss": 0.2266305387020111,
+      "eval_runtime": 56.3575,
+      "eval_samples_per_second": 717.384,
+      "eval_steps_per_second": 1.402,
+      "step": 61000
+    },
+    {
+      "epoch": 5.45246680151262,
+      "grad_norm": 0.47942474484443665,
+      "learning_rate": 0.00013061523934187208,
+      "loss": 0.177,
+      "step": 62000
+    },
+    {
+      "epoch": 5.45246680151262,
+      "eval_accuracy": 0.9131832797427653,
+      "eval_combined_score": 0.8998285892212758,
+      "eval_f1": 0.8864738986997865,
+      "eval_loss": 0.22912418842315674,
+      "eval_runtime": 87.1326,
+      "eval_samples_per_second": 464.005,
+      "eval_steps_per_second": 0.907,
+      "step": 62000
+    },
+    {
+      "epoch": 5.540409814440243,
+      "grad_norm": 0.6661811470985413,
+      "learning_rate": 0.0001264770137509442,
+      "loss": 0.1729,
+      "step": 63000
+    },
+    {
+      "epoch": 5.540409814440243,
+      "eval_accuracy": 0.9130101409844175,
+      "eval_combined_score": 0.8983055007420846,
+      "eval_f1": 0.8836008604997517,
+      "eval_loss": 0.22111645340919495,
+      "eval_runtime": 87.0569,
+      "eval_samples_per_second": 464.409,
+      "eval_steps_per_second": 0.907,
+      "step": 63000
+    },
+    {
+      "epoch": 5.628352827367865,
+      "grad_norm": 1.7584110498428345,
+      "learning_rate": 0.00012235706563698158,
+      "loss": 0.1733,
+      "step": 64000
+    },
+    {
+      "epoch": 5.628352827367865,
+      "eval_accuracy": 0.9143952510511996,
+      "eval_combined_score": 0.901018032628804,
+      "eval_f1": 0.8876408142064085,
+      "eval_loss": 0.22673414647579193,
+      "eval_runtime": 86.8749,
+      "eval_samples_per_second": 465.382,
+      "eval_steps_per_second": 0.909,
+      "step": 64000
+    },
+    {
+      "epoch": 5.716295840295489,
+      "grad_norm": 1.4516685009002686,
+      "learning_rate": 0.00011825859622009953,
+      "loss": 0.1754,
+      "step": 65000
+    },
+    {
+      "epoch": 5.716295840295489,
+      "eval_accuracy": 0.9142715805095226,
+      "eval_combined_score": 0.9001629452287898,
+      "eval_f1": 0.8860543099480571,
+      "eval_loss": 0.2289634495973587,
+      "eval_runtime": 55.5446,
+      "eval_samples_per_second": 727.883,
+      "eval_steps_per_second": 1.422,
+      "step": 65000
+    },
+    {
+      "epoch": 5.8042388532231115,
+      "grad_norm": 1.0227175951004028,
+      "learning_rate": 0.00011418479003135898,
+      "loss": 0.1714,
+      "step": 66000
+    },
+    {
+      "epoch": 5.8042388532231115,
+      "eval_accuracy": 0.9136037595844669,
+      "eval_combined_score": 0.900322883575825,
+      "eval_f1": 0.887042007567183,
+      "eval_loss": 0.22240959107875824,
+      "eval_runtime": 55.7791,
+      "eval_samples_per_second": 724.824,
+      "eval_steps_per_second": 1.416,
+      "step": 66000
+    },
+    {
+      "epoch": 5.892181866150734,
+      "grad_norm": 0.7578181028366089,
+      "learning_rate": 0.00011013881243837068,
+      "loss": 0.1732,
+      "step": 67000
+    },
+    {
+      "epoch": 5.892181866150734,
+      "eval_accuracy": 0.9146425921345536,
+      "eval_combined_score": 0.9009637169445672,
+      "eval_f1": 0.8872848417545808,
+      "eval_loss": 0.21318596601486206,
+      "eval_runtime": 55.5313,
+      "eval_samples_per_second": 728.057,
+      "eval_steps_per_second": 1.423,
+      "step": 67000
+    },
+    {
+      "epoch": 5.980124879078357,
+      "grad_norm": 1.2776685953140259,
+      "learning_rate": 0.00010612380718578806,
+      "loss": 0.1741,
+      "step": 68000
+    },
+    {
+      "epoch": 5.980124879078357,
+      "eval_accuracy": 0.9154835518179569,
+      "eval_combined_score": 0.9013426077843292,
+      "eval_f1": 0.8872016637507015,
+      "eval_loss": 0.22081904113292694,
+      "eval_runtime": 56.107,
+      "eval_samples_per_second": 720.587,
+      "eval_steps_per_second": 1.408,
+      "step": 68000
+    },
+    {
+      "epoch": 6.06806789200598,
+      "grad_norm": 0.6756773591041565,
+      "learning_rate": 0.00010214289395260275,
+      "loss": 0.1655,
+      "step": 69000
+    },
+    {
+      "epoch": 6.06806789200598,
+      "eval_accuracy": 0.9145683898095474,
+      "eval_combined_score": 0.9011872677300838,
+      "eval_f1": 0.8878061456506204,
+      "eval_loss": 0.2249419391155243,
+      "eval_runtime": 94.0711,
+      "eval_samples_per_second": 429.781,
+      "eval_steps_per_second": 0.84,
+      "step": 69000
+    },
+    {
+      "epoch": 6.156010904933603,
+      "grad_norm": 1.0925005674362183,
+      "learning_rate": 9.819916592813812e-05,
+      "loss": 0.1622,
+      "step": 70000
+    },
+    {
+      "epoch": 6.156010904933603,
+      "eval_accuracy": 0.9135790254761316,
+      "eval_combined_score": 0.900321738479872,
+      "eval_f1": 0.8870644514836123,
+      "eval_loss": 0.23048754036426544,
+      "eval_runtime": 87.1759,
+      "eval_samples_per_second": 463.775,
+      "eval_steps_per_second": 0.906,
+      "step": 70000
+    },
+    {
+      "epoch": 6.2439539178612256,
+      "grad_norm": 1.463751196861267,
+      "learning_rate": 9.429568740862609e-05,
+      "loss": 0.1623,
+      "step": 71000
+    },
+    {
+      "epoch": 6.2439539178612256,
+      "eval_accuracy": 0.9141231758595103,
+      "eval_combined_score": 0.9012201056858025,
+      "eval_f1": 0.8883170355120947,
+      "eval_loss": 0.23018094897270203,
+      "eval_runtime": 87.3145,
+      "eval_samples_per_second": 463.039,
+      "eval_steps_per_second": 0.905,
+      "step": 71000
+    },
+    {
+      "epoch": 6.331896930788849,
+      "grad_norm": 1.191116452217102,
+      "learning_rate": 9.043549141623341e-05,
+      "loss": 0.1559,
+      "step": 72000
+    },
+    {
+      "epoch": 6.331896930788849,
+      "eval_accuracy": 0.9152114766262677,
+      "eval_combined_score": 0.9018985100240022,
+      "eval_f1": 0.8885855434217369,
+      "eval_loss": 0.2375902384519577,
+      "eval_runtime": 56.6591,
+      "eval_samples_per_second": 713.566,
+      "eval_steps_per_second": 1.394,
+      "step": 72000
+    },
+    {
+      "epoch": 6.419839943716472,
+      "grad_norm": 1.6958703994750977,
+      "learning_rate": 8.662157734238882e-05,
+      "loss": 0.1676,
+      "step": 73000
+    },
+    {
+      "epoch": 6.419839943716472,
+      "eval_accuracy": 0.9138758347761563,
+      "eval_combined_score": 0.9007802501408038,
+      "eval_f1": 0.8876846655054512,
+      "eval_loss": 0.2252551168203354,
+      "eval_runtime": 55.6805,
+      "eval_samples_per_second": 726.106,
+      "eval_steps_per_second": 1.419,
+      "step": 73000
+    },
+    {
+      "epoch": 6.507782956644094,
+      "grad_norm": 0.9404481649398804,
+      "learning_rate": 8.285690861724085e-05,
+      "loss": 0.1666,
+      "step": 74000
+    },
+    {
+      "epoch": 6.507782956644094,
+      "eval_accuracy": 0.9117487014593124,
+      "eval_combined_score": 0.8988775456178351,
+      "eval_f1": 0.8860063897763578,
+      "eval_loss": 0.22508053481578827,
+      "eval_runtime": 56.0644,
+      "eval_samples_per_second": 721.135,
+      "eval_steps_per_second": 1.409,
+      "step": 74000
+    },
+    {
+      "epoch": 6.595725969571718,
+      "grad_norm": 1.591848373413086,
+      "learning_rate": 7.914441040705777e-05,
+      "loss": 0.1656,
+      "step": 75000
+    },
+    {
+      "epoch": 6.595725969571718,
+      "eval_accuracy": 0.915607222359634,
+      "eval_combined_score": 0.901803085969733,
+      "eval_f1": 0.8879989495798319,
+      "eval_loss": 0.2246847152709961,
+      "eval_runtime": 65.9155,
+      "eval_samples_per_second": 613.361,
+      "eval_steps_per_second": 1.199,
+      "step": 75000
+    },
+    {
+      "epoch": 6.6836689824993405,
+      "grad_norm": 1.0205929279327393,
+      "learning_rate": 7.5486967341359e-05,
+      "loss": 0.1631,
+      "step": 76000
+    },
+    {
+      "epoch": 6.6836689824993405,
+      "eval_accuracy": 0.9142715805095226,
+      "eval_combined_score": 0.9005757380354402,
+      "eval_f1": 0.8868798955613577,
+      "eval_loss": 0.21938744187355042,
+      "eval_runtime": 87.186,
+      "eval_samples_per_second": 463.721,
+      "eval_steps_per_second": 0.906,
+      "step": 76000
+    },
+    {
+      "epoch": 6.771611995426963,
+      "grad_norm": 1.5870155096054077,
+      "learning_rate": 7.188742127154373e-05,
+      "loss": 0.1693,
+      "step": 77000
+    },
+    {
+      "epoch": 6.771611995426963,
+      "eval_accuracy": 0.9148899332179075,
+      "eval_combined_score": 0.9019252660700529,
+      "eval_f1": 0.8889605989221983,
+      "eval_loss": 0.22145743668079376,
+      "eval_runtime": 87.1617,
+      "eval_samples_per_second": 463.851,
+      "eval_steps_per_second": 0.906,
+      "step": 77000
+    },
+    {
+      "epoch": 6.859555008354587,
+      "grad_norm": 1.2106655836105347,
+      "learning_rate": 6.834856906275834e-05,
+      "loss": 0.1686,
+      "step": 78000
+    },
+    {
+      "epoch": 6.859555008354587,
+      "eval_accuracy": 0.9131832797427653,
+      "eval_combined_score": 0.9006927992547435,
+      "eval_f1": 0.8882023187667218,
+      "eval_loss": 0.22475597262382507,
+      "eval_runtime": 86.9372,
+      "eval_samples_per_second": 465.048,
+      "eval_steps_per_second": 0.909,
+      "step": 78000
+    },
+    {
+      "epoch": 6.947498021282209,
+      "grad_norm": 1.801979422569275,
+      "learning_rate": 6.487316042071804e-05,
+      "loss": 0.1656,
+      "step": 79000
+    },
+    {
+      "epoch": 6.947498021282209,
+      "eval_accuracy": 0.9140489735345041,
+      "eval_combined_score": 0.8988732768874033,
+      "eval_f1": 0.8836975802403025,
+      "eval_loss": 0.2249360829591751,
+      "eval_runtime": 57.3526,
+      "eval_samples_per_second": 704.937,
+      "eval_steps_per_second": 1.377,
+      "step": 79000
+    },
+    {
+      "epoch": 7.035441034209832,
+      "grad_norm": 0.7926831245422363,
+      "learning_rate": 6.146389575517211e-05,
+      "loss": 0.1592,
+      "step": 80000
+    },
+    {
+      "epoch": 7.035441034209832,
+      "eval_accuracy": 0.9147662626762305,
+      "eval_combined_score": 0.9012849350758245,
+      "eval_f1": 0.8878036074754184,
+      "eval_loss": 0.22441034018993378,
+      "eval_runtime": 60.1965,
+      "eval_samples_per_second": 671.634,
+      "eval_steps_per_second": 1.312,
+      "step": 80000
+    },
+    {
+      "epoch": 7.1233840471374545,
+      "grad_norm": 1.1260881423950195,
+      "learning_rate": 5.81234240816722e-05,
+      "loss": 0.1594,
+      "step": 81000
+    },
+    {
+      "epoch": 7.1233840471374545,
+      "eval_accuracy": 0.9141231758595103,
+      "eval_combined_score": 0.9006356632076593,
+      "eval_f1": 0.8871481505558083,
+      "eval_loss": 0.2256377786397934,
+      "eval_runtime": 55.8904,
+      "eval_samples_per_second": 723.379,
+      "eval_steps_per_second": 1.413,
+      "step": 81000
+    },
+    {
+      "epoch": 7.211327060065078,
+      "grad_norm": 1.023222804069519,
+      "learning_rate": 5.485434096327387e-05,
+      "loss": 0.1562,
+      "step": 82000
+    },
+    {
+      "epoch": 7.211327060065078,
+      "eval_accuracy": 0.9144694533762058,
+      "eval_combined_score": 0.901054586318984,
+      "eval_f1": 0.8876397192617624,
+      "eval_loss": 0.2249106466770172,
+      "eval_runtime": 87.077,
+      "eval_samples_per_second": 464.302,
+      "eval_steps_per_second": 0.907,
+      "step": 82000
+    },
+    {
+      "epoch": 7.299270072992701,
+      "grad_norm": 0.9676831364631653,
+      "learning_rate": 5.165918649377139e-05,
+      "loss": 0.154,
+      "step": 83000
+    },
+    {
+      "epoch": 7.299270072992701,
+      "eval_accuracy": 0.9134553549344546,
+      "eval_combined_score": 0.9002065001984649,
+      "eval_f1": 0.8869576454624754,
+      "eval_loss": 0.22661758959293365,
+      "eval_runtime": 87.1572,
+      "eval_samples_per_second": 463.874,
+      "eval_steps_per_second": 0.906,
+      "step": 83000
+    },
+    {
+      "epoch": 7.387213085920323,
+      "grad_norm": 1.3920458555221558,
+      "learning_rate": 4.854044332403218e-05,
+      "loss": 0.1525,
+      "step": 84000
+    },
+    {
+      "epoch": 7.387213085920323,
+      "eval_accuracy": 0.914543655701212,
+      "eval_combined_score": 0.9014253208839361,
+      "eval_f1": 0.8883069860666603,
+      "eval_loss": 0.22665317356586456,
+      "eval_runtime": 86.9466,
+      "eval_samples_per_second": 464.998,
+      "eval_steps_per_second": 0.909,
+      "step": 84000
+    },
+    {
+      "epoch": 7.475156098847947,
+      "grad_norm": 1.7799046039581299,
+      "learning_rate": 4.550053473296499e-05,
+      "loss": 0.1577,
+      "step": 85000
+    },
+    {
+      "epoch": 7.475156098847947,
+      "eval_accuracy": 0.9155577541429631,
+      "eval_combined_score": 0.9015757952856263,
+      "eval_f1": 0.8875938364282893,
+      "eval_loss": 0.2233825922012329,
+      "eval_runtime": 86.6966,
+      "eval_samples_per_second": 466.339,
+      "eval_steps_per_second": 0.911,
+      "step": 85000
+    },
+    {
+      "epoch": 7.5630991117755695,
+      "grad_norm": 0.5556538701057434,
+      "learning_rate": 4.254182274461983e-05,
+      "loss": 0.1583,
+      "step": 86000
+    },
+    {
+      "epoch": 7.5630991117755695,
+      "eval_accuracy": 0.9146920603512243,
+      "eval_combined_score": 0.9015676558184624,
+      "eval_f1": 0.8884432512857005,
+      "eval_loss": 0.22626982629299164,
+      "eval_runtime": 55.8275,
+      "eval_samples_per_second": 724.195,
+      "eval_steps_per_second": 1.415,
+      "step": 86000
+    },
+    {
+      "epoch": 7.651042124703192,
+      "grad_norm": 0.5572978854179382,
+      "learning_rate": 3.966660629288376e-05,
+      "loss": 0.1603,
+      "step": 87000
+    },
+    {
+      "epoch": 7.651042124703192,
+      "eval_accuracy": 0.9152856789512738,
+      "eval_combined_score": 0.9019354779714568,
+      "eval_f1": 0.8885852769916398,
+      "eval_loss": 0.22297683358192444,
+      "eval_runtime": 55.3128,
+      "eval_samples_per_second": 730.933,
+      "eval_steps_per_second": 1.428,
+      "step": 87000
+    },
+    {
+      "epoch": 7.738985137630815,
+      "grad_norm": 2.4749791622161865,
+      "learning_rate": 3.687711943519798e-05,
+      "loss": 0.1567,
+      "step": 88000
+    },
+    {
+      "epoch": 7.738985137630815,
+      "eval_accuracy": 0.914296314617858,
+      "eval_combined_score": 0.9009437777468852,
+      "eval_f1": 0.8875912408759125,
+      "eval_loss": 0.22879067063331604,
+      "eval_runtime": 55.9851,
+      "eval_samples_per_second": 722.156,
+      "eval_steps_per_second": 1.411,
+      "step": 88000
+    },
+    {
+      "epoch": 7.826928150558438,
+      "grad_norm": 1.4144024848937988,
+      "learning_rate": 3.4175529616683805e-05,
+      "loss": 0.1587,
+      "step": 89000
+    },
+    {
+      "epoch": 7.826928150558438,
+      "eval_accuracy": 0.9151867425179322,
+      "eval_combined_score": 0.9016827239411771,
+      "eval_f1": 0.888178705364422,
+      "eval_loss": 0.224980890750885,
+      "eval_runtime": 87.2835,
+      "eval_samples_per_second": 463.203,
+      "eval_steps_per_second": 0.905,
+      "step": 89000
+    },
+    {
+      "epoch": 7.914871163486061,
+      "grad_norm": 0.7645988464355469,
+      "learning_rate": 3.156393598602742e-05,
+      "loss": 0.1591,
+      "step": 90000
+    },
+    {
+      "epoch": 7.914871163486061,
+      "eval_accuracy": 0.9158050952263171,
+      "eval_combined_score": 0.9023723681678079,
+      "eval_f1": 0.8889396411092986,
+      "eval_loss": 0.21758203208446503,
+      "eval_runtime": 86.9097,
+      "eval_samples_per_second": 465.196,
+      "eval_steps_per_second": 0.909,
+      "step": 90000
+    },
+    {
+      "epoch": 8.002814176413684,
+      "grad_norm": 0.39321404695510864,
+      "learning_rate": 2.9044367764430513e-05,
+      "loss": 0.155,
+      "step": 91000
+    },
+    {
+      "epoch": 8.002814176413684,
+      "eval_accuracy": 0.9147167944595598,
+      "eval_combined_score": 0.9008115591295438,
+      "eval_f1": 0.8869063237995277,
+      "eval_loss": 0.22483354806900024,
+      "eval_runtime": 88.9285,
+      "eval_samples_per_second": 454.635,
+      "eval_steps_per_second": 0.888,
+      "step": 91000
+    },
+    {
+      "epoch": 8.090757189341307,
+      "grad_norm": 1.1553528308868408,
+      "learning_rate": 2.661878266889586e-05,
+      "loss": 0.1496,
+      "step": 92000
+    },
+    {
+      "epoch": 8.090757189341307,
+      "eval_accuracy": 0.91535988127628,
+      "eval_combined_score": 0.9018415488882543,
+      "eval_f1": 0.8883232165002285,
+      "eval_loss": 0.22659851610660553,
+      "eval_runtime": 56.6387,
+      "eval_samples_per_second": 713.823,
+      "eval_steps_per_second": 1.395,
+      "step": 92000
+    },
+    {
+      "epoch": 8.17870020226893,
+      "grad_norm": 1.0939350128173828,
+      "learning_rate": 2.428906539107102e-05,
+      "loss": 0.1522,
+      "step": 93000
+    },
+    {
+      "epoch": 8.17870020226893,
+      "eval_accuracy": 0.9154340836012862,
+      "eval_combined_score": 0.9024917147129352,
+      "eval_f1": 0.8895493458245841,
+      "eval_loss": 0.2251831442117691,
+      "eval_runtime": 56.5957,
+      "eval_samples_per_second": 714.365,
+      "eval_steps_per_second": 1.396,
+      "step": 93000
+    },
+    {
+      "epoch": 8.266643215196552,
+      "grad_norm": 1.2754027843475342,
+      "learning_rate": 2.2057026132833862e-05,
+      "loss": 0.1532,
+      "step": 94000
+    },
+    {
+      "epoch": 8.266643215196552,
+      "eval_accuracy": 0.9155082859262924,
+      "eval_combined_score": 0.9019517383630417,
+      "eval_f1": 0.8883951907997909,
+      "eval_loss": 0.22450992465019226,
+      "eval_runtime": 56.4448,
+      "eval_samples_per_second": 716.274,
+      "eval_steps_per_second": 1.4,
+      "step": 94000
+    },
+    {
+      "epoch": 8.354586228124175,
+      "grad_norm": 1.2699517011642456,
+      "learning_rate": 1.992439919975663e-05,
+      "loss": 0.1505,
+      "step": 95000
+    },
+    {
+      "epoch": 8.354586228124175,
+      "eval_accuracy": 0.9145683898095474,
+      "eval_combined_score": 0.9012709619001031,
+      "eval_f1": 0.887973533990659,
+      "eval_loss": 0.22519494593143463,
+      "eval_runtime": 52.4291,
+      "eval_samples_per_second": 771.137,
+      "eval_steps_per_second": 1.507,
+      "step": 95000
+    },
+    {
+      "epoch": 8.442529241051798,
+      "grad_norm": 1.124017357826233,
+      "learning_rate": 1.7892841653541984e-05,
+      "loss": 0.1462,
+      "step": 96000
+    },
+    {
+      "epoch": 8.442529241051798,
+      "eval_accuracy": 0.9155577541429631,
+      "eval_combined_score": 0.9018336751836997,
+      "eval_f1": 0.8881095962244363,
+      "eval_loss": 0.2291862517595291,
+      "eval_runtime": 81.0833,
+      "eval_samples_per_second": 498.623,
+      "eval_steps_per_second": 0.974,
+      "step": 96000
+    },
+    {
+      "epoch": 8.530472253979422,
+      "grad_norm": 0.7893108129501343,
+      "learning_rate": 1.596393202447782e-05,
+      "loss": 0.1538,
+      "step": 97000
+    },
+    {
+      "epoch": 8.530472253979422,
+      "eval_accuracy": 0.9159287657679941,
+      "eval_combined_score": 0.9021827174755224,
+      "eval_f1": 0.8884366691830505,
+      "eval_loss": 0.222365140914917,
+      "eval_runtime": 81.217,
+      "eval_samples_per_second": 497.802,
+      "eval_steps_per_second": 0.973,
+      "step": 97000
+    },
+    {
+      "epoch": 8.618415266907045,
+      "grad_norm": 0.7923777103424072,
+      "learning_rate": 1.4139169084911189e-05,
+      "loss": 0.1503,
+      "step": 98000
+    },
+    {
+      "epoch": 8.618415266907045,
+      "eval_accuracy": 0.9156319564679694,
+      "eval_combined_score": 0.9022205810308683,
+      "eval_f1": 0.8888092055937673,
+      "eval_loss": 0.2236052006483078,
+      "eval_runtime": 81.2109,
+      "eval_samples_per_second": 497.84,
+      "eval_steps_per_second": 0.973,
+      "step": 98000
+    },
+    {
+      "epoch": 8.706358279834667,
+      "grad_norm": 0.9545219540596008,
+      "learning_rate": 1.2419970684695196e-05,
+      "loss": 0.1562,
+      "step": 99000
+    },
+    {
+      "epoch": 8.706358279834667,
+      "eval_accuracy": 0.9157061587929756,
+      "eval_combined_score": 0.9024204183685112,
+      "eval_f1": 0.8891346779440469,
+      "eval_loss": 0.22190338373184204,
+      "eval_runtime": 52.158,
+      "eval_samples_per_second": 775.145,
+      "eval_steps_per_second": 1.515,
+      "step": 99000
+    },
+    {
+      "epoch": 8.79430129276229,
+      "grad_norm": 1.394586205482483,
+      "learning_rate": 1.0807672649512177e-05,
+      "loss": 0.1504,
+      "step": 100000
+    },
+    {
+      "epoch": 8.79430129276229,
+      "eval_accuracy": 0.9154340836012862,
+      "eval_combined_score": 0.9019621740533419,
+      "eval_f1": 0.8884902645053977,
+      "eval_loss": 0.22529225051403046,
+      "eval_runtime": 51.9658,
+      "eval_samples_per_second": 778.012,
+      "eval_steps_per_second": 1.52,
+      "step": 100000
+    },
+    {
+      "epoch": 8.882244305689913,
+      "grad_norm": 1.0966379642486572,
+      "learning_rate": 9.3035277429309e-06,
+      "loss": 0.15,
+      "step": 101000
+    },
+    {
+      "epoch": 8.882244305689913,
+      "eval_accuracy": 0.9157308929013109,
+      "eval_combined_score": 0.9022409566547371,
+      "eval_f1": 0.8887510204081632,
+      "eval_loss": 0.22496555745601654,
+      "eval_runtime": 52.0674,
+      "eval_samples_per_second": 776.493,
+      "eval_steps_per_second": 1.517,
+      "step": 101000
+    },
+    {
+      "epoch": 8.970187318617535,
+      "grad_norm": 0.7741194367408752,
+      "learning_rate": 7.908704693002666e-06,
+      "loss": 0.1463,
+      "step": 102000
+    },
+    {
+      "epoch": 8.970187318617535,
+      "eval_accuracy": 0.9152856789512738,
+      "eval_combined_score": 0.9019753168022955,
+      "eval_f1": 0.8886649546533173,
+      "eval_loss": 0.22557702660560608,
+      "eval_runtime": 52.2974,
+      "eval_samples_per_second": 773.079,
+      "eval_steps_per_second": 1.511,
+      "step": 102000
+    },
+    {
+      "epoch": 9.05813033154516,
+      "grad_norm": 1.8358986377716064,
+      "learning_rate": 6.624287284154212e-06,
+      "loss": 0.1543,
+      "step": 103000
+    },
+    {
+      "epoch": 9.05813033154516,
+      "eval_accuracy": 0.9157556270096463,
+      "eval_combined_score": 0.9022750970362323,
+      "eval_f1": 0.8887945670628183,
+      "eval_loss": 0.22461377084255219,
+      "eval_runtime": 81.1692,
+      "eval_samples_per_second": 498.095,
+      "eval_steps_per_second": 0.973,
+      "step": 103000
+    },
+    {
+      "epoch": 9.146073344472782,
+      "grad_norm": 1.2145054340362549,
+      "learning_rate": 5.451273515081639e-06,
+      "loss": 0.1498,
+      "step": 104000
+    },
+    {
+      "epoch": 9.146073344472782,
+      "eval_accuracy": 0.9150878060845906,
+      "eval_combined_score": 0.9016809811820421,
+      "eval_f1": 0.8882741562794936,
+      "eval_loss": 0.2247944474220276,
+      "eval_runtime": 80.9979,
+      "eval_samples_per_second": 499.149,
+      "eval_steps_per_second": 0.975,
+      "step": 104000
+    },
+    {
+      "epoch": 9.234016357400405,
+      "grad_norm": 0.44356486201286316,
+      "learning_rate": 4.3905748233003915e-06,
+      "loss": 0.1468,
+      "step": 105000
+    },
+    {
+      "epoch": 9.234016357400405,
+      "eval_accuracy": 0.9159782339846648,
+      "eval_combined_score": 0.9024553586140425,
+      "eval_f1": 0.88893248324342,
+      "eval_loss": 0.2253103107213974,
+      "eval_runtime": 81.4817,
+      "eval_samples_per_second": 496.185,
+      "eval_steps_per_second": 0.97,
+      "step": 105000
+    },
+    {
+      "epoch": 9.321959370328027,
+      "grad_norm": 2.883650302886963,
+      "learning_rate": 3.4430153769539838e-06,
+      "loss": 0.148,
+      "step": 106000
+    },
+    {
+      "epoch": 9.321959370328027,
+      "eval_accuracy": 0.9157803611179817,
+      "eval_combined_score": 0.9025477237114792,
+      "eval_f1": 0.8893150863049768,
+      "eval_loss": 0.22751761972904205,
+      "eval_runtime": 52.5389,
+      "eval_samples_per_second": 769.525,
+      "eval_steps_per_second": 1.504,
+      "step": 106000
+    },
+    {
+      "epoch": 9.40990238325565,
+      "grad_norm": 1.5495615005493164,
+      "learning_rate": 2.609331434431139e-06,
+      "loss": 0.1527,
+      "step": 107000
+    },
+    {
+      "epoch": 9.40990238325565,
+      "eval_accuracy": 0.9156814246846401,
+      "eval_combined_score": 0.9023430403467481,
+      "eval_f1": 0.8890046560088561,
+      "eval_loss": 0.22490988671779633,
+      "eval_runtime": 51.5829,
+      "eval_samples_per_second": 783.787,
+      "eval_steps_per_second": 1.532,
+      "step": 107000
+    },
+    {
+      "epoch": 9.497845396183273,
+      "grad_norm": 0.8224658370018005,
+      "learning_rate": 1.890170772289401e-06,
+      "loss": 0.1511,
+      "step": 108000
+    },
+    {
+      "epoch": 9.497845396183273,
+      "eval_accuracy": 0.9155824882512985,
+      "eval_combined_score": 0.902134220545205,
+      "eval_f1": 0.8886859528391116,
+      "eval_loss": 0.2251313477754593,
+      "eval_runtime": 52.5892,
+      "eval_samples_per_second": 768.789,
+      "eval_steps_per_second": 1.502,
+      "step": 108000
+    },
+    {
+      "epoch": 9.585788409110895,
+      "grad_norm": 1.336452603340149,
+      "learning_rate": 1.286092181929571e-06,
+      "loss": 0.1508,
+      "step": 109000
+    },
+    {
+      "epoch": 9.585788409110895,
+      "eval_accuracy": 0.9155577541429631,
+      "eval_combined_score": 0.9021327693651313,
+      "eval_f1": 0.8887077845872995,
+      "eval_loss": 0.22481171786785126,
+      "eval_runtime": 51.2622,
+      "eval_samples_per_second": 788.691,
+      "eval_steps_per_second": 1.541,
+      "step": 109000
+    },
+    {
+      "epoch": 9.67373142203852,
+      "grad_norm": 2.6884238719940186,
+      "learning_rate": 7.975650354119345e-07,
+      "loss": 0.1413,
+      "step": 110000
+    },
+    {
+      "epoch": 9.67373142203852,
+      "eval_accuracy": 0.9155824882512985,
+      "eval_combined_score": 0.902112429156156,
+      "eval_f1": 0.8886423700610134,
+      "eval_loss": 0.22579550743103027,
+      "eval_runtime": 80.932,
+      "eval_samples_per_second": 499.555,
+      "eval_steps_per_second": 0.976,
+      "step": 110000
+    },
+    {
+      "epoch": 9.761674434966142,
+      "grad_norm": 1.046630620956421,
+      "learning_rate": 4.249689207519447e-07,
+      "loss": 0.1506,
+      "step": 111000
+    },
+    {
+      "epoch": 9.761674434966142,
+      "eval_accuracy": 0.9152856789512738,
+      "eval_combined_score": 0.9018519940610743,
+      "eval_f1": 0.8884183091708747,
+      "eval_loss": 0.22598420083522797,
+      "eval_runtime": 81.1014,
+      "eval_samples_per_second": 498.512,
+      "eval_steps_per_second": 0.974,
+      "step": 111000
+    },
+    {
+      "epoch": 9.849617447893765,
+      "grad_norm": 0.9446746110916138,
+      "learning_rate": 1.6859334697840177e-07,
+      "loss": 0.1532,
+      "step": 112000
+    },
+    {
+      "epoch": 9.849617447893765,
+      "eval_accuracy": 0.9155082859262924,
+      "eval_combined_score": 0.9021443233369171,
+      "eval_f1": 0.8887803607475419,
+      "eval_loss": 0.22602435946464539,
+      "eval_runtime": 81.1781,
+      "eval_samples_per_second": 498.041,
+      "eval_steps_per_second": 0.973,
+      "step": 112000
+    },
+    {
+      "epoch": 9.937560460821388,
+      "grad_norm": 0.8685068488121033,
+      "learning_rate": 2.863751918346091e-08,
+      "loss": 0.1452,
+      "step": 113000
+    },
+    {
+      "epoch": 9.937560460821388,
+      "eval_accuracy": 0.9155082859262924,
+      "eval_combined_score": 0.9021443233369171,
+      "eval_f1": 0.8887803607475419,
+      "eval_loss": 0.22605791687965393,
+      "eval_runtime": 52.1365,
+      "eval_samples_per_second": 775.464,
+      "eval_steps_per_second": 1.515,
+      "step": 113000
+    },
+    {
+      "epoch": 10.0,
+      "step": 113710,
+      "total_flos": 6.076865681478144e+17,
+      "train_loss": 0.19076461288778232,
+      "train_runtime": 59328.5284,
+      "train_samples_per_second": 61.327,
+      "train_steps_per_second": 1.917
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 113710,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.076865681478144e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/RTE.tsv ADDED Viewed

	@@ -0,0 +1,3001 @@

+index	prediction
+0	not_entailment
+1	entailment
+2	entailment
+3	not_entailment
+4	entailment
+5	entailment
+6	entailment
+7	not_entailment
+8	not_entailment
+9	entailment
+10	not_entailment
+11	entailment
+12	not_entailment
+13	not_entailment
+14	not_entailment
+15	not_entailment
+16	not_entailment
+17	entailment
+18	entailment
+19	not_entailment
+20	entailment
+21	not_entailment
+22	not_entailment
+23	not_entailment
+24	not_entailment
+25	not_entailment
+26	entailment
+27	entailment
+28	entailment
+29	entailment
+30	not_entailment
+31	entailment
+32	not_entailment
+33	not_entailment
+34	not_entailment
+35	entailment
+36	not_entailment
+37	entailment
+38	entailment
+39	entailment
+40	entailment
+41	not_entailment
+42	entailment
+43	not_entailment
+44	not_entailment
+45	entailment
+46	entailment
+47	entailment
+48	entailment
+49	not_entailment
+50	not_entailment
+51	entailment
+52	not_entailment
+53	entailment
+54	entailment
+55	not_entailment
+56	entailment
+57	not_entailment
+58	entailment
+59	entailment
+60	entailment
+61	not_entailment
+62	not_entailment
+63	entailment
+64	entailment
+65	not_entailment
+66	entailment
+67	not_entailment
+68	not_entailment
+69	entailment
+70	entailment
+71	entailment
+72	entailment
+73	entailment
+74	entailment
+75	entailment
+76	not_entailment
+77	entailment
+78	entailment
+79	not_entailment
+80	not_entailment
+81	entailment
+82	not_entailment
+83	not_entailment
+84	entailment
+85	not_entailment
+86	entailment
+87	not_entailment
+88	entailment
+89	entailment
+90	not_entailment
+91	entailment
+92	not_entailment
+93	entailment
+94	entailment
+95	not_entailment
+96	entailment
+97	entailment
+98	not_entailment
+99	entailment
+100	entailment
+101	entailment
+102	not_entailment
+103	entailment
+104	entailment
+105	entailment
+106	entailment
+107	not_entailment
+108	not_entailment
+109	not_entailment
+110	entailment
+111	not_entailment
+112	not_entailment
+113	not_entailment
+114	entailment
+115	entailment
+116	entailment
+117	not_entailment
+118	not_entailment
+119	not_entailment
+120	not_entailment
+121	not_entailment
+122	not_entailment
+123	not_entailment
+124	entailment
+125	entailment
+126	not_entailment
+127	entailment
+128	entailment
+129	entailment
+130	entailment
+131	entailment
+132	not_entailment
+133	not_entailment
+134	entailment
+135	not_entailment
+136	not_entailment
+137	not_entailment
+138	entailment
+139	not_entailment
+140	entailment
+141	not_entailment
+142	entailment
+143	entailment
+144	entailment
+145	not_entailment
+146	not_entailment
+147	not_entailment
+148	not_entailment
+149	entailment
+150	entailment
+151	entailment
+152	not_entailment
+153	entailment
+154	entailment
+155	not_entailment
+156	not_entailment
+157	entailment
+158	not_entailment
+159	not_entailment
+160	entailment
+161	not_entailment
+162	entailment
+163	not_entailment
+164	not_entailment
+165	entailment
+166	entailment
+167	entailment
+168	entailment
+169	not_entailment
+170	entailment
+171	entailment
+172	not_entailment
+173	entailment
+174	entailment
+175	not_entailment
+176	not_entailment
+177	not_entailment
+178	entailment
+179	not_entailment
+180	not_entailment
+181	not_entailment
+182	entailment
+183	not_entailment
+184	entailment
+185	not_entailment
+186	entailment
+187	entailment
+188	not_entailment
+189	not_entailment
+190	entailment
+191	entailment
+192	entailment
+193	not_entailment
+194	entailment
+195	entailment
+196	entailment
+197	not_entailment
+198	entailment
+199	not_entailment
+200	entailment
+201	entailment
+202	entailment
+203	not_entailment
+204	not_entailment
+205	entailment
+206	not_entailment
+207	not_entailment
+208	not_entailment
+209	entailment
+210	not_entailment
+211	not_entailment
+212	entailment
+213	entailment
+214	entailment
+215	entailment
+216	not_entailment
+217	not_entailment
+218	not_entailment
+219	not_entailment
+220	entailment
+221	not_entailment
+222	not_entailment
+223	not_entailment
+224	entailment
+225	not_entailment
+226	entailment
+227	not_entailment
+228	not_entailment
+229	not_entailment
+230	not_entailment
+231	entailment
+232	not_entailment
+233	not_entailment
+234	entailment
+235	not_entailment
+236	not_entailment
+237	entailment
+238	not_entailment
+239	entailment
+240	entailment
+241	not_entailment
+242	entailment
+243	entailment
+244	not_entailment
+245	not_entailment
+246	entailment
+247	not_entailment
+248	entailment
+249	not_entailment
+250	entailment
+251	not_entailment
+252	entailment
+253	not_entailment
+254	entailment
+255	entailment
+256	not_entailment
+257	not_entailment
+258	entailment
+259	not_entailment
+260	not_entailment
+261	not_entailment
+262	entailment
+263	not_entailment
+264	entailment
+265	entailment
+266	not_entailment
+267	not_entailment
+268	entailment
+269	not_entailment
+270	not_entailment
+271	entailment
+272	not_entailment
+273	not_entailment
+274	entailment
+275	not_entailment
+276	not_entailment
+277	entailment
+278	not_entailment
+279	not_entailment
+280	not_entailment
+281	entailment
+282	entailment
+283	not_entailment
+284	not_entailment
+285	not_entailment
+286	entailment
+287	not_entailment
+288	not_entailment
+289	entailment
+290	not_entailment
+291	not_entailment
+292	not_entailment
+293	entailment
+294	entailment
+295	not_entailment
+296	not_entailment
+297	not_entailment
+298	entailment
+299	not_entailment
+300	not_entailment
+301	entailment
+302	entailment
+303	not_entailment
+304	entailment
+305	not_entailment
+306	not_entailment
+307	not_entailment
+308	not_entailment
+309	not_entailment
+310	not_entailment
+311	entailment
+312	not_entailment
+313	not_entailment
+314	entailment
+315	not_entailment
+316	entailment
+317	not_entailment
+318	entailment
+319	entailment
+320	not_entailment
+321	not_entailment
+322	entailment
+323	entailment
+324	entailment
+325	not_entailment
+326	not_entailment
+327	entailment
+328	not_entailment
+329	not_entailment
+330	not_entailment
+331	not_entailment
+332	not_entailment
+333	not_entailment
+334	not_entailment
+335	entailment
+336	not_entailment
+337	entailment
+338	not_entailment
+339	entailment
+340	entailment
+341	entailment
+342	entailment
+343	not_entailment
+344	not_entailment
+345	entailment
+346	entailment
+347	entailment
+348	not_entailment
+349	not_entailment
+350	entailment
+351	entailment
+352	not_entailment
+353	not_entailment
+354	entailment
+355	not_entailment
+356	entailment
+357	not_entailment
+358	entailment
+359	not_entailment
+360	entailment
+361	entailment
+362	entailment
+363	not_entailment
+364	entailment
+365	not_entailment
+366	not_entailment
+367	entailment
+368	entailment
+369	not_entailment
+370	not_entailment
+371	not_entailment
+372	not_entailment
+373	entailment
+374	not_entailment
+375	entailment
+376	not_entailment
+377	entailment
+378	not_entailment
+379	not_entailment
+380	not_entailment
+381	not_entailment
+382	not_entailment
+383	entailment
+384	not_entailment
+385	entailment
+386	not_entailment
+387	entailment
+388	entailment
+389	not_entailment
+390	not_entailment
+391	entailment
+392	not_entailment
+393	entailment
+394	entailment
+395	entailment
+396	entailment
+397	not_entailment
+398	not_entailment
+399	entailment
+400	entailment
+401	entailment
+402	entailment
+403	entailment
+404	not_entailment
+405	entailment
+406	not_entailment
+407	entailment
+408	not_entailment
+409	entailment
+410	not_entailment
+411	entailment
+412	entailment
+413	entailment
+414	not_entailment
+415	not_entailment
+416	not_entailment
+417	not_entailment
+418	not_entailment
+419	not_entailment
+420	entailment
+421	entailment
+422	not_entailment
+423	entailment
+424	entailment
+425	entailment
+426	entailment
+427	not_entailment
+428	entailment
+429	entailment
+430	entailment
+431	not_entailment
+432	entailment
+433	entailment
+434	not_entailment
+435	not_entailment
+436	not_entailment
+437	entailment
+438	entailment
+439	not_entailment
+440	not_entailment
+441	entailment
+442	entailment
+443	entailment
+444	not_entailment
+445	entailment
+446	entailment
+447	entailment
+448	entailment
+449	entailment
+450	entailment
+451	entailment
+452	not_entailment
+453	entailment
+454	not_entailment
+455	not_entailment
+456	entailment
+457	entailment
+458	entailment
+459	entailment
+460	entailment
+461	entailment
+462	entailment
+463	not_entailment
+464	entailment
+465	entailment
+466	entailment
+467	not_entailment
+468	entailment
+469	entailment
+470	not_entailment
+471	entailment
+472	not_entailment
+473	entailment
+474	entailment
+475	not_entailment
+476	not_entailment
+477	not_entailment
+478	not_entailment
+479	entailment
+480	not_entailment
+481	entailment
+482	not_entailment
+483	entailment
+484	entailment
+485	entailment
+486	entailment
+487	entailment
+488	not_entailment
+489	entailment
+490	entailment
+491	entailment
+492	not_entailment
+493	entailment
+494	entailment
+495	not_entailment
+496	not_entailment
+497	entailment
+498	entailment
+499	entailment
+500	entailment
+501	entailment
+502	entailment
+503	entailment
+504	not_entailment
+505	entailment
+506	entailment
+507	not_entailment
+508	entailment
+509	not_entailment
+510	not_entailment
+511	entailment
+512	not_entailment
+513	entailment
+514	entailment
+515	not_entailment
+516	not_entailment
+517	not_entailment
+518	not_entailment
+519	not_entailment
+520	not_entailment
+521	not_entailment
+522	not_entailment
+523	entailment
+524	entailment
+525	entailment
+526	not_entailment
+527	entailment
+528	entailment
+529	not_entailment
+530	entailment
+531	not_entailment
+532	not_entailment
+533	entailment
+534	entailment
+535	entailment
+536	not_entailment
+537	entailment
+538	entailment
+539	not_entailment
+540	entailment
+541	not_entailment
+542	not_entailment
+543	entailment
+544	entailment
+545	not_entailment
+546	entailment
+547	entailment
+548	entailment
+549	entailment
+550	not_entailment
+551	entailment
+552	entailment
+553	not_entailment
+554	entailment
+555	not_entailment
+556	not_entailment
+557	not_entailment
+558	not_entailment
+559	not_entailment
+560	entailment
+561	entailment
+562	not_entailment
+563	entailment
+564	entailment
+565	entailment
+566	entailment
+567	entailment
+568	not_entailment
+569	entailment
+570	entailment
+571	entailment
+572	entailment
+573	not_entailment
+574	entailment
+575	not_entailment
+576	entailment
+577	entailment
+578	not_entailment
+579	entailment
+580	entailment
+581	not_entailment
+582	not_entailment
+583	entailment
+584	entailment
+585	entailment
+586	entailment
+587	not_entailment
+588	entailment
+589	not_entailment
+590	entailment
+591	not_entailment
+592	not_entailment
+593	not_entailment
+594	entailment
+595	not_entailment
+596	entailment
+597	not_entailment
+598	entailment
+599	not_entailment
+600	entailment
+601	entailment
+602	not_entailment
+603	not_entailment
+604	not_entailment
+605	not_entailment
+606	entailment
+607	entailment
+608	not_entailment
+609	entailment
+610	entailment
+611	not_entailment
+612	entailment
+613	not_entailment
+614	not_entailment
+615	entailment
+616	entailment
+617	entailment
+618	not_entailment
+619	entailment
+620	entailment
+621	entailment
+622	entailment
+623	not_entailment
+624	entailment
+625	entailment
+626	not_entailment
+627	entailment
+628	not_entailment
+629	not_entailment
+630	entailment
+631	entailment
+632	not_entailment
+633	not_entailment
+634	not_entailment
+635	entailment
+636	entailment
+637	entailment
+638	not_entailment
+639	entailment
+640	entailment
+641	not_entailment
+642	entailment
+643	not_entailment
+644	entailment
+645	not_entailment
+646	entailment
+647	entailment
+648	not_entailment
+649	not_entailment
+650	not_entailment
+651	not_entailment
+652	entailment
+653	not_entailment
+654	entailment
+655	entailment
+656	entailment
+657	entailment
+658	not_entailment
+659	not_entailment
+660	not_entailment
+661	not_entailment
+662	entailment
+663	entailment
+664	not_entailment
+665	not_entailment
+666	entailment
+667	entailment
+668	not_entailment
+669	not_entailment
+670	entailment
+671	entailment
+672	not_entailment
+673	not_entailment
+674	not_entailment
+675	not_entailment
+676	entailment
+677	entailment
+678	entailment
+679	entailment
+680	entailment
+681	entailment
+682	not_entailment
+683	entailment
+684	entailment
+685	entailment
+686	entailment
+687	entailment
+688	not_entailment
+689	not_entailment
+690	entailment
+691	not_entailment
+692	entailment
+693	entailment
+694	entailment
+695	not_entailment
+696	not_entailment
+697	entailment
+698	entailment
+699	entailment
+700	entailment
+701	entailment
+702	entailment
+703	not_entailment
+704	not_entailment
+705	not_entailment
+706	not_entailment
+707	entailment
+708	entailment
+709	not_entailment
+710	not_entailment
+711	entailment
+712	entailment
+713	entailment
+714	entailment
+715	not_entailment
+716	not_entailment
+717	not_entailment
+718	not_entailment
+719	not_entailment
+720	entailment
+721	entailment
+722	entailment
+723	not_entailment
+724	entailment
+725	entailment
+726	not_entailment
+727	entailment
+728	entailment
+729	entailment
+730	entailment
+731	entailment
+732	entailment
+733	entailment
+734	entailment
+735	entailment
+736	entailment
+737	not_entailment
+738	entailment
+739	entailment
+740	not_entailment
+741	entailment
+742	not_entailment
+743	not_entailment
+744	entailment
+745	entailment
+746	not_entailment
+747	not_entailment
+748	not_entailment
+749	not_entailment
+750	entailment
+751	entailment
+752	not_entailment
+753	not_entailment
+754	not_entailment
+755	not_entailment
+756	entailment
+757	not_entailment
+758	not_entailment
+759	not_entailment
+760	entailment
+761	entailment
+762	entailment
+763	not_entailment
+764	not_entailment
+765	not_entailment
+766	entailment
+767	not_entailment
+768	entailment
+769	entailment
+770	entailment
+771	not_entailment
+772	not_entailment
+773	not_entailment
+774	not_entailment
+775	entailment
+776	entailment
+777	entailment
+778	not_entailment
+779	not_entailment
+780	entailment
+781	entailment
+782	entailment
+783	entailment
+784	entailment
+785	entailment
+786	entailment
+787	entailment
+788	entailment
+789	entailment
+790	not_entailment
+791	not_entailment
+792	entailment
+793	entailment
+794	not_entailment
+795	entailment
+796	entailment
+797	entailment
+798	entailment
+799	not_entailment
+800	entailment
+801	entailment
+802	entailment
+803	entailment
+804	not_entailment
+805	entailment
+806	not_entailment
+807	entailment
+808	entailment
+809	not_entailment
+810	not_entailment
+811	entailment
+812	not_entailment
+813	entailment
+814	entailment
+815	entailment
+816	entailment
+817	entailment
+818	entailment
+819	not_entailment
+820	entailment
+821	not_entailment
+822	entailment
+823	entailment
+824	entailment
+825	entailment
+826	entailment
+827	entailment
+828	not_entailment
+829	entailment
+830	entailment
+831	entailment
+832	entailment
+833	not_entailment
+834	entailment
+835	entailment
+836	entailment
+837	not_entailment
+838	not_entailment
+839	entailment
+840	entailment
+841	entailment
+842	not_entailment
+843	not_entailment
+844	entailment
+845	entailment
+846	entailment
+847	entailment
+848	entailment
+849	not_entailment
+850	not_entailment
+851	entailment
+852	entailment
+853	entailment
+854	not_entailment
+855	not_entailment
+856	not_entailment
+857	not_entailment
+858	not_entailment
+859	entailment
+860	entailment
+861	not_entailment
+862	entailment
+863	not_entailment
+864	entailment
+865	entailment
+866	entailment
+867	entailment
+868	entailment
+869	entailment
+870	entailment
+871	entailment
+872	entailment
+873	entailment
+874	entailment
+875	entailment
+876	not_entailment
+877	entailment
+878	entailment
+879	entailment
+880	entailment
+881	entailment
+882	entailment
+883	entailment
+884	entailment
+885	entailment
+886	entailment
+887	entailment
+888	not_entailment
+889	entailment
+890	not_entailment
+891	entailment
+892	entailment
+893	entailment
+894	entailment
+895	entailment
+896	not_entailment
+897	not_entailment
+898	not_entailment
+899	not_entailment
+900	not_entailment
+901	entailment
+902	entailment
+903	entailment
+904	entailment
+905	entailment
+906	entailment
+907	entailment
+908	entailment
+909	entailment
+910	not_entailment
+911	not_entailment
+912	not_entailment
+913	entailment
+914	entailment
+915	entailment
+916	entailment
+917	entailment
+918	not_entailment
+919	entailment
+920	entailment
+921	entailment
+922	entailment
+923	not_entailment
+924	not_entailment
+925	entailment
+926	entailment
+927	entailment
+928	entailment
+929	entailment
+930	not_entailment
+931	entailment
+932	entailment
+933	not_entailment
+934	entailment
+935	entailment
+936	entailment
+937	entailment
+938	not_entailment
+939	not_entailment
+940	not_entailment
+941	entailment
+942	entailment
+943	entailment
+944	not_entailment
+945	not_entailment
+946	not_entailment
+947	not_entailment
+948	not_entailment
+949	not_entailment
+950	entailment
+951	entailment
+952	entailment
+953	not_entailment
+954	entailment
+955	not_entailment
+956	entailment
+957	not_entailment
+958	not_entailment
+959	not_entailment
+960	entailment
+961	entailment
+962	entailment
+963	entailment
+964	entailment
+965	entailment
+966	entailment
+967	entailment
+968	entailment
+969	not_entailment
+970	entailment
+971	entailment
+972	entailment
+973	entailment
+974	entailment
+975	entailment
+976	entailment
+977	entailment
+978	not_entailment
+979	not_entailment
+980	not_entailment
+981	not_entailment
+982	entailment
+983	entailment
+984	not_entailment
+985	not_entailment
+986	entailment
+987	entailment
+988	not_entailment
+989	entailment
+990	entailment
+991	not_entailment
+992	entailment
+993	not_entailment
+994	entailment
+995	entailment
+996	entailment
+997	not_entailment
+998	entailment
+999	not_entailment
+1000	entailment
+1001	not_entailment
+1002	entailment
+1003	not_entailment
+1004	not_entailment
+1005	entailment
+1006	entailment
+1007	entailment
+1008	entailment
+1009	not_entailment
+1010	entailment
+1011	not_entailment
+1012	not_entailment
+1013	not_entailment
+1014	not_entailment
+1015	entailment
+1016	entailment
+1017	entailment
+1018	not_entailment
+1019	entailment
+1020	not_entailment
+1021	entailment
+1022	not_entailment
+1023	entailment
+1024	not_entailment
+1025	not_entailment
+1026	not_entailment
+1027	not_entailment
+1028	entailment
+1029	not_entailment
+1030	not_entailment
+1031	not_entailment
+1032	entailment
+1033	entailment
+1034	entailment
+1035	entailment
+1036	not_entailment
+1037	not_entailment
+1038	not_entailment
+1039	entailment
+1040	not_entailment
+1041	not_entailment
+1042	entailment
+1043	not_entailment
+1044	not_entailment
+1045	entailment
+1046	not_entailment
+1047	not_entailment
+1048	entailment
+1049	entailment
+1050	not_entailment
+1051	entailment
+1052	not_entailment
+1053	not_entailment
+1054	entailment
+1055	entailment
+1056	not_entailment
+1057	entailment
+1058	not_entailment
+1059	entailment
+1060	entailment
+1061	not_entailment
+1062	not_entailment
+1063	entailment
+1064	not_entailment
+1065	entailment
+1066	entailment
+1067	entailment
+1068	entailment
+1069	not_entailment
+1070	entailment
+1071	not_entailment
+1072	entailment
+1073	entailment
+1074	not_entailment
+1075	not_entailment
+1076	not_entailment
+1077	entailment
+1078	not_entailment
+1079	entailment
+1080	entailment
+1081	not_entailment
+1082	not_entailment
+1083	entailment
+1084	entailment
+1085	entailment
+1086	entailment
+1087	entailment
+1088	entailment
+1089	not_entailment
+1090	not_entailment
+1091	entailment
+1092	not_entailment
+1093	not_entailment
+1094	not_entailment
+1095	not_entailment
+1096	entailment
+1097	entailment
+1098	not_entailment
+1099	not_entailment
+1100	not_entailment
+1101	not_entailment
+1102	not_entailment
+1103	not_entailment
+1104	not_entailment
+1105	not_entailment
+1106	not_entailment
+1107	not_entailment
+1108	not_entailment
+1109	not_entailment
+1110	not_entailment
+1111	not_entailment
+1112	not_entailment
+1113	entailment
+1114	entailment
+1115	not_entailment
+1116	not_entailment
+1117	not_entailment
+1118	not_entailment
+1119	entailment
+1120	not_entailment
+1121	not_entailment
+1122	not_entailment
+1123	not_entailment
+1124	entailment
+1125	entailment
+1126	entailment
+1127	entailment
+1128	not_entailment
+1129	not_entailment
+1130	not_entailment
+1131	entailment
+1132	not_entailment
+1133	entailment
+1134	not_entailment
+1135	not_entailment
+1136	not_entailment
+1137	not_entailment
+1138	not_entailment
+1139	entailment
+1140	not_entailment
+1141	not_entailment
+1142	entailment
+1143	not_entailment
+1144	not_entailment
+1145	entailment
+1146	not_entailment
+1147	entailment
+1148	not_entailment
+1149	not_entailment
+1150	not_entailment
+1151	not_entailment
+1152	not_entailment
+1153	entailment
+1154	entailment
+1155	entailment
+1156	entailment
+1157	entailment
+1158	not_entailment
+1159	not_entailment
+1160	entailment
+1161	not_entailment
+1162	not_entailment
+1163	not_entailment
+1164	not_entailment
+1165	entailment
+1166	not_entailment
+1167	entailment
+1168	not_entailment
+1169	not_entailment
+1170	entailment
+1171	entailment
+1172	not_entailment
+1173	entailment
+1174	not_entailment
+1175	entailment
+1176	entailment
+1177	entailment
+1178	not_entailment
+1179	not_entailment
+1180	not_entailment
+1181	not_entailment
+1182	not_entailment
+1183	not_entailment
+1184	not_entailment
+1185	not_entailment
+1186	not_entailment
+1187	not_entailment
+1188	not_entailment
+1189	not_entailment
+1190	not_entailment
+1191	not_entailment
+1192	not_entailment
+1193	not_entailment
+1194	not_entailment
+1195	not_entailment
+1196	not_entailment
+1197	not_entailment
+1198	entailment
+1199	not_entailment
+1200	entailment
+1201	entailment
+1202	entailment
+1203	not_entailment
+1204	not_entailment
+1205	entailment
+1206	entailment
+1207	entailment
+1208	not_entailment
+1209	not_entailment
+1210	entailment
+1211	entailment
+1212	not_entailment
+1213	entailment
+1214	entailment
+1215	entailment
+1216	entailment
+1217	not_entailment
+1218	entailment
+1219	entailment
+1220	entailment
+1221	entailment
+1222	entailment
+1223	entailment
+1224	not_entailment
+1225	entailment
+1226	entailment
+1227	not_entailment
+1228	entailment
+1229	entailment
+1230	entailment
+1231	entailment
+1232	entailment
+1233	not_entailment
+1234	entailment
+1235	entailment
+1236	entailment
+1237	entailment
+1238	entailment
+1239	entailment
+1240	not_entailment
+1241	entailment
+1242	entailment
+1243	entailment
+1244	entailment
+1245	entailment
+1246	entailment
+1247	not_entailment
+1248	entailment
+1249	entailment
+1250	not_entailment
+1251	entailment
+1252	entailment
+1253	entailment
+1254	not_entailment
+1255	entailment
+1256	not_entailment
+1257	not_entailment
+1258	entailment
+1259	not_entailment
+1260	not_entailment
+1261	entailment
+1262	not_entailment
+1263	not_entailment
+1264	not_entailment
+1265	entailment
+1266	entailment
+1267	entailment
+1268	not_entailment
+1269	not_entailment
+1270	entailment
+1271	entailment
+1272	entailment
+1273	entailment
+1274	not_entailment
+1275	entailment
+1276	not_entailment
+1277	entailment
+1278	entailment
+1279	entailment
+1280	entailment
+1281	not_entailment
+1282	not_entailment
+1283	not_entailment
+1284	not_entailment
+1285	entailment
+1286	not_entailment
+1287	entailment
+1288	entailment
+1289	entailment
+1290	entailment
+1291	entailment
+1292	entailment
+1293	not_entailment
+1294	entailment
+1295	entailment
+1296	not_entailment
+1297	entailment
+1298	entailment
+1299	entailment
+1300	entailment
+1301	not_entailment
+1302	entailment
+1303	not_entailment
+1304	entailment
+1305	entailment
+1306	not_entailment
+1307	not_entailment
+1308	entailment
+1309	not_entailment
+1310	not_entailment
+1311	not_entailment
+1312	not_entailment
+1313	entailment
+1314	entailment
+1315	not_entailment
+1316	not_entailment
+1317	entailment
+1318	not_entailment
+1319	not_entailment
+1320	entailment
+1321	not_entailment
+1322	not_entailment
+1323	not_entailment
+1324	not_entailment
+1325	not_entailment
+1326	not_entailment
+1327	entailment
+1328	not_entailment
+1329	entailment
+1330	entailment
+1331	not_entailment
+1332	not_entailment
+1333	not_entailment
+1334	entailment
+1335	entailment
+1336	not_entailment
+1337	entailment
+1338	entailment
+1339	entailment
+1340	entailment
+1341	entailment
+1342	entailment
+1343	entailment
+1344	not_entailment
+1345	not_entailment
+1346	entailment
+1347	entailment
+1348	entailment
+1349	entailment
+1350	not_entailment
+1351	entailment
+1352	entailment
+1353	not_entailment
+1354	not_entailment
+1355	entailment
+1356	entailment
+1357	not_entailment
+1358	entailment
+1359	entailment
+1360	not_entailment
+1361	not_entailment
+1362	not_entailment
+1363	not_entailment
+1364	not_entailment
+1365	entailment
+1366	entailment
+1367	entailment
+1368	entailment
+1369	not_entailment
+1370	entailment
+1371	entailment
+1372	entailment
+1373	entailment
+1374	not_entailment
+1375	entailment
+1376	not_entailment
+1377	not_entailment
+1378	not_entailment
+1379	not_entailment
+1380	not_entailment
+1381	entailment
+1382	entailment
+1383	not_entailment
+1384	not_entailment
+1385	entailment
+1386	entailment
+1387	entailment
+1388	not_entailment
+1389	not_entailment
+1390	entailment
+1391	not_entailment
+1392	not_entailment
+1393	entailment
+1394	entailment
+1395	entailment
+1396	not_entailment
+1397	entailment
+1398	not_entailment
+1399	not_entailment
+1400	entailment
+1401	not_entailment
+1402	entailment
+1403	entailment
+1404	not_entailment
+1405	entailment
+1406	not_entailment
+1407	entailment
+1408	not_entailment
+1409	not_entailment
+1410	entailment
+1411	entailment
+1412	not_entailment
+1413	entailment
+1414	not_entailment
+1415	entailment
+1416	not_entailment
+1417	entailment
+1418	entailment
+1419	entailment
+1420	not_entailment
+1421	entailment
+1422	entailment
+1423	entailment
+1424	entailment
+1425	entailment
+1426	entailment
+1427	entailment
+1428	entailment
+1429	not_entailment
+1430	entailment
+1431	entailment
+1432	not_entailment
+1433	entailment
+1434	entailment
+1435	not_entailment
+1436	entailment
+1437	not_entailment
+1438	entailment
+1439	entailment
+1440	entailment
+1441	entailment
+1442	entailment
+1443	not_entailment
+1444	entailment
+1445	entailment
+1446	not_entailment
+1447	entailment
+1448	not_entailment
+1449	entailment
+1450	entailment
+1451	not_entailment
+1452	not_entailment
+1453	not_entailment
+1454	not_entailment
+1455	entailment
+1456	entailment
+1457	entailment
+1458	entailment
+1459	entailment
+1460	not_entailment
+1461	entailment
+1462	entailment
+1463	entailment
+1464	entailment
+1465	entailment
+1466	entailment
+1467	entailment
+1468	entailment
+1469	not_entailment
+1470	entailment
+1471	not_entailment
+1472	not_entailment
+1473	entailment
+1474	entailment
+1475	entailment
+1476	entailment
+1477	entailment
+1478	entailment
+1479	not_entailment
+1480	not_entailment
+1481	not_entailment
+1482	entailment
+1483	entailment
+1484	entailment
+1485	not_entailment
+1486	entailment
+1487	entailment
+1488	entailment
+1489	entailment
+1490	entailment
+1491	entailment
+1492	entailment
+1493	entailment
+1494	entailment
+1495	entailment
+1496	entailment
+1497	not_entailment
+1498	not_entailment
+1499	not_entailment
+1500	not_entailment
+1501	entailment
+1502	entailment
+1503	not_entailment
+1504	entailment
+1505	entailment
+1506	not_entailment
+1507	entailment
+1508	not_entailment
+1509	not_entailment
+1510	entailment
+1511	entailment
+1512	entailment
+1513	not_entailment
+1514	not_entailment
+1515	entailment
+1516	entailment
+1517	entailment
+1518	entailment
+1519	entailment
+1520	entailment
+1521	entailment
+1522	entailment
+1523	entailment
+1524	entailment
+1525	entailment
+1526	not_entailment
+1527	entailment
+1528	not_entailment
+1529	not_entailment
+1530	entailment
+1531	entailment
+1532	entailment
+1533	entailment
+1534	entailment
+1535	entailment
+1536	entailment
+1537	not_entailment
+1538	entailment
+1539	not_entailment
+1540	not_entailment
+1541	not_entailment
+1542	not_entailment
+1543	entailment
+1544	entailment
+1545	not_entailment
+1546	entailment
+1547	entailment
+1548	entailment
+1549	entailment
+1550	entailment
+1551	entailment
+1552	entailment
+1553	entailment
+1554	not_entailment
+1555	entailment
+1556	entailment
+1557	entailment
+1558	not_entailment
+1559	not_entailment
+1560	entailment
+1561	entailment
+1562	entailment
+1563	entailment
+1564	not_entailment
+1565	entailment
+1566	not_entailment
+1567	entailment
+1568	entailment
+1569	not_entailment
+1570	entailment
+1571	entailment
+1572	entailment
+1573	entailment
+1574	not_entailment
+1575	not_entailment
+1576	entailment
+1577	not_entailment
+1578	entailment
+1579	not_entailment
+1580	not_entailment
+1581	entailment
+1582	not_entailment
+1583	not_entailment
+1584	not_entailment
+1585	entailment
+1586	entailment
+1587	entailment
+1588	entailment
+1589	not_entailment
+1590	entailment
+1591	entailment
+1592	not_entailment
+1593	not_entailment
+1594	entailment
+1595	entailment
+1596	not_entailment
+1597	entailment
+1598	entailment
+1599	not_entailment
+1600	entailment
+1601	entailment
+1602	not_entailment
+1603	not_entailment
+1604	not_entailment
+1605	entailment
+1606	entailment
+1607	not_entailment
+1608	entailment
+1609	entailment
+1610	entailment
+1611	not_entailment
+1612	entailment
+1613	entailment
+1614	not_entailment
+1615	entailment
+1616	entailment
+1617	entailment
+1618	not_entailment
+1619	entailment
+1620	not_entailment
+1621	entailment
+1622	not_entailment
+1623	entailment
+1624	entailment
+1625	not_entailment
+1626	entailment
+1627	entailment
+1628	not_entailment
+1629	entailment
+1630	not_entailment
+1631	not_entailment
+1632	entailment
+1633	entailment
+1634	entailment
+1635	entailment
+1636	not_entailment
+1637	not_entailment
+1638	not_entailment
+1639	not_entailment
+1640	entailment
+1641	not_entailment
+1642	not_entailment
+1643	entailment
+1644	not_entailment
+1645	not_entailment
+1646	not_entailment
+1647	not_entailment
+1648	not_entailment
+1649	not_entailment
+1650	entailment
+1651	entailment
+1652	not_entailment
+1653	not_entailment
+1654	entailment
+1655	entailment
+1656	entailment
+1657	entailment
+1658	entailment
+1659	entailment
+1660	not_entailment
+1661	entailment
+1662	entailment
+1663	not_entailment
+1664	not_entailment
+1665	not_entailment
+1666	entailment
+1667	not_entailment
+1668	entailment
+1669	entailment
+1670	not_entailment
+1671	entailment
+1672	not_entailment
+1673	not_entailment
+1674	entailment
+1675	not_entailment
+1676	entailment
+1677	entailment
+1678	not_entailment
+1679	entailment
+1680	entailment
+1681	entailment
+1682	not_entailment
+1683	entailment
+1684	entailment
+1685	entailment
+1686	entailment
+1687	entailment
+1688	not_entailment
+1689	entailment
+1690	entailment
+1691	entailment
+1692	not_entailment
+1693	not_entailment
+1694	not_entailment
+1695	entailment
+1696	entailment
+1697	entailment
+1698	entailment
+1699	not_entailment
+1700	entailment
+1701	entailment
+1702	entailment
+1703	entailment
+1704	entailment
+1705	entailment
+1706	not_entailment
+1707	entailment
+1708	not_entailment
+1709	not_entailment
+1710	not_entailment
+1711	not_entailment
+1712	entailment
+1713	entailment
+1714	not_entailment
+1715	entailment
+1716	entailment
+1717	entailment
+1718	not_entailment
+1719	not_entailment
+1720	not_entailment
+1721	entailment
+1722	entailment
+1723	entailment
+1724	entailment
+1725	entailment
+1726	not_entailment
+1727	entailment
+1728	entailment
+1729	entailment
+1730	entailment
+1731	entailment
+1732	not_entailment
+1733	entailment
+1734	entailment
+1735	not_entailment
+1736	entailment
+1737	entailment
+1738	not_entailment
+1739	not_entailment
+1740	entailment
+1741	entailment
+1742	not_entailment
+1743	not_entailment
+1744	entailment
+1745	not_entailment
+1746	entailment
+1747	entailment
+1748	not_entailment
+1749	not_entailment
+1750	not_entailment
+1751	entailment
+1752	not_entailment
+1753	entailment
+1754	not_entailment
+1755	not_entailment
+1756	not_entailment
+1757	not_entailment
+1758	entailment
+1759	entailment
+1760	entailment
+1761	not_entailment
+1762	entailment
+1763	entailment
+1764	entailment
+1765	entailment
+1766	not_entailment
+1767	not_entailment
+1768	entailment
+1769	entailment
+1770	entailment
+1771	not_entailment
+1772	not_entailment
+1773	entailment
+1774	not_entailment
+1775	entailment
+1776	not_entailment
+1777	entailment
+1778	not_entailment
+1779	entailment
+1780	not_entailment
+1781	not_entailment
+1782	not_entailment
+1783	entailment
+1784	not_entailment
+1785	entailment
+1786	entailment
+1787	entailment
+1788	entailment
+1789	entailment
+1790	entailment
+1791	entailment
+1792	entailment
+1793	not_entailment
+1794	entailment
+1795	entailment
+1796	not_entailment
+1797	not_entailment
+1798	entailment
+1799	not_entailment
+1800	entailment
+1801	not_entailment
+1802	entailment
+1803	not_entailment
+1804	not_entailment
+1805	not_entailment
+1806	not_entailment
+1807	not_entailment
+1808	not_entailment
+1809	entailment
+1810	entailment
+1811	entailment
+1812	not_entailment
+1813	entailment
+1814	entailment
+1815	entailment
+1816	entailment
+1817	not_entailment
+1818	entailment
+1819	entailment
+1820	not_entailment
+1821	not_entailment
+1822	entailment
+1823	not_entailment
+1824	entailment
+1825	not_entailment
+1826	entailment
+1827	not_entailment
+1828	entailment
+1829	entailment
+1830	entailment
+1831	not_entailment
+1832	not_entailment
+1833	not_entailment
+1834	entailment
+1835	entailment
+1836	not_entailment
+1837	entailment
+1838	not_entailment
+1839	not_entailment
+1840	entailment
+1841	entailment
+1842	not_entailment
+1843	entailment
+1844	not_entailment
+1845	not_entailment
+1846	not_entailment
+1847	not_entailment
+1848	not_entailment
+1849	entailment
+1850	entailment
+1851	not_entailment
+1852	entailment
+1853	not_entailment
+1854	entailment
+1855	not_entailment
+1856	not_entailment
+1857	entailment
+1858	entailment
+1859	not_entailment
+1860	entailment
+1861	entailment
+1862	not_entailment
+1863	entailment
+1864	entailment
+1865	not_entailment
+1866	entailment
+1867	not_entailment
+1868	entailment
+1869	entailment
+1870	not_entailment
+1871	entailment
+1872	entailment
+1873	entailment
+1874	entailment
+1875	entailment
+1876	not_entailment
+1877	not_entailment
+1878	not_entailment
+1879	not_entailment
+1880	not_entailment
+1881	entailment
+1882	not_entailment
+1883	not_entailment
+1884	entailment
+1885	not_entailment
+1886	not_entailment
+1887	entailment
+1888	not_entailment
+1889	entailment
+1890	not_entailment
+1891	not_entailment
+1892	entailment
+1893	entailment
+1894	entailment
+1895	not_entailment
+1896	entailment
+1897	entailment
+1898	not_entailment
+1899	entailment
+1900	not_entailment
+1901	not_entailment
+1902	not_entailment
+1903	not_entailment
+1904	not_entailment
+1905	entailment
+1906	entailment
+1907	not_entailment
+1908	not_entailment
+1909	entailment
+1910	entailment
+1911	entailment
+1912	not_entailment
+1913	not_entailment
+1914	entailment
+1915	not_entailment
+1916	not_entailment
+1917	entailment
+1918	not_entailment
+1919	entailment
+1920	not_entailment
+1921	not_entailment
+1922	entailment
+1923	entailment
+1924	entailment
+1925	entailment
+1926	not_entailment
+1927	not_entailment
+1928	not_entailment
+1929	entailment
+1930	not_entailment
+1931	entailment
+1932	entailment
+1933	not_entailment
+1934	not_entailment
+1935	entailment
+1936	not_entailment
+1937	not_entailment
+1938	not_entailment
+1939	entailment
+1940	entailment
+1941	not_entailment
+1942	not_entailment
+1943	entailment
+1944	entailment
+1945	not_entailment
+1946	entailment
+1947	entailment
+1948	not_entailment
+1949	not_entailment
+1950	not_entailment
+1951	not_entailment
+1952	not_entailment
+1953	not_entailment
+1954	not_entailment
+1955	not_entailment
+1956	entailment
+1957	entailment
+1958	not_entailment
+1959	entailment
+1960	entailment
+1961	entailment
+1962	entailment
+1963	not_entailment
+1964	not_entailment
+1965	entailment
+1966	not_entailment
+1967	entailment
+1968	not_entailment
+1969	not_entailment
+1970	entailment
+1971	entailment
+1972	not_entailment
+1973	entailment
+1974	not_entailment
+1975	not_entailment
+1976	entailment
+1977	not_entailment
+1978	entailment
+1979	entailment
+1980	entailment
+1981	not_entailment
+1982	not_entailment
+1983	entailment
+1984	entailment
+1985	entailment
+1986	not_entailment
+1987	not_entailment
+1988	entailment
+1989	entailment
+1990	entailment
+1991	entailment
+1992	not_entailment
+1993	not_entailment
+1994	not_entailment
+1995	entailment
+1996	entailment
+1997	entailment
+1998	entailment
+1999	entailment
+2000	entailment
+2001	not_entailment
+2002	entailment
+2003	entailment
+2004	not_entailment
+2005	entailment
+2006	not_entailment
+2007	not_entailment
+2008	not_entailment
+2009	not_entailment
+2010	entailment
+2011	entailment
+2012	not_entailment
+2013	entailment
+2014	entailment
+2015	entailment
+2016	entailment
+2017	not_entailment
+2018	not_entailment
+2019	entailment
+2020	not_entailment
+2021	not_entailment
+2022	entailment
+2023	entailment
+2024	entailment
+2025	entailment
+2026	entailment
+2027	entailment
+2028	not_entailment
+2029	entailment
+2030	not_entailment
+2031	entailment
+2032	entailment
+2033	entailment
+2034	entailment
+2035	not_entailment
+2036	entailment
+2037	not_entailment
+2038	entailment
+2039	entailment
+2040	entailment
+2041	entailment
+2042	entailment
+2043	entailment
+2044	entailment
+2045	entailment
+2046	entailment
+2047	not_entailment
+2048	not_entailment
+2049	entailment
+2050	entailment
+2051	entailment
+2052	not_entailment
+2053	not_entailment
+2054	not_entailment
+2055	not_entailment
+2056	not_entailment
+2057	entailment
+2058	entailment
+2059	not_entailment
+2060	not_entailment
+2061	not_entailment
+2062	not_entailment
+2063	entailment
+2064	not_entailment
+2065	entailment
+2066	entailment
+2067	entailment
+2068	entailment
+2069	entailment
+2070	entailment
+2071	not_entailment
+2072	entailment
+2073	entailment
+2074	not_entailment
+2075	entailment
+2076	not_entailment
+2077	entailment
+2078	entailment
+2079	entailment
+2080	entailment
+2081	entailment
+2082	not_entailment
+2083	entailment
+2084	not_entailment
+2085	not_entailment
+2086	entailment
+2087	entailment
+2088	entailment
+2089	entailment
+2090	not_entailment
+2091	not_entailment
+2092	not_entailment
+2093	not_entailment
+2094	entailment
+2095	not_entailment
+2096	not_entailment
+2097	entailment
+2098	not_entailment
+2099	entailment
+2100	not_entailment
+2101	not_entailment
+2102	entailment
+2103	not_entailment
+2104	not_entailment
+2105	not_entailment
+2106	entailment
+2107	entailment
+2108	entailment
+2109	not_entailment
+2110	entailment
+2111	entailment
+2112	entailment
+2113	entailment
+2114	entailment
+2115	entailment
+2116	not_entailment
+2117	entailment
+2118	not_entailment
+2119	not_entailment
+2120	entailment
+2121	not_entailment
+2122	entailment
+2123	entailment
+2124	not_entailment
+2125	not_entailment
+2126	entailment
+2127	entailment
+2128	entailment
+2129	not_entailment
+2130	entailment
+2131	not_entailment
+2132	not_entailment
+2133	not_entailment
+2134	not_entailment
+2135	entailment
+2136	not_entailment
+2137	entailment
+2138	not_entailment
+2139	entailment
+2140	entailment
+2141	not_entailment
+2142	entailment
+2143	not_entailment
+2144	entailment
+2145	entailment
+2146	entailment
+2147	not_entailment
+2148	not_entailment
+2149	entailment
+2150	entailment
+2151	not_entailment
+2152	entailment
+2153	not_entailment
+2154	entailment
+2155	entailment
+2156	entailment
+2157	entailment
+2158	not_entailment
+2159	entailment
+2160	not_entailment
+2161	entailment
+2162	entailment
+2163	not_entailment
+2164	not_entailment
+2165	not_entailment
+2166	not_entailment
+2167	entailment
+2168	entailment
+2169	not_entailment
+2170	not_entailment
+2171	entailment
+2172	not_entailment
+2173	not_entailment
+2174	entailment
+2175	not_entailment
+2176	not_entailment
+2177	entailment
+2178	entailment
+2179	entailment
+2180	not_entailment
+2181	not_entailment
+2182	entailment
+2183	not_entailment
+2184	not_entailment
+2185	not_entailment
+2186	entailment
+2187	entailment
+2188	entailment
+2189	not_entailment
+2190	not_entailment
+2191	entailment
+2192	entailment
+2193	not_entailment
+2194	not_entailment
+2195	not_entailment
+2196	not_entailment
+2197	entailment
+2198	not_entailment
+2199	entailment
+2200	entailment
+2201	entailment
+2202	entailment
+2203	not_entailment
+2204	not_entailment
+2205	entailment
+2206	not_entailment
+2207	not_entailment
+2208	not_entailment
+2209	not_entailment
+2210	not_entailment
+2211	entailment
+2212	entailment
+2213	entailment
+2214	entailment
+2215	entailment
+2216	not_entailment
+2217	not_entailment
+2218	not_entailment
+2219	not_entailment
+2220	not_entailment
+2221	entailment
+2222	entailment
+2223	not_entailment
+2224	not_entailment
+2225	not_entailment
+2226	not_entailment
+2227	not_entailment
+2228	not_entailment
+2229	not_entailment
+2230	not_entailment
+2231	not_entailment
+2232	not_entailment
+2233	not_entailment
+2234	entailment
+2235	not_entailment
+2236	not_entailment
+2237	not_entailment
+2238	entailment
+2239	entailment
+2240	not_entailment
+2241	not_entailment
+2242	entailment
+2243	entailment
+2244	entailment
+2245	entailment
+2246	not_entailment
+2247	not_entailment
+2248	entailment
+2249	not_entailment
+2250	entailment
+2251	not_entailment
+2252	entailment
+2253	entailment
+2254	entailment
+2255	not_entailment
+2256	entailment
+2257	not_entailment
+2258	not_entailment
+2259	entailment
+2260	entailment
+2261	entailment
+2262	not_entailment
+2263	not_entailment
+2264	not_entailment
+2265	not_entailment
+2266	not_entailment
+2267	entailment
+2268	not_entailment
+2269	not_entailment
+2270	not_entailment
+2271	entailment
+2272	entailment
+2273	entailment
+2274	entailment
+2275	entailment
+2276	not_entailment
+2277	not_entailment
+2278	not_entailment
+2279	entailment
+2280	not_entailment
+2281	not_entailment
+2282	entailment
+2283	not_entailment
+2284	not_entailment
+2285	entailment
+2286	not_entailment
+2287	not_entailment
+2288	entailment
+2289	entailment
+2290	entailment
+2291	entailment
+2292	entailment
+2293	entailment
+2294	entailment
+2295	entailment
+2296	entailment
+2297	entailment
+2298	entailment
+2299	entailment
+2300	not_entailment
+2301	entailment
+2302	not_entailment
+2303	entailment
+2304	entailment
+2305	entailment
+2306	entailment
+2307	not_entailment
+2308	not_entailment
+2309	not_entailment
+2310	entailment
+2311	not_entailment
+2312	not_entailment
+2313	entailment
+2314	not_entailment
+2315	entailment
+2316	entailment
+2317	entailment
+2318	entailment
+2319	entailment
+2320	not_entailment
+2321	entailment
+2322	entailment
+2323	not_entailment
+2324	entailment
+2325	entailment
+2326	not_entailment
+2327	not_entailment
+2328	not_entailment
+2329	not_entailment
+2330	entailment
+2331	entailment
+2332	entailment
+2333	entailment
+2334	not_entailment
+2335	not_entailment
+2336	entailment
+2337	entailment
+2338	entailment
+2339	not_entailment
+2340	not_entailment
+2341	entailment
+2342	not_entailment
+2343	entailment
+2344	not_entailment
+2345	entailment
+2346	entailment
+2347	entailment
+2348	not_entailment
+2349	entailment
+2350	entailment
+2351	not_entailment
+2352	not_entailment
+2353	not_entailment
+2354	not_entailment
+2355	entailment
+2356	entailment
+2357	not_entailment
+2358	entailment
+2359	entailment
+2360	entailment
+2361	not_entailment
+2362	not_entailment
+2363	not_entailment
+2364	not_entailment
+2365	not_entailment
+2366	not_entailment
+2367	entailment
+2368	entailment
+2369	entailment
+2370	entailment
+2371	entailment
+2372	entailment
+2373	entailment
+2374	entailment
+2375	entailment
+2376	not_entailment
+2377	entailment
+2378	not_entailment
+2379	not_entailment
+2380	not_entailment
+2381	not_entailment
+2382	entailment
+2383	entailment
+2384	entailment
+2385	entailment
+2386	entailment
+2387	entailment
+2388	entailment
+2389	entailment
+2390	not_entailment
+2391	entailment
+2392	entailment
+2393	entailment
+2394	entailment
+2395	entailment
+2396	not_entailment
+2397	not_entailment
+2398	entailment
+2399	entailment
+2400	not_entailment
+2401	not_entailment
+2402	not_entailment
+2403	entailment
+2404	not_entailment
+2405	entailment
+2406	entailment
+2407	entailment
+2408	not_entailment
+2409	not_entailment
+2410	not_entailment
+2411	not_entailment
+2412	not_entailment
+2413	not_entailment
+2414	entailment
+2415	entailment
+2416	not_entailment
+2417	not_entailment
+2418	not_entailment
+2419	entailment
+2420	entailment
+2421	entailment
+2422	not_entailment
+2423	not_entailment
+2424	not_entailment
+2425	entailment
+2426	entailment
+2427	entailment
+2428	not_entailment
+2429	not_entailment
+2430	entailment
+2431	not_entailment
+2432	entailment
+2433	not_entailment
+2434	not_entailment
+2435	entailment
+2436	entailment
+2437	entailment
+2438	not_entailment
+2439	not_entailment
+2440	not_entailment
+2441	entailment
+2442	entailment
+2443	not_entailment
+2444	entailment
+2445	entailment
+2446	not_entailment
+2447	not_entailment
+2448	entailment
+2449	entailment
+2450	entailment
+2451	entailment
+2452	entailment
+2453	entailment
+2454	not_entailment
+2455	not_entailment
+2456	entailment
+2457	entailment
+2458	not_entailment
+2459	entailment
+2460	entailment
+2461	not_entailment
+2462	entailment
+2463	entailment
+2464	entailment
+2465	entailment
+2466	not_entailment
+2467	entailment
+2468	entailment
+2469	entailment
+2470	entailment
+2471	entailment
+2472	not_entailment
+2473	entailment
+2474	entailment
+2475	not_entailment
+2476	entailment
+2477	entailment
+2478	entailment
+2479	entailment
+2480	entailment
+2481	entailment
+2482	entailment
+2483	entailment
+2484	not_entailment
+2485	entailment
+2486	not_entailment
+2487	entailment
+2488	not_entailment
+2489	not_entailment
+2490	entailment
+2491	entailment
+2492	not_entailment
+2493	entailment
+2494	not_entailment
+2495	not_entailment
+2496	not_entailment
+2497	not_entailment
+2498	entailment
+2499	not_entailment
+2500	entailment
+2501	not_entailment
+2502	entailment
+2503	entailment
+2504	entailment
+2505	entailment
+2506	entailment
+2507	entailment
+2508	not_entailment
+2509	not_entailment
+2510	not_entailment
+2511	entailment
+2512	entailment
+2513	not_entailment
+2514	not_entailment
+2515	entailment
+2516	not_entailment
+2517	not_entailment
+2518	entailment
+2519	entailment
+2520	entailment
+2521	not_entailment
+2522	entailment
+2523	entailment
+2524	not_entailment
+2525	not_entailment
+2526	not_entailment
+2527	not_entailment
+2528	not_entailment
+2529	entailment
+2530	not_entailment
+2531	not_entailment
+2532	not_entailment
+2533	entailment
+2534	not_entailment
+2535	entailment
+2536	entailment
+2537	not_entailment
+2538	not_entailment
+2539	entailment
+2540	not_entailment
+2541	entailment
+2542	entailment
+2543	entailment
+2544	entailment
+2545	entailment
+2546	not_entailment
+2547	entailment
+2548	entailment
+2549	entailment
+2550	entailment
+2551	entailment
+2552	entailment
+2553	entailment
+2554	entailment
+2555	entailment
+2556	entailment
+2557	entailment
+2558	entailment
+2559	entailment
+2560	not_entailment
+2561	entailment
+2562	entailment
+2563	entailment
+2564	entailment
+2565	entailment
+2566	not_entailment
+2567	not_entailment
+2568	entailment
+2569	entailment
+2570	entailment
+2571	not_entailment
+2572	not_entailment
+2573	entailment
+2574	not_entailment
+2575	entailment
+2576	not_entailment
+2577	entailment
+2578	not_entailment
+2579	not_entailment
+2580	entailment
+2581	not_entailment
+2582	not_entailment
+2583	not_entailment
+2584	entailment
+2585	not_entailment
+2586	entailment
+2587	entailment
+2588	not_entailment
+2589	entailment
+2590	entailment
+2591	not_entailment
+2592	not_entailment
+2593	entailment
+2594	entailment
+2595	not_entailment
+2596	entailment
+2597	not_entailment
+2598	entailment
+2599	not_entailment
+2600	entailment
+2601	entailment
+2602	not_entailment
+2603	not_entailment
+2604	not_entailment
+2605	not_entailment
+2606	not_entailment
+2607	not_entailment
+2608	entailment
+2609	not_entailment
+2610	not_entailment
+2611	entailment
+2612	not_entailment
+2613	entailment
+2614	not_entailment
+2615	not_entailment
+2616	not_entailment
+2617	entailment
+2618	entailment
+2619	not_entailment
+2620	not_entailment
+2621	entailment
+2622	entailment
+2623	not_entailment
+2624	entailment
+2625	entailment
+2626	entailment
+2627	entailment
+2628	not_entailment
+2629	not_entailment
+2630	not_entailment
+2631	entailment
+2632	not_entailment
+2633	not_entailment
+2634	entailment
+2635	entailment
+2636	not_entailment
+2637	not_entailment
+2638	not_entailment
+2639	entailment
+2640	not_entailment
+2641	entailment
+2642	not_entailment
+2643	not_entailment
+2644	not_entailment
+2645	entailment
+2646	entailment
+2647	not_entailment
+2648	entailment
+2649	entailment
+2650	not_entailment
+2651	not_entailment
+2652	not_entailment
+2653	entailment
+2654	entailment
+2655	entailment
+2656	entailment
+2657	not_entailment
+2658	not_entailment
+2659	entailment
+2660	entailment
+2661	not_entailment
+2662	entailment
+2663	entailment
+2664	not_entailment
+2665	entailment
+2666	not_entailment
+2667	entailment
+2668	entailment
+2669	not_entailment
+2670	not_entailment
+2671	not_entailment
+2672	entailment
+2673	not_entailment
+2674	not_entailment
+2675	not_entailment
+2676	not_entailment
+2677	not_entailment
+2678	not_entailment
+2679	not_entailment
+2680	entailment
+2681	not_entailment
+2682	not_entailment
+2683	not_entailment
+2684	not_entailment
+2685	not_entailment
+2686	not_entailment
+2687	entailment
+2688	entailment
+2689	entailment
+2690	not_entailment
+2691	entailment
+2692	entailment
+2693	entailment
+2694	not_entailment
+2695	entailment
+2696	entailment
+2697	not_entailment
+2698	entailment
+2699	entailment
+2700	entailment
+2701	not_entailment
+2702	entailment
+2703	not_entailment
+2704	entailment
+2705	entailment
+2706	not_entailment
+2707	not_entailment
+2708	entailment
+2709	not_entailment
+2710	not_entailment
+2711	entailment
+2712	entailment
+2713	not_entailment
+2714	entailment
+2715	entailment
+2716	entailment
+2717	entailment
+2718	entailment
+2719	not_entailment
+2720	not_entailment
+2721	entailment
+2722	not_entailment
+2723	not_entailment
+2724	not_entailment
+2725	not_entailment
+2726	not_entailment
+2727	not_entailment
+2728	not_entailment
+2729	entailment
+2730	not_entailment
+2731	not_entailment
+2732	entailment
+2733	not_entailment
+2734	not_entailment
+2735	not_entailment
+2736	entailment
+2737	not_entailment
+2738	not_entailment
+2739	entailment
+2740	not_entailment
+2741	not_entailment
+2742	entailment
+2743	entailment
+2744	entailment
+2745	not_entailment
+2746	entailment
+2747	not_entailment
+2748	entailment
+2749	not_entailment
+2750	entailment
+2751	entailment
+2752	entailment
+2753	entailment
+2754	not_entailment
+2755	not_entailment
+2756	not_entailment
+2757	not_entailment
+2758	not_entailment
+2759	not_entailment
+2760	entailment
+2761	not_entailment
+2762	not_entailment
+2763	not_entailment
+2764	not_entailment
+2765	entailment
+2766	not_entailment
+2767	not_entailment
+2768	not_entailment
+2769	entailment
+2770	entailment
+2771	not_entailment
+2772	entailment
+2773	entailment
+2774	entailment
+2775	not_entailment
+2776	entailment
+2777	entailment
+2778	not_entailment
+2779	not_entailment
+2780	entailment
+2781	not_entailment
+2782	entailment
+2783	not_entailment
+2784	not_entailment
+2785	not_entailment
+2786	not_entailment
+2787	entailment
+2788	not_entailment
+2789	not_entailment
+2790	not_entailment
+2791	not_entailment
+2792	not_entailment
+2793	entailment
+2794	not_entailment
+2795	not_entailment
+2796	entailment
+2797	entailment
+2798	not_entailment
+2799	entailment
+2800	entailment
+2801	not_entailment
+2802	not_entailment
+2803	entailment
+2804	not_entailment
+2805	entailment
+2806	entailment
+2807	entailment
+2808	not_entailment
+2809	entailment
+2810	entailment
+2811	not_entailment
+2812	entailment
+2813	entailment
+2814	entailment
+2815	entailment
+2816	not_entailment
+2817	not_entailment
+2818	entailment
+2819	not_entailment
+2820	not_entailment
+2821	not_entailment
+2822	not_entailment
+2823	entailment
+2824	entailment
+2825	entailment
+2826	entailment
+2827	entailment
+2828	entailment
+2829	not_entailment
+2830	not_entailment
+2831	not_entailment
+2832	not_entailment
+2833	not_entailment
+2834	entailment
+2835	entailment
+2836	not_entailment
+2837	not_entailment
+2838	not_entailment
+2839	not_entailment
+2840	not_entailment
+2841	entailment
+2842	entailment
+2843	entailment
+2844	not_entailment
+2845	entailment
+2846	entailment
+2847	not_entailment
+2848	not_entailment
+2849	not_entailment
+2850	not_entailment
+2851	not_entailment
+2852	entailment
+2853	entailment
+2854	not_entailment
+2855	not_entailment
+2856	not_entailment
+2857	entailment
+2858	entailment
+2859	not_entailment
+2860	not_entailment
+2861	not_entailment
+2862	not_entailment
+2863	not_entailment
+2864	entailment
+2865	entailment
+2866	entailment
+2867	not_entailment
+2868	entailment
+2869	not_entailment
+2870	not_entailment
+2871	entailment
+2872	entailment
+2873	entailment
+2874	not_entailment
+2875	not_entailment
+2876	entailment
+2877	entailment
+2878	not_entailment
+2879	entailment
+2880	entailment
+2881	not_entailment
+2882	entailment
+2883	not_entailment
+2884	entailment
+2885	not_entailment
+2886	not_entailment
+2887	entailment
+2888	not_entailment
+2889	entailment
+2890	entailment
+2891	entailment
+2892	not_entailment
+2893	entailment
+2894	not_entailment
+2895	entailment
+2896	not_entailment
+2897	not_entailment
+2898	not_entailment
+2899	entailment
+2900	not_entailment
+2901	entailment
+2902	entailment
+2903	entailment
+2904	not_entailment
+2905	not_entailment
+2906	not_entailment
+2907	not_entailment
+2908	entailment
+2909	entailment
+2910	entailment
+2911	entailment
+2912	not_entailment
+2913	not_entailment
+2914	entailment
+2915	not_entailment
+2916	not_entailment
+2917	not_entailment
+2918	entailment
+2919	entailment
+2920	entailment
+2921	not_entailment
+2922	entailment
+2923	entailment
+2924	not_entailment
+2925	not_entailment
+2926	not_entailment
+2927	not_entailment
+2928	entailment
+2929	not_entailment
+2930	not_entailment
+2931	entailment
+2932	not_entailment
+2933	entailment
+2934	entailment
+2935	entailment
+2936	entailment
+2937	not_entailment
+2938	not_entailment
+2939	entailment
+2940	not_entailment
+2941	entailment
+2942	not_entailment
+2943	entailment
+2944	entailment
+2945	entailment
+2946	not_entailment
+2947	not_entailment
+2948	entailment
+2949	entailment
+2950	not_entailment
+2951	entailment
+2952	entailment
+2953	entailment
+2954	not_entailment
+2955	entailment
+2956	not_entailment
+2957	not_entailment
+2958	not_entailment
+2959	not_entailment
+2960	entailment
+2961	not_entailment
+2962	entailment
+2963	not_entailment
+2964	not_entailment
+2965	not_entailment
+2966	not_entailment
+2967	entailment
+2968	not_entailment
+2969	entailment
+2970	entailment
+2971	entailment
+2972	not_entailment
+2973	entailment
+2974	entailment
+2975	entailment
+2976	entailment
+2977	entailment
+2978	entailment
+2979	not_entailment
+2980	entailment
+2981	not_entailment
+2982	entailment
+2983	entailment
+2984	entailment
+2985	not_entailment
+2986	not_entailment
+2987	not_entailment
+2988	entailment
+2989	entailment
+2990	not_entailment
+2991	entailment
+2992	entailment
+2993	not_entailment
+2994	entailment
+2995	entailment
+2996	not_entailment
+2997	entailment
+2998	not_entailment
+2999	not_entailment

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.0,
+    "eval_accuracy": 0.8086642599277978,
+    "eval_loss": 0.5369592905044556,
+    "eval_runtime": 0.4898,
+    "eval_samples": 277,
+    "eval_samples_per_second": 565.514,
+    "eval_steps_per_second": 2.042
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.0,
+    "eval_accuracy": 0.8086642599277978,
+    "eval_loss": 0.5369592905044556,
+    "eval_runtime": 0.4898,
+    "eval_samples": 277,
+    "eval_samples_per_second": 565.514,
+    "eval_steps_per_second": 2.042
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "auto_mapping": {
+    "base_model_class": "DebertaV2ForSequenceClassification",
+    "parent_library": "transformers.models.deberta_v2.modeling_deberta_v2"
+  },
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "boft_block_num": 0,
+  "boft_block_size": 4,
+  "boft_dropout": 0.05,
+  "boft_n_butterfly_factor": 2,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler"
+  ],
+  "peft_type": "BOFT",
+  "peft_version": "0.18.0",
+  "revision": null,
+  "target_modules": [
+    "key_proj",
+    "attention.output.dense",
+    "output.dense",
+    "value_proj",
+    "intermediate.dense",
+    "query_proj"
+  ],
+  "task_type": null
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/trainer_state.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "best_global_step": 200,
+  "best_metric": 0.8086642599277978,
+  "best_model_checkpoint": "./glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=22d14h42m42/checkpoint-200",
+  "epoch": 6.0,
+  "eval_steps": 100,
+  "global_step": 468,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.282051282051282,
+      "grad_norm": 1.0231401920318604,
+      "learning_rate": 0.00038620126895479395,
+      "loss": 0.677,
+      "step": 100
+    },
+    {
+      "epoch": 1.282051282051282,
+      "eval_accuracy": 0.7364620938628159,
+      "eval_loss": 0.52269047498703,
+      "eval_runtime": 0.5615,
+      "eval_samples_per_second": 493.282,
+      "eval_steps_per_second": 1.781,
+      "step": 100
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 3.1564369201660156,
+      "learning_rate": 0.00028421638445081326,
+      "loss": 0.3847,
+      "step": 200
+    },
+    {
+      "epoch": 2.564102564102564,
+      "eval_accuracy": 0.8086642599277978,
+      "eval_loss": 0.5369592905044556,
+      "eval_runtime": 0.4935,
+      "eval_samples_per_second": 561.324,
+      "eval_steps_per_second": 2.026,
+      "step": 200
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 4.220888614654541,
+      "learning_rate": 0.0001355917773399892,
+      "loss": 0.2557,
+      "step": 300
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "eval_accuracy": 0.7942238267148014,
+      "eval_loss": 0.572320818901062,
+      "eval_runtime": 0.4881,
+      "eval_samples_per_second": 567.514,
+      "eval_steps_per_second": 2.049,
+      "step": 300
+    },
+    {
+      "epoch": 5.128205128205128,
+      "grad_norm": 2.0307106971740723,
+      "learning_rate": 2.2636970803626878e-05,
+      "loss": 0.1431,
+      "step": 400
+    },
+    {
+      "epoch": 5.128205128205128,
+      "eval_accuracy": 0.7906137184115524,
+      "eval_loss": 0.6627222895622253,
+      "eval_runtime": 0.4917,
+      "eval_samples_per_second": 563.36,
+      "eval_steps_per_second": 2.034,
+      "step": 400
+    },
+    {
+      "epoch": 6.0,
+      "step": 468,
+      "total_flos": 2495241758361600.0,
+      "train_loss": 0.32858998551327956,
+      "train_runtime": 148.0171,
+      "train_samples_per_second": 100.934,
+      "train_steps_per_second": 3.162
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 468,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2495241758361600.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=25d17h57m30,sd43/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.0,
+    "eval_accuracy": 0.8231046931407943,
+    "eval_loss": 0.5094519853591919,
+    "eval_runtime": 0.8486,
+    "eval_samples": 277,
+    "eval_samples_per_second": 326.406,
+    "eval_steps_per_second": 1.178
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=25d17h57m30,sd43/eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.0,
+    "eval_accuracy": 0.8231046931407943,
+    "eval_loss": 0.5094519853591919,
+    "eval_runtime": 0.8486,
+    "eval_samples": 277,
+    "eval_samples_per_second": 326.406,
+    "eval_steps_per_second": 1.178
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=25d17h57m30,sd43/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_expBOFT/rte/dr0.05,mlr4e-04,clr4e-04,ep=6.0t=25d17h57m30,sd43/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}