Task: SequenceClassification

Browse files

Files changed (9) hide show

README.md +202 -0
adapter_config.json +36 -0
adapter_model.safetensors +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +41 -0
trainer_state-llama2-bnb8-QLORA-super_glue-boolq-sequence_classification.json +2014 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+library_name: peft
+base_model: meta-llama/Llama-2-7b-hf
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "score"
+  ],
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "down_proj",
+    "gate_proj",
+    "v_proj",
+    "up_proj"
+  ],
+  "task_type": "SEQ_CLS",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70f771a17994d83fcf017d2331c0b59891c4620129028b9f69aec57a4768e8fc
+size 80045992

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

trainer_state-llama2-bnb8-QLORA-super_glue-boolq-sequence_classification.json ADDED Viewed

	@@ -0,0 +1,2014 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.984,
+  "eval_steps": 1,
+  "global_step": 124,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 1.1733,
+      "step": 1
+    },
+    {
+      "epoch": 0.016,
+      "eval_accuracy": 0.364,
+      "eval_loss": 1.2354755401611328,
+      "eval_runtime": 11.4949,
+      "eval_samples_per_second": 21.749,
+      "eval_steps_per_second": 2.784,
+      "step": 1
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 1.1385,
+      "step": 2
+    },
+    {
+      "epoch": 0.032,
+      "eval_accuracy": 0.364,
+      "eval_loss": 1.2354755401611328,
+      "eval_runtime": 11.3512,
+      "eval_samples_per_second": 22.024,
+      "eval_steps_per_second": 2.819,
+      "step": 2
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 1.1504,
+      "step": 3
+    },
+    {
+      "epoch": 0.048,
+      "eval_accuracy": 0.364,
+      "eval_loss": 1.2354755401611328,
+      "eval_runtime": 11.554,
+      "eval_samples_per_second": 21.638,
+      "eval_steps_per_second": 2.77,
+      "step": 3
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 1.4467,
+      "step": 4
+    },
+    {
+      "epoch": 0.064,
+      "eval_accuracy": 0.364,
+      "eval_loss": 1.2354755401611328,
+      "eval_runtime": 11.2846,
+      "eval_samples_per_second": 22.154,
+      "eval_steps_per_second": 2.836,
+      "step": 4
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": Infinity,
+      "learning_rate": 0.0,
+      "loss": 1.0915,
+      "step": 5
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.364,
+      "eval_loss": 1.2354755401611328,
+      "eval_runtime": 11.2925,
+      "eval_samples_per_second": 22.138,
+      "eval_steps_per_second": 2.834,
+      "step": 5
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 87.5323715209961,
+      "learning_rate": 2.5e-05,
+      "loss": 1.3424,
+      "step": 6
+    },
+    {
+      "epoch": 0.096,
+      "eval_accuracy": 0.364,
+      "eval_loss": 1.2354755401611328,
+      "eval_runtime": 11.311,
+      "eval_samples_per_second": 22.102,
+      "eval_steps_per_second": 2.829,
+      "step": 6
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 50.48843765258789,
+      "learning_rate": 5e-05,
+      "loss": 1.1041,
+      "step": 7
+    },
+    {
+      "epoch": 0.112,
+      "eval_accuracy": 0.432,
+      "eval_loss": 1.0213314294815063,
+      "eval_runtime": 11.2832,
+      "eval_samples_per_second": 22.157,
+      "eval_steps_per_second": 2.836,
+      "step": 7
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 12.972390174865723,
+      "learning_rate": 4.959016393442623e-05,
+      "loss": 0.751,
+      "step": 8
+    },
+    {
+      "epoch": 0.128,
+      "eval_accuracy": 0.456,
+      "eval_loss": 0.9333825707435608,
+      "eval_runtime": 11.3015,
+      "eval_samples_per_second": 22.121,
+      "eval_steps_per_second": 2.831,
+      "step": 8
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 38.46497344970703,
+      "learning_rate": 4.918032786885246e-05,
+      "loss": 0.9293,
+      "step": 9
+    },
+    {
+      "epoch": 0.144,
+      "eval_accuracy": 0.536,
+      "eval_loss": 0.9040337800979614,
+      "eval_runtime": 11.3267,
+      "eval_samples_per_second": 22.072,
+      "eval_steps_per_second": 2.825,
+      "step": 9
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 9.813628196716309,
+      "learning_rate": 4.8770491803278687e-05,
+      "loss": 0.6036,
+      "step": 10
+    },
+    {
+      "epoch": 0.16,
+      "eval_accuracy": 0.58,
+      "eval_loss": 1.0835610628128052,
+      "eval_runtime": 11.3275,
+      "eval_samples_per_second": 22.07,
+      "eval_steps_per_second": 2.825,
+      "step": 10
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 11.096491813659668,
+      "learning_rate": 4.836065573770492e-05,
+      "loss": 0.9184,
+      "step": 11
+    },
+    {
+      "epoch": 0.176,
+      "eval_accuracy": 0.596,
+      "eval_loss": 1.2577338218688965,
+      "eval_runtime": 11.2856,
+      "eval_samples_per_second": 22.152,
+      "eval_steps_per_second": 2.835,
+      "step": 11
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 45.111083984375,
+      "learning_rate": 4.795081967213115e-05,
+      "loss": 0.8972,
+      "step": 12
+    },
+    {
+      "epoch": 0.192,
+      "eval_accuracy": 0.612,
+      "eval_loss": 1.280572533607483,
+      "eval_runtime": 11.296,
+      "eval_samples_per_second": 22.132,
+      "eval_steps_per_second": 2.833,
+      "step": 12
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 54.95970153808594,
+      "learning_rate": 4.754098360655738e-05,
+      "loss": 1.1253,
+      "step": 13
+    },
+    {
+      "epoch": 0.208,
+      "eval_accuracy": 0.612,
+      "eval_loss": 1.1115046739578247,
+      "eval_runtime": 11.3216,
+      "eval_samples_per_second": 22.082,
+      "eval_steps_per_second": 2.826,
+      "step": 13
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 19.976964950561523,
+      "learning_rate": 4.713114754098361e-05,
+      "loss": 0.9591,
+      "step": 14
+    },
+    {
+      "epoch": 0.224,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.9410788416862488,
+      "eval_runtime": 11.3197,
+      "eval_samples_per_second": 22.085,
+      "eval_steps_per_second": 2.827,
+      "step": 14
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 21.54231834411621,
+      "learning_rate": 4.672131147540984e-05,
+      "loss": 0.4318,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "eval_accuracy": 0.504,
+      "eval_loss": 0.8608736395835876,
+      "eval_runtime": 11.2959,
+      "eval_samples_per_second": 22.132,
+      "eval_steps_per_second": 2.833,
+      "step": 15
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 31.807493209838867,
+      "learning_rate": 4.631147540983607e-05,
+      "loss": 0.7278,
+      "step": 16
+    },
+    {
+      "epoch": 0.256,
+      "eval_accuracy": 0.52,
+      "eval_loss": 0.8945115804672241,
+      "eval_runtime": 11.3237,
+      "eval_samples_per_second": 22.078,
+      "eval_steps_per_second": 2.826,
+      "step": 16
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 27.370149612426758,
+      "learning_rate": 4.59016393442623e-05,
+      "loss": 0.8711,
+      "step": 17
+    },
+    {
+      "epoch": 0.272,
+      "eval_accuracy": 0.524,
+      "eval_loss": 0.8897060751914978,
+      "eval_runtime": 11.3355,
+      "eval_samples_per_second": 22.055,
+      "eval_steps_per_second": 2.823,
+      "step": 17
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 40.707698822021484,
+      "learning_rate": 4.549180327868853e-05,
+      "loss": 0.9991,
+      "step": 18
+    },
+    {
+      "epoch": 0.288,
+      "eval_accuracy": 0.548,
+      "eval_loss": 0.8214626312255859,
+      "eval_runtime": 11.3233,
+      "eval_samples_per_second": 22.078,
+      "eval_steps_per_second": 2.826,
+      "step": 18
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 13.598702430725098,
+      "learning_rate": 4.508196721311476e-05,
+      "loss": 0.807,
+      "step": 19
+    },
+    {
+      "epoch": 0.304,
+      "eval_accuracy": 0.556,
+      "eval_loss": 0.7961764931678772,
+      "eval_runtime": 11.3396,
+      "eval_samples_per_second": 22.047,
+      "eval_steps_per_second": 2.822,
+      "step": 19
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 18.774343490600586,
+      "learning_rate": 4.467213114754098e-05,
+      "loss": 0.617,
+      "step": 20
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.516,
+      "eval_loss": 0.807204008102417,
+      "eval_runtime": 11.3337,
+      "eval_samples_per_second": 22.058,
+      "eval_steps_per_second": 2.823,
+      "step": 20
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 24.550052642822266,
+      "learning_rate": 4.426229508196721e-05,
+      "loss": 0.6701,
+      "step": 21
+    },
+    {
+      "epoch": 0.336,
+      "eval_accuracy": 0.552,
+      "eval_loss": 0.7810255289077759,
+      "eval_runtime": 11.3902,
+      "eval_samples_per_second": 21.949,
+      "eval_steps_per_second": 2.809,
+      "step": 21
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 28.407976150512695,
+      "learning_rate": 4.3852459016393444e-05,
+      "loss": 0.823,
+      "step": 22
+    },
+    {
+      "epoch": 0.352,
+      "eval_accuracy": 0.552,
+      "eval_loss": 0.764638364315033,
+      "eval_runtime": 11.3671,
+      "eval_samples_per_second": 21.993,
+      "eval_steps_per_second": 2.815,
+      "step": 22
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 31.69023895263672,
+      "learning_rate": 4.3442622950819674e-05,
+      "loss": 0.7332,
+      "step": 23
+    },
+    {
+      "epoch": 0.368,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.7719610333442688,
+      "eval_runtime": 11.3313,
+      "eval_samples_per_second": 22.063,
+      "eval_steps_per_second": 2.824,
+      "step": 23
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 51.598724365234375,
+      "learning_rate": 4.3032786885245904e-05,
+      "loss": 1.0789,
+      "step": 24
+    },
+    {
+      "epoch": 0.384,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.792045533657074,
+      "eval_runtime": 11.3212,
+      "eval_samples_per_second": 22.082,
+      "eval_steps_per_second": 2.827,
+      "step": 24
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 8.370189666748047,
+      "learning_rate": 4.262295081967213e-05,
+      "loss": 0.5899,
+      "step": 25
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.8152350187301636,
+      "eval_runtime": 11.2787,
+      "eval_samples_per_second": 22.166,
+      "eval_steps_per_second": 2.837,
+      "step": 25
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 8.866107940673828,
+      "learning_rate": 4.2213114754098365e-05,
+      "loss": 0.6057,
+      "step": 26
+    },
+    {
+      "epoch": 0.416,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.8338910937309265,
+      "eval_runtime": 11.3283,
+      "eval_samples_per_second": 22.069,
+      "eval_steps_per_second": 2.825,
+      "step": 26
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 32.09278106689453,
+      "learning_rate": 4.1803278688524595e-05,
+      "loss": 0.7418,
+      "step": 27
+    },
+    {
+      "epoch": 0.432,
+      "eval_accuracy": 0.616,
+      "eval_loss": 0.8316658735275269,
+      "eval_runtime": 11.3272,
+      "eval_samples_per_second": 22.071,
+      "eval_steps_per_second": 2.825,
+      "step": 27
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 22.857614517211914,
+      "learning_rate": 4.1393442622950826e-05,
+      "loss": 0.8383,
+      "step": 28
+    },
+    {
+      "epoch": 0.448,
+      "eval_accuracy": 0.616,
+      "eval_loss": 0.7918907999992371,
+      "eval_runtime": 11.3212,
+      "eval_samples_per_second": 22.082,
+      "eval_steps_per_second": 2.827,
+      "step": 28
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 22.1180362701416,
+      "learning_rate": 4.098360655737705e-05,
+      "loss": 0.8923,
+      "step": 29
+    },
+    {
+      "epoch": 0.464,
+      "eval_accuracy": 0.62,
+      "eval_loss": 0.7275803685188293,
+      "eval_runtime": 11.3478,
+      "eval_samples_per_second": 22.031,
+      "eval_steps_per_second": 2.82,
+      "step": 29
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 43.09483337402344,
+      "learning_rate": 4.057377049180328e-05,
+      "loss": 0.9467,
+      "step": 30
+    },
+    {
+      "epoch": 0.48,
+      "eval_accuracy": 0.616,
+      "eval_loss": 0.6892617344856262,
+      "eval_runtime": 11.348,
+      "eval_samples_per_second": 22.03,
+      "eval_steps_per_second": 2.82,
+      "step": 30
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 8.46947956085205,
+      "learning_rate": 4.016393442622951e-05,
+      "loss": 0.7778,
+      "step": 31
+    },
+    {
+      "epoch": 0.496,
+      "eval_accuracy": 0.612,
+      "eval_loss": 0.6953690052032471,
+      "eval_runtime": 11.3372,
+      "eval_samples_per_second": 22.051,
+      "eval_steps_per_second": 2.823,
+      "step": 31
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 33.367454528808594,
+      "learning_rate": 3.975409836065574e-05,
+      "loss": 0.6468,
+      "step": 32
+    },
+    {
+      "epoch": 0.512,
+      "eval_accuracy": 0.564,
+      "eval_loss": 0.6975896954536438,
+      "eval_runtime": 11.3103,
+      "eval_samples_per_second": 22.104,
+      "eval_steps_per_second": 2.829,
+      "step": 32
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 14.80160903930664,
+      "learning_rate": 3.934426229508197e-05,
+      "loss": 0.7333,
+      "step": 33
+    },
+    {
+      "epoch": 0.528,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.6965731978416443,
+      "eval_runtime": 11.3519,
+      "eval_samples_per_second": 22.023,
+      "eval_steps_per_second": 2.819,
+      "step": 33
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 38.160823822021484,
+      "learning_rate": 3.89344262295082e-05,
+      "loss": 0.6591,
+      "step": 34
+    },
+    {
+      "epoch": 0.544,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.6874374747276306,
+      "eval_runtime": 11.3235,
+      "eval_samples_per_second": 22.078,
+      "eval_steps_per_second": 2.826,
+      "step": 34
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 33.589561462402344,
+      "learning_rate": 3.8524590163934424e-05,
+      "loss": 0.7186,
+      "step": 35
+    },
+    {
+      "epoch": 0.56,
+      "eval_accuracy": 0.608,
+      "eval_loss": 0.6751595139503479,
+      "eval_runtime": 11.3159,
+      "eval_samples_per_second": 22.093,
+      "eval_steps_per_second": 2.828,
+      "step": 35
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 12.282697677612305,
+      "learning_rate": 3.8114754098360655e-05,
+      "loss": 0.4988,
+      "step": 36
+    },
+    {
+      "epoch": 0.576,
+      "eval_accuracy": 0.616,
+      "eval_loss": 0.6890735030174255,
+      "eval_runtime": 11.3573,
+      "eval_samples_per_second": 22.012,
+      "eval_steps_per_second": 2.818,
+      "step": 36
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": 15.36685562133789,
+      "learning_rate": 3.7704918032786885e-05,
+      "loss": 0.8962,
+      "step": 37
+    },
+    {
+      "epoch": 0.592,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.7174173593521118,
+      "eval_runtime": 11.3449,
+      "eval_samples_per_second": 22.036,
+      "eval_steps_per_second": 2.821,
+      "step": 37
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 37.992069244384766,
+      "learning_rate": 3.729508196721312e-05,
+      "loss": 0.7407,
+      "step": 38
+    },
+    {
+      "epoch": 0.608,
+      "eval_accuracy": 0.528,
+      "eval_loss": 0.7468773126602173,
+      "eval_runtime": 11.3013,
+      "eval_samples_per_second": 22.121,
+      "eval_steps_per_second": 2.832,
+      "step": 38
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 43.514469146728516,
+      "learning_rate": 3.6885245901639346e-05,
+      "loss": 0.7984,
+      "step": 39
+    },
+    {
+      "epoch": 0.624,
+      "eval_accuracy": 0.536,
+      "eval_loss": 0.7447397708892822,
+      "eval_runtime": 11.3203,
+      "eval_samples_per_second": 22.084,
+      "eval_steps_per_second": 2.827,
+      "step": 39
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 43.61343765258789,
+      "learning_rate": 3.6475409836065576e-05,
+      "loss": 0.6023,
+      "step": 40
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.564,
+      "eval_loss": 0.7195525765419006,
+      "eval_runtime": 11.3049,
+      "eval_samples_per_second": 22.114,
+      "eval_steps_per_second": 2.831,
+      "step": 40
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 59.5920295715332,
+      "learning_rate": 3.6065573770491806e-05,
+      "loss": 0.7771,
+      "step": 41
+    },
+    {
+      "epoch": 0.656,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.686376690864563,
+      "eval_runtime": 11.276,
+      "eval_samples_per_second": 22.171,
+      "eval_steps_per_second": 2.838,
+      "step": 41
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 32.0897216796875,
+      "learning_rate": 3.5655737704918037e-05,
+      "loss": 0.6586,
+      "step": 42
+    },
+    {
+      "epoch": 0.672,
+      "eval_accuracy": 0.62,
+      "eval_loss": 0.6858681440353394,
+      "eval_runtime": 11.2967,
+      "eval_samples_per_second": 22.13,
+      "eval_steps_per_second": 2.833,
+      "step": 42
+    },
+    {
+      "epoch": 0.688,
+      "grad_norm": 7.754942893981934,
+      "learning_rate": 3.524590163934427e-05,
+      "loss": 0.5622,
+      "step": 43
+    },
+    {
+      "epoch": 0.688,
+      "eval_accuracy": 0.616,
+      "eval_loss": 0.7191852331161499,
+      "eval_runtime": 11.3359,
+      "eval_samples_per_second": 22.054,
+      "eval_steps_per_second": 2.823,
+      "step": 43
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 13.65731143951416,
+      "learning_rate": 3.483606557377049e-05,
+      "loss": 0.6567,
+      "step": 44
+    },
+    {
+      "epoch": 0.704,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.7964421510696411,
+      "eval_runtime": 11.3043,
+      "eval_samples_per_second": 22.116,
+      "eval_steps_per_second": 2.831,
+      "step": 44
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 13.19625473022461,
+      "learning_rate": 3.442622950819672e-05,
+      "loss": 0.637,
+      "step": 45
+    },
+    {
+      "epoch": 0.72,
+      "eval_accuracy": 0.612,
+      "eval_loss": 0.8056248426437378,
+      "eval_runtime": 11.331,
+      "eval_samples_per_second": 22.063,
+      "eval_steps_per_second": 2.824,
+      "step": 45
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 10.382162094116211,
+      "learning_rate": 3.401639344262295e-05,
+      "loss": 0.5964,
+      "step": 46
+    },
+    {
+      "epoch": 0.736,
+      "eval_accuracy": 0.62,
+      "eval_loss": 0.8342519402503967,
+      "eval_runtime": 11.3384,
+      "eval_samples_per_second": 22.049,
+      "eval_steps_per_second": 2.822,
+      "step": 46
+    },
+    {
+      "epoch": 0.752,
+      "grad_norm": 31.208406448364258,
+      "learning_rate": 3.360655737704918e-05,
+      "loss": 0.9646,
+      "step": 47
+    },
+    {
+      "epoch": 0.752,
+      "eval_accuracy": 0.612,
+      "eval_loss": 0.7941861748695374,
+      "eval_runtime": 11.3217,
+      "eval_samples_per_second": 22.081,
+      "eval_steps_per_second": 2.826,
+      "step": 47
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 28.09980583190918,
+      "learning_rate": 3.319672131147541e-05,
+      "loss": 0.778,
+      "step": 48
+    },
+    {
+      "epoch": 0.768,
+      "eval_accuracy": 0.62,
+      "eval_loss": 0.727009117603302,
+      "eval_runtime": 11.3124,
+      "eval_samples_per_second": 22.1,
+      "eval_steps_per_second": 2.829,
+      "step": 48
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 26.889928817749023,
+      "learning_rate": 3.2786885245901635e-05,
+      "loss": 0.8173,
+      "step": 49
+    },
+    {
+      "epoch": 0.784,
+      "eval_accuracy": 0.62,
+      "eval_loss": 0.6923478841781616,
+      "eval_runtime": 11.3715,
+      "eval_samples_per_second": 21.985,
+      "eval_steps_per_second": 2.814,
+      "step": 49
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 12.534849166870117,
+      "learning_rate": 3.237704918032787e-05,
+      "loss": 0.6164,
+      "step": 50
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 0.66,
+      "eval_loss": 0.6402404308319092,
+      "eval_runtime": 11.6238,
+      "eval_samples_per_second": 21.508,
+      "eval_steps_per_second": 2.753,
+      "step": 50
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 14.15957260131836,
+      "learning_rate": 3.19672131147541e-05,
+      "loss": 0.6124,
+      "step": 51
+    },
+    {
+      "epoch": 0.816,
+      "eval_accuracy": 0.648,
+      "eval_loss": 0.6378893852233887,
+      "eval_runtime": 11.4856,
+      "eval_samples_per_second": 21.766,
+      "eval_steps_per_second": 2.786,
+      "step": 51
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 19.737197875976562,
+      "learning_rate": 3.155737704918033e-05,
+      "loss": 0.6773,
+      "step": 52
+    },
+    {
+      "epoch": 0.832,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6686127781867981,
+      "eval_runtime": 11.4137,
+      "eval_samples_per_second": 21.903,
+      "eval_steps_per_second": 2.804,
+      "step": 52
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 19.23349952697754,
+      "learning_rate": 3.114754098360656e-05,
+      "loss": 0.6336,
+      "step": 53
+    },
+    {
+      "epoch": 0.848,
+      "eval_accuracy": 0.608,
+      "eval_loss": 0.6502300500869751,
+      "eval_runtime": 11.6377,
+      "eval_samples_per_second": 21.482,
+      "eval_steps_per_second": 2.75,
+      "step": 53
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 40.20008087158203,
+      "learning_rate": 3.073770491803279e-05,
+      "loss": 0.7077,
+      "step": 54
+    },
+    {
+      "epoch": 0.864,
+      "eval_accuracy": 0.62,
+      "eval_loss": 0.6335379481315613,
+      "eval_runtime": 11.4293,
+      "eval_samples_per_second": 21.874,
+      "eval_steps_per_second": 2.8,
+      "step": 54
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 9.706358909606934,
+      "learning_rate": 3.0327868852459017e-05,
+      "loss": 0.4935,
+      "step": 55
+    },
+    {
+      "epoch": 0.88,
+      "eval_accuracy": 0.616,
+      "eval_loss": 0.640767514705658,
+      "eval_runtime": 11.367,
+      "eval_samples_per_second": 21.993,
+      "eval_steps_per_second": 2.815,
+      "step": 55
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 7.35679817199707,
+      "learning_rate": 2.9918032786885248e-05,
+      "loss": 0.4311,
+      "step": 56
+    },
+    {
+      "epoch": 0.896,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.6300995349884033,
+      "eval_runtime": 11.4719,
+      "eval_samples_per_second": 21.792,
+      "eval_steps_per_second": 2.789,
+      "step": 56
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 9.2598876953125,
+      "learning_rate": 2.9508196721311478e-05,
+      "loss": 0.4558,
+      "step": 57
+    },
+    {
+      "epoch": 0.912,
+      "eval_accuracy": 0.664,
+      "eval_loss": 0.630566418170929,
+      "eval_runtime": 11.5188,
+      "eval_samples_per_second": 21.704,
+      "eval_steps_per_second": 2.778,
+      "step": 57
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 31.75694465637207,
+      "learning_rate": 2.9098360655737705e-05,
+      "loss": 0.6486,
+      "step": 58
+    },
+    {
+      "epoch": 0.928,
+      "eval_accuracy": 0.64,
+      "eval_loss": 0.614264726638794,
+      "eval_runtime": 11.6451,
+      "eval_samples_per_second": 21.468,
+      "eval_steps_per_second": 2.748,
+      "step": 58
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 39.16770553588867,
+      "learning_rate": 2.8688524590163935e-05,
+      "loss": 0.6755,
+      "step": 59
+    },
+    {
+      "epoch": 0.944,
+      "eval_accuracy": 0.668,
+      "eval_loss": 0.5880586504936218,
+      "eval_runtime": 11.5144,
+      "eval_samples_per_second": 21.712,
+      "eval_steps_per_second": 2.779,
+      "step": 59
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 17.8769474029541,
+      "learning_rate": 2.8278688524590162e-05,
+      "loss": 0.6925,
+      "step": 60
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.636,
+      "eval_loss": 0.5895799398422241,
+      "eval_runtime": 11.4443,
+      "eval_samples_per_second": 21.845,
+      "eval_steps_per_second": 2.796,
+      "step": 60
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 16.898263931274414,
+      "learning_rate": 2.7868852459016392e-05,
+      "loss": 0.3927,
+      "step": 61
+    },
+    {
+      "epoch": 0.976,
+      "eval_accuracy": 0.672,
+      "eval_loss": 0.6116553544998169,
+      "eval_runtime": 11.4294,
+      "eval_samples_per_second": 21.873,
+      "eval_steps_per_second": 2.8,
+      "step": 61
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 11.950173377990723,
+      "learning_rate": 2.7459016393442626e-05,
+      "loss": 0.6678,
+      "step": 62
+    },
+    {
+      "epoch": 0.992,
+      "eval_accuracy": 0.676,
+      "eval_loss": 0.629517138004303,
+      "eval_runtime": 11.2631,
+      "eval_samples_per_second": 22.196,
+      "eval_steps_per_second": 2.841,
+      "step": 62
+    },
+    {
+      "epoch": 1.008,
+      "grad_norm": 14.72547435760498,
+      "learning_rate": 2.7049180327868856e-05,
+      "loss": 0.4718,
+      "step": 63
+    },
+    {
+      "epoch": 1.008,
+      "eval_accuracy": 0.676,
+      "eval_loss": 0.6391622424125671,
+      "eval_runtime": 11.4024,
+      "eval_samples_per_second": 21.925,
+      "eval_steps_per_second": 2.806,
+      "step": 63
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 21.045801162719727,
+      "learning_rate": 2.6639344262295087e-05,
+      "loss": 0.4525,
+      "step": 64
+    },
+    {
+      "epoch": 1.024,
+      "eval_accuracy": 0.676,
+      "eval_loss": 0.6506518721580505,
+      "eval_runtime": 11.4065,
+      "eval_samples_per_second": 21.917,
+      "eval_steps_per_second": 2.805,
+      "step": 64
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": NaN,
+      "learning_rate": 2.6639344262295087e-05,
+      "loss": 0.5411,
+      "step": 65
+    },
+    {
+      "epoch": 1.04,
+      "eval_accuracy": 0.676,
+      "eval_loss": 0.6506518721580505,
+      "eval_runtime": 11.483,
+      "eval_samples_per_second": 21.771,
+      "eval_steps_per_second": 2.787,
+      "step": 65
+    },
+    {
+      "epoch": 1.056,
+      "grad_norm": 35.55463409423828,
+      "learning_rate": 2.6229508196721314e-05,
+      "loss": 0.5345,
+      "step": 66
+    },
+    {
+      "epoch": 1.056,
+      "eval_accuracy": 0.68,
+      "eval_loss": 0.64942467212677,
+      "eval_runtime": 11.2992,
+      "eval_samples_per_second": 22.125,
+      "eval_steps_per_second": 2.832,
+      "step": 66
+    },
+    {
+      "epoch": 1.072,
+      "grad_norm": 36.09001922607422,
+      "learning_rate": 2.5819672131147544e-05,
+      "loss": 0.5968,
+      "step": 67
+    },
+    {
+      "epoch": 1.072,
+      "eval_accuracy": 0.696,
+      "eval_loss": 0.6280552744865417,
+      "eval_runtime": 11.47,
+      "eval_samples_per_second": 21.796,
+      "eval_steps_per_second": 2.79,
+      "step": 67
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 42.95037078857422,
+      "learning_rate": 2.540983606557377e-05,
+      "loss": 0.7288,
+      "step": 68
+    },
+    {
+      "epoch": 1.088,
+      "eval_accuracy": 0.684,
+      "eval_loss": 0.6100922226905823,
+      "eval_runtime": 11.395,
+      "eval_samples_per_second": 21.939,
+      "eval_steps_per_second": 2.808,
+      "step": 68
+    },
+    {
+      "epoch": 1.104,
+      "grad_norm": 18.122161865234375,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3666,
+      "step": 69
+    },
+    {
+      "epoch": 1.104,
+      "eval_accuracy": 0.708,
+      "eval_loss": 0.5811479687690735,
+      "eval_runtime": 11.467,
+      "eval_samples_per_second": 21.802,
+      "eval_steps_per_second": 2.791,
+      "step": 69
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 17.941131591796875,
+      "learning_rate": 2.459016393442623e-05,
+      "loss": 0.5333,
+      "step": 70
+    },
+    {
+      "epoch": 1.12,
+      "eval_accuracy": 0.684,
+      "eval_loss": 0.5954810976982117,
+      "eval_runtime": 11.4815,
+      "eval_samples_per_second": 21.774,
+      "eval_steps_per_second": 2.787,
+      "step": 70
+    },
+    {
+      "epoch": 1.1360000000000001,
+      "grad_norm": 10.752734184265137,
+      "learning_rate": 2.418032786885246e-05,
+      "loss": 0.4274,
+      "step": 71
+    },
+    {
+      "epoch": 1.1360000000000001,
+      "eval_accuracy": 0.672,
+      "eval_loss": 0.5998041033744812,
+      "eval_runtime": 11.5172,
+      "eval_samples_per_second": 21.707,
+      "eval_steps_per_second": 2.778,
+      "step": 71
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 21.44332504272461,
+      "learning_rate": 2.377049180327869e-05,
+      "loss": 0.4109,
+      "step": 72
+    },
+    {
+      "epoch": 1.152,
+      "eval_accuracy": 0.668,
+      "eval_loss": 0.6016911864280701,
+      "eval_runtime": 11.4217,
+      "eval_samples_per_second": 21.888,
+      "eval_steps_per_second": 2.802,
+      "step": 72
+    },
+    {
+      "epoch": 1.168,
+      "grad_norm": 40.88154220581055,
+      "learning_rate": 2.336065573770492e-05,
+      "loss": 0.576,
+      "step": 73
+    },
+    {
+      "epoch": 1.168,
+      "eval_accuracy": 0.672,
+      "eval_loss": 0.6131250262260437,
+      "eval_runtime": 11.4732,
+      "eval_samples_per_second": 21.79,
+      "eval_steps_per_second": 2.789,
+      "step": 73
+    },
+    {
+      "epoch": 1.184,
+      "grad_norm": 21.387557983398438,
+      "learning_rate": 2.295081967213115e-05,
+      "loss": 0.598,
+      "step": 74
+    },
+    {
+      "epoch": 1.184,
+      "eval_accuracy": 0.688,
+      "eval_loss": 0.5768781900405884,
+      "eval_runtime": 11.3223,
+      "eval_samples_per_second": 22.08,
+      "eval_steps_per_second": 2.826,
+      "step": 74
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 22.257291793823242,
+      "learning_rate": 2.254098360655738e-05,
+      "loss": 0.4916,
+      "step": 75
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.704,
+      "eval_loss": 0.5493154525756836,
+      "eval_runtime": 11.4048,
+      "eval_samples_per_second": 21.921,
+      "eval_steps_per_second": 2.806,
+      "step": 75
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 8.411641120910645,
+      "learning_rate": 2.2131147540983607e-05,
+      "loss": 0.3723,
+      "step": 76
+    },
+    {
+      "epoch": 1.216,
+      "eval_accuracy": 0.716,
+      "eval_loss": 0.5425886511802673,
+      "eval_runtime": 11.4678,
+      "eval_samples_per_second": 21.8,
+      "eval_steps_per_second": 2.79,
+      "step": 76
+    },
+    {
+      "epoch": 1.232,
+      "grad_norm": 10.33214282989502,
+      "learning_rate": 2.1721311475409837e-05,
+      "loss": 0.5423,
+      "step": 77
+    },
+    {
+      "epoch": 1.232,
+      "eval_accuracy": 0.704,
+      "eval_loss": 0.5367762446403503,
+      "eval_runtime": 11.5849,
+      "eval_samples_per_second": 21.58,
+      "eval_steps_per_second": 2.762,
+      "step": 77
+    },
+    {
+      "epoch": 1.248,
+      "grad_norm": 8.413525581359863,
+      "learning_rate": 2.1311475409836064e-05,
+      "loss": 0.5154,
+      "step": 78
+    },
+    {
+      "epoch": 1.248,
+      "eval_accuracy": 0.728,
+      "eval_loss": 0.5338938236236572,
+      "eval_runtime": 11.3935,
+      "eval_samples_per_second": 21.942,
+      "eval_steps_per_second": 2.809,
+      "step": 78
+    },
+    {
+      "epoch": 1.264,
+      "grad_norm": 29.967487335205078,
+      "learning_rate": 2.0901639344262298e-05,
+      "loss": 0.5072,
+      "step": 79
+    },
+    {
+      "epoch": 1.264,
+      "eval_accuracy": 0.716,
+      "eval_loss": 0.5389543175697327,
+      "eval_runtime": 11.5734,
+      "eval_samples_per_second": 21.601,
+      "eval_steps_per_second": 2.765,
+      "step": 79
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 15.605040550231934,
+      "learning_rate": 2.0491803278688525e-05,
+      "loss": 0.38,
+      "step": 80
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.728,
+      "eval_loss": 0.5024056434631348,
+      "eval_runtime": 11.3479,
+      "eval_samples_per_second": 22.031,
+      "eval_steps_per_second": 2.82,
+      "step": 80
+    },
+    {
+      "epoch": 1.296,
+      "grad_norm": 35.906517028808594,
+      "learning_rate": 2.0081967213114755e-05,
+      "loss": 0.6005,
+      "step": 81
+    },
+    {
+      "epoch": 1.296,
+      "eval_accuracy": 0.744,
+      "eval_loss": 0.49823418259620667,
+      "eval_runtime": 11.4956,
+      "eval_samples_per_second": 21.747,
+      "eval_steps_per_second": 2.784,
+      "step": 81
+    },
+    {
+      "epoch": 1.312,
+      "grad_norm": 7.512831211090088,
+      "learning_rate": 1.9672131147540985e-05,
+      "loss": 0.5016,
+      "step": 82
+    },
+    {
+      "epoch": 1.312,
+      "eval_accuracy": 0.728,
+      "eval_loss": 0.4885072708129883,
+      "eval_runtime": 11.4788,
+      "eval_samples_per_second": 21.779,
+      "eval_steps_per_second": 2.788,
+      "step": 82
+    },
+    {
+      "epoch": 1.328,
+      "grad_norm": 16.890913009643555,
+      "learning_rate": 1.9262295081967212e-05,
+      "loss": 0.4624,
+      "step": 83
+    },
+    {
+      "epoch": 1.328,
+      "eval_accuracy": 0.736,
+      "eval_loss": 0.5011359453201294,
+      "eval_runtime": 11.451,
+      "eval_samples_per_second": 21.832,
+      "eval_steps_per_second": 2.795,
+      "step": 83
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 8.635043144226074,
+      "learning_rate": 1.8852459016393442e-05,
+      "loss": 0.3138,
+      "step": 84
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "eval_accuracy": 0.748,
+      "eval_loss": 0.5005082488059998,
+      "eval_runtime": 11.5278,
+      "eval_samples_per_second": 21.687,
+      "eval_steps_per_second": 2.776,
+      "step": 84
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 28.464235305786133,
+      "learning_rate": 1.8442622950819673e-05,
+      "loss": 0.3379,
+      "step": 85
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "eval_accuracy": 0.784,
+      "eval_loss": 0.49115338921546936,
+      "eval_runtime": 11.4489,
+      "eval_samples_per_second": 21.836,
+      "eval_steps_per_second": 2.795,
+      "step": 85
+    },
+    {
+      "epoch": 1.376,
+      "grad_norm": 6.288327217102051,
+      "learning_rate": 1.8032786885245903e-05,
+      "loss": 0.2329,
+      "step": 86
+    },
+    {
+      "epoch": 1.376,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.486227810382843,
+      "eval_runtime": 11.4903,
+      "eval_samples_per_second": 21.757,
+      "eval_steps_per_second": 2.785,
+      "step": 86
+    },
+    {
+      "epoch": 1.392,
+      "grad_norm": 9.165458679199219,
+      "learning_rate": 1.7622950819672133e-05,
+      "loss": 0.4698,
+      "step": 87
+    },
+    {
+      "epoch": 1.392,
+      "eval_accuracy": 0.764,
+      "eval_loss": 0.49401524662971497,
+      "eval_runtime": 11.6,
+      "eval_samples_per_second": 21.552,
+      "eval_steps_per_second": 2.759,
+      "step": 87
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 30.95488166809082,
+      "learning_rate": 1.721311475409836e-05,
+      "loss": 0.386,
+      "step": 88
+    },
+    {
+      "epoch": 1.408,
+      "eval_accuracy": 0.788,
+      "eval_loss": 0.4993850588798523,
+      "eval_runtime": 11.4082,
+      "eval_samples_per_second": 21.914,
+      "eval_steps_per_second": 2.805,
+      "step": 88
+    },
+    {
+      "epoch": 1.424,
+      "grad_norm": 37.84017562866211,
+      "learning_rate": 1.680327868852459e-05,
+      "loss": 0.7592,
+      "step": 89
+    },
+    {
+      "epoch": 1.424,
+      "eval_accuracy": 0.768,
+      "eval_loss": 0.4701511263847351,
+      "eval_runtime": 11.4269,
+      "eval_samples_per_second": 21.878,
+      "eval_steps_per_second": 2.8,
+      "step": 89
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 41.4830436706543,
+      "learning_rate": 1.6393442622950818e-05,
+      "loss": 0.5635,
+      "step": 90
+    },
+    {
+      "epoch": 1.44,
+      "eval_accuracy": 0.776,
+      "eval_loss": 0.4597744047641754,
+      "eval_runtime": 11.3414,
+      "eval_samples_per_second": 22.043,
+      "eval_steps_per_second": 2.822,
+      "step": 90
+    },
+    {
+      "epoch": 1.456,
+      "grad_norm": 8.639835357666016,
+      "learning_rate": 1.598360655737705e-05,
+      "loss": 0.4412,
+      "step": 91
+    },
+    {
+      "epoch": 1.456,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.44887205958366394,
+      "eval_runtime": 11.3759,
+      "eval_samples_per_second": 21.976,
+      "eval_steps_per_second": 2.813,
+      "step": 91
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 13.933167457580566,
+      "learning_rate": 1.557377049180328e-05,
+      "loss": 0.4016,
+      "step": 92
+    },
+    {
+      "epoch": 1.472,
+      "eval_accuracy": 0.764,
+      "eval_loss": 0.4409584403038025,
+      "eval_runtime": 11.4154,
+      "eval_samples_per_second": 21.9,
+      "eval_steps_per_second": 2.803,
+      "step": 92
+    },
+    {
+      "epoch": 1.488,
+      "grad_norm": 25.79916000366211,
+      "learning_rate": 1.5163934426229509e-05,
+      "loss": 0.3462,
+      "step": 93
+    },
+    {
+      "epoch": 1.488,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.4534677267074585,
+      "eval_runtime": 11.4913,
+      "eval_samples_per_second": 21.756,
+      "eval_steps_per_second": 2.785,
+      "step": 93
+    },
+    {
+      "epoch": 1.504,
+      "grad_norm": 8.152263641357422,
+      "learning_rate": 1.4754098360655739e-05,
+      "loss": 0.2376,
+      "step": 94
+    },
+    {
+      "epoch": 1.504,
+      "eval_accuracy": 0.78,
+      "eval_loss": 0.4606277644634247,
+      "eval_runtime": 11.3366,
+      "eval_samples_per_second": 22.053,
+      "eval_steps_per_second": 2.823,
+      "step": 94
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 50.013893127441406,
+      "learning_rate": 1.4344262295081968e-05,
+      "loss": 0.8243,
+      "step": 95
+    },
+    {
+      "epoch": 1.52,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.4745258092880249,
+      "eval_runtime": 11.4641,
+      "eval_samples_per_second": 21.807,
+      "eval_steps_per_second": 2.791,
+      "step": 95
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 7.844508647918701,
+      "learning_rate": 1.3934426229508196e-05,
+      "loss": 0.2607,
+      "step": 96
+    },
+    {
+      "epoch": 1.536,
+      "eval_accuracy": 0.768,
+      "eval_loss": 0.46744146943092346,
+      "eval_runtime": 11.4558,
+      "eval_samples_per_second": 21.823,
+      "eval_steps_per_second": 2.793,
+      "step": 96
+    },
+    {
+      "epoch": 1.552,
+      "grad_norm": 36.814781188964844,
+      "learning_rate": 1.3524590163934428e-05,
+      "loss": 0.6977,
+      "step": 97
+    },
+    {
+      "epoch": 1.552,
+      "eval_accuracy": 0.768,
+      "eval_loss": 0.46450626850128174,
+      "eval_runtime": 11.6232,
+      "eval_samples_per_second": 21.509,
+      "eval_steps_per_second": 2.753,
+      "step": 97
+    },
+    {
+      "epoch": 1.568,
+      "grad_norm": 12.111028671264648,
+      "learning_rate": 1.3114754098360657e-05,
+      "loss": 0.9507,
+      "step": 98
+    },
+    {
+      "epoch": 1.568,
+      "eval_accuracy": 0.78,
+      "eval_loss": 0.45364972949028015,
+      "eval_runtime": 11.495,
+      "eval_samples_per_second": 21.749,
+      "eval_steps_per_second": 2.784,
+      "step": 98
+    },
+    {
+      "epoch": 1.584,
+      "grad_norm": 8.090563774108887,
+      "learning_rate": 1.2704918032786885e-05,
+      "loss": 0.376,
+      "step": 99
+    },
+    {
+      "epoch": 1.584,
+      "eval_accuracy": 0.78,
+      "eval_loss": 0.45443812012672424,
+      "eval_runtime": 11.4699,
+      "eval_samples_per_second": 21.796,
+      "eval_steps_per_second": 2.79,
+      "step": 99
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 27.078815460205078,
+      "learning_rate": 1.2295081967213116e-05,
+      "loss": 0.4708,
+      "step": 100
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.792,
+      "eval_loss": 0.43265777826309204,
+      "eval_runtime": 11.434,
+      "eval_samples_per_second": 21.865,
+      "eval_steps_per_second": 2.799,
+      "step": 100
+    },
+    {
+      "epoch": 1.616,
+      "grad_norm": 31.743221282958984,
+      "learning_rate": 1.1885245901639344e-05,
+      "loss": 0.4244,
+      "step": 101
+    },
+    {
+      "epoch": 1.616,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.4210461378097534,
+      "eval_runtime": 11.605,
+      "eval_samples_per_second": 21.543,
+      "eval_steps_per_second": 2.757,
+      "step": 101
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "grad_norm": 5.887348175048828,
+      "learning_rate": 1.1475409836065575e-05,
+      "loss": 0.2502,
+      "step": 102
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "eval_accuracy": 0.816,
+      "eval_loss": 0.40375572443008423,
+      "eval_runtime": 11.4278,
+      "eval_samples_per_second": 21.876,
+      "eval_steps_per_second": 2.8,
+      "step": 102
+    },
+    {
+      "epoch": 1.6480000000000001,
+      "grad_norm": 13.274320602416992,
+      "learning_rate": 1.1065573770491803e-05,
+      "loss": 0.8468,
+      "step": 103
+    },
+    {
+      "epoch": 1.6480000000000001,
+      "eval_accuracy": 0.816,
+      "eval_loss": 0.39257147908210754,
+      "eval_runtime": 11.4088,
+      "eval_samples_per_second": 21.913,
+      "eval_steps_per_second": 2.805,
+      "step": 103
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 22.40627098083496,
+      "learning_rate": 1.0655737704918032e-05,
+      "loss": 0.5753,
+      "step": 104
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "eval_accuracy": 0.816,
+      "eval_loss": 0.39645299315452576,
+      "eval_runtime": 11.469,
+      "eval_samples_per_second": 21.798,
+      "eval_steps_per_second": 2.79,
+      "step": 104
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 7.59094762802124,
+      "learning_rate": 1.0245901639344262e-05,
+      "loss": 0.2518,
+      "step": 105
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "eval_accuracy": 0.812,
+      "eval_loss": 0.3954884707927704,
+      "eval_runtime": 11.452,
+      "eval_samples_per_second": 21.83,
+      "eval_steps_per_second": 2.794,
+      "step": 105
+    },
+    {
+      "epoch": 1.696,
+      "grad_norm": 10.119157791137695,
+      "learning_rate": 9.836065573770493e-06,
+      "loss": 0.4945,
+      "step": 106
+    },
+    {
+      "epoch": 1.696,
+      "eval_accuracy": 0.796,
+      "eval_loss": 0.39326009154319763,
+      "eval_runtime": 11.4475,
+      "eval_samples_per_second": 21.839,
+      "eval_steps_per_second": 2.795,
+      "step": 106
+    },
+    {
+      "epoch": 1.712,
+      "grad_norm": 12.016386032104492,
+      "learning_rate": 9.426229508196721e-06,
+      "loss": 0.2257,
+      "step": 107
+    },
+    {
+      "epoch": 1.712,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.38625067472457886,
+      "eval_runtime": 11.4441,
+      "eval_samples_per_second": 21.845,
+      "eval_steps_per_second": 2.796,
+      "step": 107
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 37.06383514404297,
+      "learning_rate": 9.016393442622952e-06,
+      "loss": 0.8669,
+      "step": 108
+    },
+    {
+      "epoch": 1.728,
+      "eval_accuracy": 0.804,
+      "eval_loss": 0.388757586479187,
+      "eval_runtime": 11.59,
+      "eval_samples_per_second": 21.57,
+      "eval_steps_per_second": 2.761,
+      "step": 108
+    },
+    {
+      "epoch": 1.744,
+      "grad_norm": 19.463485717773438,
+      "learning_rate": 8.60655737704918e-06,
+      "loss": 0.4496,
+      "step": 109
+    },
+    {
+      "epoch": 1.744,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.3835999667644501,
+      "eval_runtime": 11.3837,
+      "eval_samples_per_second": 21.961,
+      "eval_steps_per_second": 2.811,
+      "step": 109
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 9.631560325622559,
+      "learning_rate": 8.196721311475409e-06,
+      "loss": 0.3514,
+      "step": 110
+    },
+    {
+      "epoch": 1.76,
+      "eval_accuracy": 0.804,
+      "eval_loss": 0.3807854652404785,
+      "eval_runtime": 11.3909,
+      "eval_samples_per_second": 21.947,
+      "eval_steps_per_second": 2.809,
+      "step": 110
+    },
+    {
+      "epoch": 1.776,
+      "grad_norm": 15.87090015411377,
+      "learning_rate": 7.78688524590164e-06,
+      "loss": 0.2494,
+      "step": 111
+    },
+    {
+      "epoch": 1.776,
+      "eval_accuracy": 0.784,
+      "eval_loss": 0.39890381693840027,
+      "eval_runtime": 11.3662,
+      "eval_samples_per_second": 21.995,
+      "eval_steps_per_second": 2.815,
+      "step": 111
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 13.411320686340332,
+      "learning_rate": 7.3770491803278695e-06,
+      "loss": 0.5852,
+      "step": 112
+    },
+    {
+      "epoch": 1.792,
+      "eval_accuracy": 0.812,
+      "eval_loss": 0.37704914808273315,
+      "eval_runtime": 11.496,
+      "eval_samples_per_second": 21.747,
+      "eval_steps_per_second": 2.784,
+      "step": 112
+    },
+    {
+      "epoch": 1.808,
+      "grad_norm": 10.2308931350708,
+      "learning_rate": 6.967213114754098e-06,
+      "loss": 0.2353,
+      "step": 113
+    },
+    {
+      "epoch": 1.808,
+      "eval_accuracy": 0.804,
+      "eval_loss": 0.3881246745586395,
+      "eval_runtime": 11.6252,
+      "eval_samples_per_second": 21.505,
+      "eval_steps_per_second": 2.753,
+      "step": 113
+    },
+    {
+      "epoch": 1.8239999999999998,
+      "grad_norm": 35.862152099609375,
+      "learning_rate": 6.557377049180328e-06,
+      "loss": 0.347,
+      "step": 114
+    },
+    {
+      "epoch": 1.8239999999999998,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.38348227739334106,
+      "eval_runtime": 11.3665,
+      "eval_samples_per_second": 21.995,
+      "eval_steps_per_second": 2.815,
+      "step": 114
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 16.910600662231445,
+      "learning_rate": 6.147540983606558e-06,
+      "loss": 0.5338,
+      "step": 115
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "eval_accuracy": 0.788,
+      "eval_loss": 0.39259979128837585,
+      "eval_runtime": 11.3572,
+      "eval_samples_per_second": 22.013,
+      "eval_steps_per_second": 2.818,
+      "step": 115
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 14.902595520019531,
+      "learning_rate": 5.737704918032787e-06,
+      "loss": 0.3718,
+      "step": 116
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "eval_accuracy": 0.812,
+      "eval_loss": 0.37997427582740784,
+      "eval_runtime": 11.3538,
+      "eval_samples_per_second": 22.019,
+      "eval_steps_per_second": 2.818,
+      "step": 116
+    },
+    {
+      "epoch": 1.8719999999999999,
+      "grad_norm": 13.893790245056152,
+      "learning_rate": 5.327868852459016e-06,
+      "loss": 0.1954,
+      "step": 117
+    },
+    {
+      "epoch": 1.8719999999999999,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.3953521251678467,
+      "eval_runtime": 11.6285,
+      "eval_samples_per_second": 21.499,
+      "eval_steps_per_second": 2.752,
+      "step": 117
+    },
+    {
+      "epoch": 1.888,
+      "grad_norm": 20.8792667388916,
+      "learning_rate": 4.918032786885246e-06,
+      "loss": 0.3679,
+      "step": 118
+    },
+    {
+      "epoch": 1.888,
+      "eval_accuracy": 0.788,
+      "eval_loss": 0.4041662812232971,
+      "eval_runtime": 11.7007,
+      "eval_samples_per_second": 21.366,
+      "eval_steps_per_second": 2.735,
+      "step": 118
+    },
+    {
+      "epoch": 1.904,
+      "grad_norm": 10.44711685180664,
+      "learning_rate": 4.508196721311476e-06,
+      "loss": 0.2971,
+      "step": 119
+    },
+    {
+      "epoch": 1.904,
+      "eval_accuracy": 0.796,
+      "eval_loss": 0.39307668805122375,
+      "eval_runtime": 11.5223,
+      "eval_samples_per_second": 21.697,
+      "eval_steps_per_second": 2.777,
+      "step": 119
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 17.487539291381836,
+      "learning_rate": 4.098360655737704e-06,
+      "loss": 0.2742,
+      "step": 120
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.804,
+      "eval_loss": 0.38854384422302246,
+      "eval_runtime": 11.3276,
+      "eval_samples_per_second": 22.07,
+      "eval_steps_per_second": 2.825,
+      "step": 120
+    },
+    {
+      "epoch": 1.936,
+      "grad_norm": 33.492523193359375,
+      "learning_rate": 3.6885245901639347e-06,
+      "loss": 0.5166,
+      "step": 121
+    },
+    {
+      "epoch": 1.936,
+      "eval_accuracy": 0.776,
+      "eval_loss": 0.39685389399528503,
+      "eval_runtime": 11.3571,
+      "eval_samples_per_second": 22.013,
+      "eval_steps_per_second": 2.818,
+      "step": 121
+    },
+    {
+      "epoch": 1.952,
+      "grad_norm": 16.691682815551758,
+      "learning_rate": 3.278688524590164e-06,
+      "loss": 0.2628,
+      "step": 122
+    },
+    {
+      "epoch": 1.952,
+      "eval_accuracy": 0.796,
+      "eval_loss": 0.39687633514404297,
+      "eval_runtime": 11.3028,
+      "eval_samples_per_second": 22.118,
+      "eval_steps_per_second": 2.831,
+      "step": 122
+    },
+    {
+      "epoch": 1.968,
+      "grad_norm": 6.603124618530273,
+      "learning_rate": 2.8688524590163937e-06,
+      "loss": 0.2998,
+      "step": 123
+    },
+    {
+      "epoch": 1.968,
+      "eval_accuracy": 0.824,
+      "eval_loss": 0.3869865834712982,
+      "eval_runtime": 11.2907,
+      "eval_samples_per_second": 22.142,
+      "eval_steps_per_second": 2.834,
+      "step": 123
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 20.69419288635254,
+      "learning_rate": 2.459016393442623e-06,
+      "loss": 0.3104,
+      "step": 124
+    },
+    {
+      "epoch": 1.984,
+      "eval_accuracy": 0.824,
+      "eval_loss": 0.38347548246383667,
+      "eval_runtime": 11.3038,
+      "eval_samples_per_second": 22.117,
+      "eval_steps_per_second": 2.831,
+      "step": 124
+    },
+    {
+      "epoch": 1.984,
+      "step": 124,
+      "total_flos": 1.6196776411267072e+16,
+      "train_loss": 0.6168801505719462,
+      "train_runtime": 1813.1247,
+      "train_samples_per_second": 1.103,
+      "train_steps_per_second": 0.068
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 124,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 1.6196776411267072e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1986f4a40fd6bc597f97e0c94ab5f343578e515047e50e4acf28ef950ec036e1
+size 5048