feat: fine-tuning japanese-mistral-300M-base with databricks-dolly-15k-ja

Browse files

Files changed (15) hide show

README.md +201 -0
all_results.json +14 -0
config.json +25 -0
eval_results.json +9 -0
generation_config.json +6 -0
logs/events.out.tfevents.1702213518.90c313ded1af.749823.0 +3 -0
logs/events.out.tfevents.1702233619.90c313ded1af.749823.1 +3 -0
model.safetensors +3 -0
special_tokens_map.json +30 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +47 -0
train_results.json +8 -0
trainer_state.json +798 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,201 @@

+---
+base_model: ce-lery/japanese-mistral-300m-base
+tags:
+- generated_from_trainer
+model-index:
+- name: checkpoints-finetuning
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# japanese-mistral-300m-instruction
+## Overview
+Welcome to my model card!
+This Model feature is ...
+- Suppression of unknown word generation by using byte fallback in SentencePiece tokenizer and conversion to huggingface Tokenizers format
+- Pretrained by wikipedia dataset and cc100 dataset
+- Use of [Mistral 300M](https://huggingface.co/ce-lery/japanese-mistral-300m-base/blob/main/config.json)
+- Fine-tuning [ce-lery/japanese-mistral-300m-base](https://huggingface.co/ce-lery/japanese-mistral-300m-base) with [kunishou/databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja)
+Yukkuri shite ittene!
+## How to use the model
+```python
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import os
+MODEL_NAME = "ce-lery/japanese-mistral-300m-instruction"
+torch.set_float32_matmul_precision('high')
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(device)
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=False,trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(MODEL_NAME,trust_remote_code=True).to(device)
+MAX_ASSISTANT_LENGTH = 100
+MAX_INPUT_LENGTH = 128
+INPUT_PROMPT = r'<s>\n以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。\n[SEP]\n指示:\n{instruction}\n[SEP]\n入力:\n{input}\n[SEP]\n応答:\n'
+NO_INPUT_PROMPT = r'<s>\n以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\n[SEP]\n指示:\n{instruction}\n[SEP]\n応答:\n'
+def prepare_input(instruction, input_text):
+    if input_text != "":
+        prompt = INPUT_PROMPT.format(instruction=instruction, input=input_text)
+    else:
+        prompt = NO_INPUT_PROMPT.format(instruction=instruction)
+    return prompt
+def format_output(output):
+    output = output.lstrip("<s>").rstrip("</s>").replace("[SEP]", "").replace("\\n", "\n")
+    return output
+def generate_response(instruction, input_text):
+    prompt = prepare_input(instruction, input_text)
+    token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
+    n = len(token_ids[0])
+    # print(n)
+    with torch.no_grad():
+        output_ids = model.generate(
+            token_ids.to(model.device),
+            min_length=n,
+            max_length=min(MAX_INPUT_LENGTH, n + MAX_ASSISTANT_LENGTH),
+            top_p=0.95,
+            top_k=50,
+            temperature=0.4,
+            do_sample=True,
+            no_repeat_ngram_size=2,
+            num_beams=3,
+            pad_token_id=tokenizer.pad_token_id,
+            bos_token_id=tokenizer.bos_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+            bad_words_ids=[[tokenizer.unk_token_id]]
+        )
+    output = tokenizer.decode(output_ids.tolist()[0])
+    formatted_output_all = format_output(output)
+    response = f"Assistant:{formatted_output_all.split('応答:')[-1].strip()}"
+    return formatted_output_all, response
+instruction = "あなたは何でも正確に答えられるAIです。"
+questions = [
+    "日本で一番高い山は？",
+    "日本で一番広い湖は？",
+    "世界で一番高い山は？",
+    "世界で一番広い湖は？",
+    "冗談を言ってください。",
+]
+# 各質問に対して応答を生成して表示
+for question in questions:
+    formatted_output_all, response = generate_response(instruction, question)
+    print(response)
+```
+## Receipe
+If you want to restruct this model, you can refer [this Github repository](https://github.com/ce-lery/japanese-mistral-300m-recipe).
+I wrote the receipe for struction this model. For example,
+- Preprocess with sentencepiece
+- Pretraining with flash attention2 and torch.compile and DeepSpeed
+- Fine-tuning with databricks-dolly-15k-ja
+If you find my mistake,error,...etc, please create issue.
+If you create pulreqest, I'm very happy!
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 64
+- total_train_batch_size: 256
+- optimizer: Adam with betas=(0.9,0.95) and epsilon=0.0001
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 1000
+- num_epochs: 200
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 3.595         | 3.51   | 40   | 3.5299          |
+| 3.4769        | 7.02   | 80   | 3.3722          |
+| 3.3037        | 10.53  | 120  | 3.1871          |
+| 3.1255        | 14.05  | 160  | 3.0088          |
+| 2.9615        | 17.56  | 200  | 2.8684          |
+| 2.8468        | 21.07  | 240  | 2.7808          |
+| 2.7699        | 24.58  | 280  | 2.7205          |
+| 2.7139        | 28.09  | 320  | 2.6793          |
+| 2.6712        | 31.6   | 360  | 2.6509          |
+| 2.6356        | 35.12  | 400  | 2.6294          |
+| 2.6048        | 38.63  | 440  | 2.6120          |
+| 2.5823        | 42.14  | 480  | 2.5974          |
+| 2.5536        | 45.65  | 520  | 2.5849          |
+| 2.5293        | 49.16  | 560  | 2.5740          |
+| 2.5058        | 52.67  | 600  | 2.5644          |
+| 2.482         | 56.19  | 640  | 2.5556          |
+| 2.4575        | 59.7   | 680  | 2.5477          |
+| 2.4339        | 63.21  | 720  | 2.5405          |
+| 2.4073        | 66.72  | 760  | 2.5350          |
+| 2.3845        | 70.23  | 800  | 2.5303          |
+| 2.3606        | 73.74  | 840  | 2.5253          |
+| 2.329         | 77.26  | 880  | 2.5215          |
+| 2.3071        | 80.77  | 920  | 2.5185          |
+| 2.2768        | 84.28  | 960  | 2.5155          |
+| 2.2479        | 87.79  | 1000 | 2.5144          |
+| 2.2181        | 91.3   | 1040 | 2.5151          |
+| 2.1901        | 94.81  | 1080 | 2.5139          |
+| 2.1571        | 98.33  | 1120 | 2.5148          |
+| 2.1308        | 101.84 | 1160 | 2.5166          |
+| 2.1032        | 105.35 | 1200 | 2.5193          |
+| 2.0761        | 108.86 | 1240 | 2.5204          |
+| 2.0495        | 112.37 | 1280 | 2.5269          |
+| 2.0231        | 115.88 | 1320 | 2.5285          |
+| 2.0021        | 119.4  | 1360 | 2.5328          |
+| 1.9793        | 122.91 | 1400 | 2.5383          |
+| 1.9575        | 126.42 | 1440 | 2.5442          |
+| 1.9368        | 129.93 | 1480 | 2.5488          |
+| 1.9216        | 133.44 | 1520 | 2.5534          |
+| 1.902         | 136.95 | 1560 | 2.5584          |
+| 1.8885        | 140.47 | 1600 | 2.5609          |
+| 1.8728        | 143.98 | 1640 | 2.5657          |
+| 1.8605        | 147.49 | 1680 | 2.5697          |
+| 1.8476        | 151.0  | 1720 | 2.5741          |
+| 1.8402        | 154.51 | 1760 | 2.5770          |
+| 1.8274        | 158.02 | 1800 | 2.5803          |
+| 1.8218        | 161.54 | 1840 | 2.5829          |
+| 1.8144        | 165.05 | 1880 | 2.5847          |
+| 1.8097        | 168.56 | 1920 | 2.5867          |
+| 1.8076        | 172.07 | 1960 | 2.5883          |
+| 1.8014        | 175.58 | 2000 | 2.5892          |
+| 1.8001        | 179.09 | 2040 | 2.5899          |
+| 1.7987        | 182.61 | 2080 | 2.5903          |
+| 1.7971        | 186.12 | 2120 | 2.5906          |
+| 1.7979        | 189.63 | 2160 | 2.5907          |
+| 1.7975        | 193.14 | 2200 | 2.5907          |
+### Framework versions
+- Transformers 4.35.2
+- Pytorch 2.1.1+cu121
+- Datasets 2.14.5
+- Tokenizers 0.14.1

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 193.14,
+    "eval_loss": 2.513946056365967,
+    "eval_runtime": 4.6377,
+    "eval_samples": 313,
+    "eval_samples_per_second": 67.49,
+    "eval_steps_per_second": 17.034,
+    "perplexity": 12.353581936499637,
+    "train_loss": 2.2616969472711737,
+    "train_runtime": 20093.6832,
+    "train_samples": 2916,
+    "train_samples_per_second": 29.024,
+    "train_steps_per_second": 0.109
+}

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "../../pretrain/train/checkpoints-mistral-300M-FA2",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 2400,
+  "max_position_embeddings": 4096,
+  "model_type": "mistral",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "sliding_window": 1024,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 193.14,
+    "eval_loss": 2.513946056365967,
+    "eval_runtime": 4.6377,
+    "eval_samples": 313,
+    "eval_samples_per_second": 67.49,
+    "eval_steps_per_second": 17.034,
+    "perplexity": 12.353581936499637
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.35.2"
+}

logs/events.out.tfevents.1702213518.90c313ded1af.749823.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ab5e18d681e45befea0f89ce8bf0b3c905f0204bdceb0a194a8d5b35e106d37
+size 28067

logs/events.out.tfevents.1702233619.90c313ded1af.749823.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7c98962865b1824fe059a075d55138896ddd9ae996d36db1edbab0308142f09
+size 359

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3413550b9d3e9e0b5ea6a87537fe728760798a2ee96e83f75ec1d60b3aaa256
+size 1421709600

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:604cb0c2f073ba13f04739ced6f8310f4f00ab344feea6cb5c4012af3876c684
+size 1249735

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "legacy": true,
+  "model_max_length": 50000,
+  "pad_token": "[PAD]",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 193.14,
+    "train_loss": 2.2616969472711737,
+    "train_runtime": 20093.6832,
+    "train_samples": 2916,
+    "train_samples_per_second": 29.024,
+    "train_steps_per_second": 0.109
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,798 @@

+{
+  "best_metric": 2.513946056365967,
+  "best_model_checkpoint": "checkpoints-finetuning/checkpoint-1080",
+  "epoch": 193.14128943758573,
+  "eval_steps": 40,
+  "global_step": 2200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 3.51,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 3.595,
+      "step": 40
+    },
+    {
+      "epoch": 3.51,
+      "eval_loss": 3.5299072265625,
+      "eval_runtime": 5.0148,
+      "eval_samples_per_second": 62.416,
+      "eval_steps_per_second": 15.753,
+      "step": 40
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 3.4769,
+      "step": 80
+    },
+    {
+      "epoch": 7.02,
+      "eval_loss": 3.3721721172332764,
+      "eval_runtime": 4.4435,
+      "eval_samples_per_second": 70.441,
+      "eval_steps_per_second": 17.779,
+      "step": 80
+    },
+    {
+      "epoch": 10.53,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 3.3037,
+      "step": 120
+    },
+    {
+      "epoch": 10.53,
+      "eval_loss": 3.1870808601379395,
+      "eval_runtime": 4.6407,
+      "eval_samples_per_second": 67.446,
+      "eval_steps_per_second": 17.023,
+      "step": 120
+    },
+    {
+      "epoch": 14.05,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 3.1255,
+      "step": 160
+    },
+    {
+      "epoch": 14.05,
+      "eval_loss": 3.0087945461273193,
+      "eval_runtime": 4.7026,
+      "eval_samples_per_second": 66.559,
+      "eval_steps_per_second": 16.799,
+      "step": 160
+    },
+    {
+      "epoch": 17.56,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 2.9615,
+      "step": 200
+    },
+    {
+      "epoch": 17.56,
+      "eval_loss": 2.8684051036834717,
+      "eval_runtime": 4.6401,
+      "eval_samples_per_second": 67.455,
+      "eval_steps_per_second": 17.026,
+      "step": 200
+    },
+    {
+      "epoch": 21.07,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 2.8468,
+      "step": 240
+    },
+    {
+      "epoch": 21.07,
+      "eval_loss": 2.780834436416626,
+      "eval_runtime": 4.4221,
+      "eval_samples_per_second": 70.78,
+      "eval_steps_per_second": 17.865,
+      "step": 240
+    },
+    {
+      "epoch": 24.58,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 2.7699,
+      "step": 280
+    },
+    {
+      "epoch": 24.58,
+      "eval_loss": 2.720453977584839,
+      "eval_runtime": 4.5663,
+      "eval_samples_per_second": 68.546,
+      "eval_steps_per_second": 17.301,
+      "step": 280
+    },
+    {
+      "epoch": 28.09,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 2.7139,
+      "step": 320
+    },
+    {
+      "epoch": 28.09,
+      "eval_loss": 2.679349422454834,
+      "eval_runtime": 4.7784,
+      "eval_samples_per_second": 65.504,
+      "eval_steps_per_second": 16.533,
+      "step": 320
+    },
+    {
+      "epoch": 31.6,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 2.6712,
+      "step": 360
+    },
+    {
+      "epoch": 31.6,
+      "eval_loss": 2.650853395462036,
+      "eval_runtime": 4.6713,
+      "eval_samples_per_second": 67.005,
+      "eval_steps_per_second": 16.912,
+      "step": 360
+    },
+    {
+      "epoch": 35.12,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 2.6356,
+      "step": 400
+    },
+    {
+      "epoch": 35.12,
+      "eval_loss": 2.6293749809265137,
+      "eval_runtime": 4.6364,
+      "eval_samples_per_second": 67.51,
+      "eval_steps_per_second": 17.039,
+      "step": 400
+    },
+    {
+      "epoch": 38.63,
+      "learning_rate": 2.2e-06,
+      "loss": 2.6048,
+      "step": 440
+    },
+    {
+      "epoch": 38.63,
+      "eval_loss": 2.611950635910034,
+      "eval_runtime": 4.5116,
+      "eval_samples_per_second": 69.377,
+      "eval_steps_per_second": 17.511,
+      "step": 440
+    },
+    {
+      "epoch": 42.14,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 2.5823,
+      "step": 480
+    },
+    {
+      "epoch": 42.14,
+      "eval_loss": 2.597449541091919,
+      "eval_runtime": 4.5213,
+      "eval_samples_per_second": 69.228,
+      "eval_steps_per_second": 17.473,
+      "step": 480
+    },
+    {
+      "epoch": 45.65,
+      "learning_rate": 2.6e-06,
+      "loss": 2.5536,
+      "step": 520
+    },
+    {
+      "epoch": 45.65,
+      "eval_loss": 2.5848779678344727,
+      "eval_runtime": 4.4398,
+      "eval_samples_per_second": 70.498,
+      "eval_steps_per_second": 17.793,
+      "step": 520
+    },
+    {
+      "epoch": 49.16,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 2.5293,
+      "step": 560
+    },
+    {
+      "epoch": 49.16,
+      "eval_loss": 2.574049472808838,
+      "eval_runtime": 4.6572,
+      "eval_samples_per_second": 67.208,
+      "eval_steps_per_second": 16.963,
+      "step": 560
+    },
+    {
+      "epoch": 52.67,
+      "learning_rate": 3e-06,
+      "loss": 2.5058,
+      "step": 600
+    },
+    {
+      "epoch": 52.67,
+      "eval_loss": 2.5643808841705322,
+      "eval_runtime": 4.6849,
+      "eval_samples_per_second": 66.81,
+      "eval_steps_per_second": 16.863,
+      "step": 600
+    },
+    {
+      "epoch": 56.19,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 2.482,
+      "step": 640
+    },
+    {
+      "epoch": 56.19,
+      "eval_loss": 2.555607557296753,
+      "eval_runtime": 4.491,
+      "eval_samples_per_second": 69.695,
+      "eval_steps_per_second": 17.591,
+      "step": 640
+    },
+    {
+      "epoch": 59.7,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 2.4575,
+      "step": 680
+    },
+    {
+      "epoch": 59.7,
+      "eval_loss": 2.547734260559082,
+      "eval_runtime": 4.6182,
+      "eval_samples_per_second": 67.776,
+      "eval_steps_per_second": 17.106,
+      "step": 680
+    },
+    {
+      "epoch": 63.21,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 2.4339,
+      "step": 720
+    },
+    {
+      "epoch": 63.21,
+      "eval_loss": 2.5405359268188477,
+      "eval_runtime": 4.5137,
+      "eval_samples_per_second": 69.345,
+      "eval_steps_per_second": 17.502,
+      "step": 720
+    },
+    {
+      "epoch": 66.72,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 2.4073,
+      "step": 760
+    },
+    {
+      "epoch": 66.72,
+      "eval_loss": 2.5350451469421387,
+      "eval_runtime": 4.6034,
+      "eval_samples_per_second": 67.993,
+      "eval_steps_per_second": 17.161,
+      "step": 760
+    },
+    {
+      "epoch": 70.23,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 2.3845,
+      "step": 800
+    },
+    {
+      "epoch": 70.23,
+      "eval_loss": 2.530299186706543,
+      "eval_runtime": 4.6325,
+      "eval_samples_per_second": 67.566,
+      "eval_steps_per_second": 17.053,
+      "step": 800
+    },
+    {
+      "epoch": 73.74,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 2.3606,
+      "step": 840
+    },
+    {
+      "epoch": 73.74,
+      "eval_loss": 2.525312662124634,
+      "eval_runtime": 4.4668,
+      "eval_samples_per_second": 70.072,
+      "eval_steps_per_second": 17.686,
+      "step": 840
+    },
+    {
+      "epoch": 77.26,
+      "learning_rate": 4.4e-06,
+      "loss": 2.329,
+      "step": 880
+    },
+    {
+      "epoch": 77.26,
+      "eval_loss": 2.5215225219726562,
+      "eval_runtime": 4.4699,
+      "eval_samples_per_second": 70.023,
+      "eval_steps_per_second": 17.674,
+      "step": 880
+    },
+    {
+      "epoch": 80.77,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 2.3071,
+      "step": 920
+    },
+    {
+      "epoch": 80.77,
+      "eval_loss": 2.5184576511383057,
+      "eval_runtime": 4.3807,
+      "eval_samples_per_second": 71.45,
+      "eval_steps_per_second": 18.034,
+      "step": 920
+    },
+    {
+      "epoch": 84.28,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 2.2768,
+      "step": 960
+    },
+    {
+      "epoch": 84.28,
+      "eval_loss": 2.515460729598999,
+      "eval_runtime": 4.6634,
+      "eval_samples_per_second": 67.119,
+      "eval_steps_per_second": 16.941,
+      "step": 960
+    },
+    {
+      "epoch": 87.79,
+      "learning_rate": 5e-06,
+      "loss": 2.2479,
+      "step": 1000
+    },
+    {
+      "epoch": 87.79,
+      "eval_loss": 2.514392852783203,
+      "eval_runtime": 4.5583,
+      "eval_samples_per_second": 68.665,
+      "eval_steps_per_second": 17.331,
+      "step": 1000
+    },
+    {
+      "epoch": 91.3,
+      "learning_rate": 4.986304738420684e-06,
+      "loss": 2.2181,
+      "step": 1040
+    },
+    {
+      "epoch": 91.3,
+      "eval_loss": 2.515076160430908,
+      "eval_runtime": 4.6324,
+      "eval_samples_per_second": 67.568,
+      "eval_steps_per_second": 17.054,
+      "step": 1040
+    },
+    {
+      "epoch": 94.81,
+      "learning_rate": 4.9453690018345144e-06,
+      "loss": 2.1901,
+      "step": 1080
+    },
+    {
+      "epoch": 94.81,
+      "eval_loss": 2.513946056365967,
+      "eval_runtime": 4.635,
+      "eval_samples_per_second": 67.53,
+      "eval_steps_per_second": 17.044,
+      "step": 1080
+    },
+    {
+      "epoch": 98.33,
+      "learning_rate": 4.8776412907378845e-06,
+      "loss": 2.1571,
+      "step": 1120
+    },
+    {
+      "epoch": 98.33,
+      "eval_loss": 2.514775037765503,
+      "eval_runtime": 4.7132,
+      "eval_samples_per_second": 66.41,
+      "eval_steps_per_second": 16.762,
+      "step": 1120
+    },
+    {
+      "epoch": 101.84,
+      "learning_rate": 4.783863644106502e-06,
+      "loss": 2.1308,
+      "step": 1160
+    },
+    {
+      "epoch": 101.84,
+      "eval_loss": 2.5165762901306152,
+      "eval_runtime": 4.6347,
+      "eval_samples_per_second": 67.535,
+      "eval_steps_per_second": 17.046,
+      "step": 1160
+    },
+    {
+      "epoch": 105.35,
+      "learning_rate": 4.665063509461098e-06,
+      "loss": 2.1032,
+      "step": 1200
+    },
+    {
+      "epoch": 105.35,
+      "eval_loss": 2.5192971229553223,
+      "eval_runtime": 4.6292,
+      "eval_samples_per_second": 67.614,
+      "eval_steps_per_second": 17.066,
+      "step": 1200
+    },
+    {
+      "epoch": 108.86,
+      "learning_rate": 4.522542485937369e-06,
+      "loss": 2.0761,
+      "step": 1240
+    },
+    {
+      "epoch": 108.86,
+      "eval_loss": 2.5203866958618164,
+      "eval_runtime": 4.6638,
+      "eval_samples_per_second": 67.113,
+      "eval_steps_per_second": 16.939,
+      "step": 1240
+    },
+    {
+      "epoch": 112.37,
+      "learning_rate": 4.357862063693486e-06,
+      "loss": 2.0495,
+      "step": 1280
+    },
+    {
+      "epoch": 112.37,
+      "eval_loss": 2.5268709659576416,
+      "eval_runtime": 4.6504,
+      "eval_samples_per_second": 67.306,
+      "eval_steps_per_second": 16.988,
+      "step": 1280
+    },
+    {
+      "epoch": 115.88,
+      "learning_rate": 4.172826515897146e-06,
+      "loss": 2.0231,
+      "step": 1320
+    },
+    {
+      "epoch": 115.88,
+      "eval_loss": 2.5284526348114014,
+      "eval_runtime": 4.6029,
+      "eval_samples_per_second": 68.0,
+      "eval_steps_per_second": 17.163,
+      "step": 1320
+    },
+    {
+      "epoch": 119.4,
+      "learning_rate": 3.969463130731183e-06,
+      "loss": 2.0021,
+      "step": 1360
+    },
+    {
+      "epoch": 119.4,
+      "eval_loss": 2.5327632427215576,
+      "eval_runtime": 4.7118,
+      "eval_samples_per_second": 66.429,
+      "eval_steps_per_second": 16.767,
+      "step": 1360
+    },
+    {
+      "epoch": 122.91,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 1.9793,
+      "step": 1400
+    },
+    {
+      "epoch": 122.91,
+      "eval_loss": 2.5382816791534424,
+      "eval_runtime": 4.6299,
+      "eval_samples_per_second": 67.603,
+      "eval_steps_per_second": 17.063,
+      "step": 1400
+    },
+    {
+      "epoch": 126.42,
+      "learning_rate": 3.516841607689501e-06,
+      "loss": 1.9575,
+      "step": 1440
+    },
+    {
+      "epoch": 126.42,
+      "eval_loss": 2.5441536903381348,
+      "eval_runtime": 4.6442,
+      "eval_samples_per_second": 67.396,
+      "eval_steps_per_second": 17.01,
+      "step": 1440
+    },
+    {
+      "epoch": 129.93,
+      "learning_rate": 3.272542485937369e-06,
+      "loss": 1.9368,
+      "step": 1480
+    },
+    {
+      "epoch": 129.93,
+      "eval_loss": 2.5487852096557617,
+      "eval_runtime": 4.6396,
+      "eval_samples_per_second": 67.462,
+      "eval_steps_per_second": 17.027,
+      "step": 1480
+    },
+    {
+      "epoch": 133.44,
+      "learning_rate": 3.019779227044398e-06,
+      "loss": 1.9216,
+      "step": 1520
+    },
+    {
+      "epoch": 133.44,
+      "eval_loss": 2.5533745288848877,
+      "eval_runtime": 4.6038,
+      "eval_samples_per_second": 67.987,
+      "eval_steps_per_second": 17.16,
+      "step": 1520
+    },
+    {
+      "epoch": 136.95,
+      "learning_rate": 2.761321158169134e-06,
+      "loss": 1.902,
+      "step": 1560
+    },
+    {
+      "epoch": 136.95,
+      "eval_loss": 2.558429479598999,
+      "eval_runtime": 4.605,
+      "eval_samples_per_second": 67.969,
+      "eval_steps_per_second": 17.155,
+      "step": 1560
+    },
+    {
+      "epoch": 140.47,
+      "learning_rate": 2.5e-06,
+      "loss": 1.8885,
+      "step": 1600
+    },
+    {
+      "epoch": 140.47,
+      "eval_loss": 2.560931444168091,
+      "eval_runtime": 4.6137,
+      "eval_samples_per_second": 67.842,
+      "eval_steps_per_second": 17.123,
+      "step": 1600
+    },
+    {
+      "epoch": 143.98,
+      "learning_rate": 2.238678841830867e-06,
+      "loss": 1.8728,
+      "step": 1640
+    },
+    {
+      "epoch": 143.98,
+      "eval_loss": 2.565746307373047,
+      "eval_runtime": 4.6085,
+      "eval_samples_per_second": 67.918,
+      "eval_steps_per_second": 17.142,
+      "step": 1640
+    },
+    {
+      "epoch": 147.49,
+      "learning_rate": 1.9802207729556023e-06,
+      "loss": 1.8605,
+      "step": 1680
+    },
+    {
+      "epoch": 147.49,
+      "eval_loss": 2.569748640060425,
+      "eval_runtime": 4.6652,
+      "eval_samples_per_second": 67.092,
+      "eval_steps_per_second": 16.934,
+      "step": 1680
+    },
+    {
+      "epoch": 151.0,
+      "learning_rate": 1.7274575140626318e-06,
+      "loss": 1.8476,
+      "step": 1720
+    },
+    {
+      "epoch": 151.0,
+      "eval_loss": 2.5741446018218994,
+      "eval_runtime": 4.7429,
+      "eval_samples_per_second": 65.994,
+      "eval_steps_per_second": 16.657,
+      "step": 1720
+    },
+    {
+      "epoch": 154.51,
+      "learning_rate": 1.4831583923105e-06,
+      "loss": 1.8402,
+      "step": 1760
+    },
+    {
+      "epoch": 154.51,
+      "eval_loss": 2.5770394802093506,
+      "eval_runtime": 4.6184,
+      "eval_samples_per_second": 67.772,
+      "eval_steps_per_second": 17.105,
+      "step": 1760
+    },
+    {
+      "epoch": 158.02,
+      "learning_rate": 1.2500000000000007e-06,
+      "loss": 1.8274,
+      "step": 1800
+    },
+    {
+      "epoch": 158.02,
+      "eval_loss": 2.580260992050171,
+      "eval_runtime": 4.5687,
+      "eval_samples_per_second": 68.509,
+      "eval_steps_per_second": 17.291,
+      "step": 1800
+    },
+    {
+      "epoch": 161.54,
+      "learning_rate": 1.0305368692688175e-06,
+      "loss": 1.8218,
+      "step": 1840
+    },
+    {
+      "epoch": 161.54,
+      "eval_loss": 2.582859992980957,
+      "eval_runtime": 4.6266,
+      "eval_samples_per_second": 67.653,
+      "eval_steps_per_second": 17.075,
+      "step": 1840
+    },
+    {
+      "epoch": 165.05,
+      "learning_rate": 8.271734841028553e-07,
+      "loss": 1.8144,
+      "step": 1880
+    },
+    {
+      "epoch": 165.05,
+      "eval_loss": 2.5846669673919678,
+      "eval_runtime": 4.601,
+      "eval_samples_per_second": 68.029,
+      "eval_steps_per_second": 17.17,
+      "step": 1880
+    },
+    {
+      "epoch": 168.56,
+      "learning_rate": 6.421379363065142e-07,
+      "loss": 1.8097,
+      "step": 1920
+    },
+    {
+      "epoch": 168.56,
+      "eval_loss": 2.5867464542388916,
+      "eval_runtime": 4.593,
+      "eval_samples_per_second": 68.148,
+      "eval_steps_per_second": 17.2,
+      "step": 1920
+    },
+    {
+      "epoch": 172.07,
+      "learning_rate": 4.774575140626317e-07,
+      "loss": 1.8076,
+      "step": 1960
+    },
+    {
+      "epoch": 172.07,
+      "eval_loss": 2.5882575511932373,
+      "eval_runtime": 4.601,
+      "eval_samples_per_second": 68.028,
+      "eval_steps_per_second": 17.17,
+      "step": 1960
+    },
+    {
+      "epoch": 175.58,
+      "learning_rate": 3.3493649053890325e-07,
+      "loss": 1.8014,
+      "step": 2000
+    },
+    {
+      "epoch": 175.58,
+      "eval_loss": 2.589245080947876,
+      "eval_runtime": 4.5976,
+      "eval_samples_per_second": 68.079,
+      "eval_steps_per_second": 17.183,
+      "step": 2000
+    },
+    {
+      "epoch": 179.09,
+      "learning_rate": 2.1613635589349756e-07,
+      "loss": 1.8001,
+      "step": 2040
+    },
+    {
+      "epoch": 179.09,
+      "eval_loss": 2.589866876602173,
+      "eval_runtime": 4.5824,
+      "eval_samples_per_second": 68.305,
+      "eval_steps_per_second": 17.24,
+      "step": 2040
+    },
+    {
+      "epoch": 182.61,
+      "learning_rate": 1.223587092621162e-07,
+      "loss": 1.7987,
+      "step": 2080
+    },
+    {
+      "epoch": 182.61,
+      "eval_loss": 2.5903093814849854,
+      "eval_runtime": 4.6146,
+      "eval_samples_per_second": 67.829,
+      "eval_steps_per_second": 17.12,
+      "step": 2080
+    },
+    {
+      "epoch": 186.12,
+      "learning_rate": 5.463099816548578e-08,
+      "loss": 1.7971,
+      "step": 2120
+    },
+    {
+      "epoch": 186.12,
+      "eval_loss": 2.590583562850952,
+      "eval_runtime": 4.609,
+      "eval_samples_per_second": 67.911,
+      "eval_steps_per_second": 17.141,
+      "step": 2120
+    },
+    {
+      "epoch": 189.63,
+      "learning_rate": 1.3695261579316776e-08,
+      "loss": 1.7979,
+      "step": 2160
+    },
+    {
+      "epoch": 189.63,
+      "eval_loss": 2.5907208919525146,
+      "eval_runtime": 4.6125,
+      "eval_samples_per_second": 67.859,
+      "eval_steps_per_second": 17.127,
+      "step": 2160
+    },
+    {
+      "epoch": 193.14,
+      "learning_rate": 0.0,
+      "loss": 1.7975,
+      "step": 2200
+    },
+    {
+      "epoch": 193.14,
+      "eval_loss": 2.590698719024658,
+      "eval_runtime": 4.6213,
+      "eval_samples_per_second": 67.729,
+      "eval_steps_per_second": 17.095,
+      "step": 2200
+    },
+    {
+      "epoch": 193.14,
+      "step": 2200,
+      "total_flos": 1.0517861659312128e+18,
+      "train_loss": 2.2616969472711737,
+      "train_runtime": 20093.6832,
+      "train_samples_per_second": 29.024,
+      "train_steps_per_second": 0.109
+    }
+  ],
+  "logging_steps": 40,
+  "max_steps": 2200,
+  "num_train_epochs": 200,
+  "save_steps": 40,
+  "total_flos": 1.0517861659312128e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f815d8b0257d2db0dc8b65f8b60c00f75c67865ca45e0bab814f141b01b092e
+size 4536