End of training

Browse files

Files changed (11) hide show

README.md +23 -15
adapter_config.json +42 -0
adapter_model.safetensors +3 -0
runs/Jan04_14-43-41_Edge-Ai/events.out.tfevents.1704350621.Edge-Ai.21394.0 +3 -0
runs/Jan04_14-45-40_Edge-Ai/events.out.tfevents.1704350740.Edge-Ai.21458.0 +3 -0
runs/Jan04_14-59-59_Edge-Ai/events.out.tfevents.1704351599.Edge-Ai.22055.0 +3 -0
runs/Jan04_15-02-09_Edge-Ai/events.out.tfevents.1704351729.Edge-Ai.22199.0 +3 -0
runs/Jan04_15-17-26_Edge-Ai/events.out.tfevents.1704352646.Edge-Ai.22701.0 +3 -0
runs/Jan04_15-29-18_Edge-Ai/events.out.tfevents.1704353359.Edge-Ai.23773.0 +3 -0
trainer_state.json +1054 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,24 +1,27 @@
 ---
 license: apache-2.0
-base_model: openai/whisper-tiny
 tags:
 - generated_from_trainer
-metrics:
-- wer
 model-index:
-- name: whisper-tiny-tw
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# whisper-tiny-tw
-This model is a fine-tuned version of [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4244
-- Wer: 72.7331
 ## Model description
@@ -51,17 +54,22 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Wer     |
-|:-------------:|:-----:|:----:|:---------------:|:-------:|
-| 0.3086        | 1.42  | 1000 | 0.4288          | 80.0170 |
-| 0.2124        | 2.84  | 2000 | 0.4129          | 80.4205 |
-| 0.1149        | 4.26  | 3000 | 0.4217          | 76.7042 |
-| 0.0932        | 5.67  | 4000 | 0.4244          | 72.7331 |
 ### Framework versions
 - Transformers 4.36.2
 - Pytorch 2.1.2+cu121
 - Datasets 2.16.0
-- Tokenizers 0.15.0

 ---
+language:
+- zh
 license: apache-2.0
+library_name: peft
 tags:
+- hf-asr-leaderboard
 - generated_from_trainer
+datasets:
+- mozilla-foundation/common_voice_15_0
+base_model: openai/whisper-tiny
 model-index:
+- name: Whisper tiny TW - AlanDlink
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# Whisper tiny TW - AlanDlink
+This model is a fine-tuned version of [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny) on the Common Voice 15.0 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6078
 ## Model description
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 3.3802        | 0.67  | 500  | 3.3992          |
+| 2.1962        | 1.33  | 1000 | 2.1643          |
+| 1.4348        | 2.0   | 1500 | 1.4068          |
+| 0.7108        | 2.67  | 2000 | 0.6926          |
+| 0.6801        | 3.33  | 2500 | 0.6374          |
+| 0.6273        | 4.0   | 3000 | 0.6195          |
+| 0.6001        | 4.67  | 3500 | 0.6106          |
+| 0.6082        | 5.33  | 4000 | 0.6078          |
 ### Framework versions
+- PEFT 0.7.1
 - Transformers 4.36.2
 - Pytorch 2.1.2+cu121
 - Datasets 2.16.0
+- Tokenizers 0.15.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": {
+    "base_model_class": "WhisperForConditionalGeneration",
+    "parent_library": "transformers.models.whisper.modeling_whisper"
+  },
+  "base_model_name_or_path": "openai/whisper-tiny",
+  "beta1": 0.85,
+  "beta2": 0.85,
+  "bias": "none",
+  "deltaT": 10,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "init_r": 12,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "orth_reg_weight": 0.5,
+  "peft_type": "ADALORA",
+  "r": 8,
+  "rank_pattern": null,
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "q_proj",
+    "v_proj",
+    "out_proj",
+    "fc1",
+    "fc2"
+  ],
+  "target_r": 4,
+  "task_type": null,
+  "tfinal": 1000,
+  "tinit": 200,
+  "total_step": null
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5aa2de5188de449d3e07313935fc694b663aaf185889731811c43c1b433203ff
+size 3271824

runs/Jan04_14-43-41_Edge-Ai/events.out.tfevents.1704350621.Edge-Ai.21394.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0da2015bdeeb2d4d27e812cf84519c7672b4dfb3eb4fa13d794d54116fa02d3
+size 5173

runs/Jan04_14-45-40_Edge-Ai/events.out.tfevents.1704350740.Edge-Ai.21458.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24505eeb42cf804f8b3d2f7b6da646581f88a28b929d91ce0c6d0215a5b37b13
+size 10026

runs/Jan04_14-59-59_Edge-Ai/events.out.tfevents.1704351599.Edge-Ai.22055.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ea7bf7147916a07c5553af34ff680e6ccc7d3cdabdf7f3bc065ae4357ad1f02
+size 5494

runs/Jan04_15-02-09_Edge-Ai/events.out.tfevents.1704351729.Edge-Ai.22199.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf96c6335a034925dc81881b966fe311a920a95f501261a93533bfa8d1cc6385
+size 8580

runs/Jan04_15-17-26_Edge-Ai/events.out.tfevents.1704352646.Edge-Ai.22701.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c6c35ebf393d6265cf409a06f628f7377e19b43378daf2a0d8778b3607c9202
+size 8580

runs/Jan04_15-29-18_Edge-Ai/events.out.tfevents.1704353359.Edge-Ai.23773.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6831260c4a014e89620288926d725242f0b19adcceea10d4259801b92b5d845
+size 32811

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1054 @@

+{
+  "best_metric": 0.6078237891197205,
+  "best_model_checkpoint": "./whisper-tiny-tw/checkpoint-4000",
+  "epoch": 5.333333333333333,
+  "eval_steps": 500,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.4e-07,
+      "loss": 3.8753,
+      "step": 25
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.400000000000001e-07,
+      "loss": 3.7563,
+      "step": 50
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.44e-06,
+      "loss": 3.8738,
+      "step": 75
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.94e-06,
+      "loss": 3.8201,
+      "step": 100
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4400000000000004e-06,
+      "loss": 3.8439,
+      "step": 125
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.9400000000000002e-06,
+      "loss": 3.817,
+      "step": 150
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 3.44e-06,
+      "loss": 3.8385,
+      "step": 175
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3.94e-06,
+      "loss": 3.9375,
+      "step": 200
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.440000000000001e-06,
+      "loss": 3.8171,
+      "step": 225
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.94e-06,
+      "loss": 3.8155,
+      "step": 250
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 5.4400000000000004e-06,
+      "loss": 3.7763,
+      "step": 275
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 5.94e-06,
+      "loss": 3.7395,
+      "step": 300
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 6.440000000000001e-06,
+      "loss": 3.6626,
+      "step": 325
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 6.9400000000000005e-06,
+      "loss": 3.6135,
+      "step": 350
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 7.440000000000001e-06,
+      "loss": 3.6064,
+      "step": 375
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 7.94e-06,
+      "loss": 3.6924,
+      "step": 400
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.44e-06,
+      "loss": 3.5364,
+      "step": 425
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.94e-06,
+      "loss": 3.621,
+      "step": 450
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 9.42e-06,
+      "loss": 3.4745,
+      "step": 475
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 9.920000000000002e-06,
+      "loss": 3.3802,
+      "step": 500
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 3.399221658706665,
+      "eval_runtime": 217.7852,
+      "eval_samples_per_second": 22.729,
+      "eval_steps_per_second": 5.684,
+      "step": 500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 9.940000000000001e-06,
+      "loss": 3.3565,
+      "step": 525
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 9.86857142857143e-06,
+      "loss": 3.2815,
+      "step": 550
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 9.797142857142858e-06,
+      "loss": 3.252,
+      "step": 575
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.725714285714287e-06,
+      "loss": 3.1434,
+      "step": 600
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 9.654285714285716e-06,
+      "loss": 3.1253,
+      "step": 625
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 9.582857142857143e-06,
+      "loss": 3.1106,
+      "step": 650
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 9.511428571428572e-06,
+      "loss": 3.025,
+      "step": 675
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 9.440000000000001e-06,
+      "loss": 2.9601,
+      "step": 700
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 9.368571428571428e-06,
+      "loss": 2.8374,
+      "step": 725
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 9.297142857142857e-06,
+      "loss": 2.7712,
+      "step": 750
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 9.225714285714286e-06,
+      "loss": 2.6499,
+      "step": 775
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 9.154285714285715e-06,
+      "loss": 2.6006,
+      "step": 800
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 9.082857142857143e-06,
+      "loss": 2.5892,
+      "step": 825
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 9.011428571428572e-06,
+      "loss": 2.4973,
+      "step": 850
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 8.94e-06,
+      "loss": 2.4601,
+      "step": 875
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 8.86857142857143e-06,
+      "loss": 2.3739,
+      "step": 900
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 8.797142857142857e-06,
+      "loss": 2.3396,
+      "step": 925
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 8.725714285714286e-06,
+      "loss": 2.3263,
+      "step": 950
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 8.654285714285715e-06,
+      "loss": 2.2193,
+      "step": 975
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 8.582857142857144e-06,
+      "loss": 2.1962,
+      "step": 1000
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 2.1643242835998535,
+      "eval_runtime": 223.3057,
+      "eval_samples_per_second": 22.167,
+      "eval_steps_per_second": 5.544,
+      "step": 1000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 8.511428571428571e-06,
+      "loss": 2.1077,
+      "step": 1025
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 8.44e-06,
+      "loss": 2.1055,
+      "step": 1050
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 8.36857142857143e-06,
+      "loss": 2.0465,
+      "step": 1075
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 8.297142857142859e-06,
+      "loss": 1.9805,
+      "step": 1100
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 8.225714285714288e-06,
+      "loss": 2.0129,
+      "step": 1125
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 8.154285714285715e-06,
+      "loss": 1.9447,
+      "step": 1150
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 8.082857142857144e-06,
+      "loss": 1.9103,
+      "step": 1175
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 8.011428571428573e-06,
+      "loss": 1.8697,
+      "step": 1200
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.94e-06,
+      "loss": 1.8626,
+      "step": 1225
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 7.86857142857143e-06,
+      "loss": 1.8127,
+      "step": 1250
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 7.797142857142858e-06,
+      "loss": 1.8026,
+      "step": 1275
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 7.725714285714286e-06,
+      "loss": 1.7526,
+      "step": 1300
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 7.654285714285715e-06,
+      "loss": 1.6291,
+      "step": 1325
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.5828571428571444e-06,
+      "loss": 1.6233,
+      "step": 1350
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.511428571428572e-06,
+      "loss": 1.6377,
+      "step": 1375
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 7.440000000000001e-06,
+      "loss": 1.5758,
+      "step": 1400
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 7.36857142857143e-06,
+      "loss": 1.5483,
+      "step": 1425
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 7.297142857142858e-06,
+      "loss": 1.5166,
+      "step": 1450
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 7.225714285714286e-06,
+      "loss": 1.4319,
+      "step": 1475
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 7.154285714285715e-06,
+      "loss": 1.4348,
+      "step": 1500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.4068281650543213,
+      "eval_runtime": 219.1085,
+      "eval_samples_per_second": 22.592,
+      "eval_steps_per_second": 5.65,
+      "step": 1500
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 7.082857142857143e-06,
+      "loss": 1.3035,
+      "step": 1525
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 7.011428571428572e-06,
+      "loss": 1.3554,
+      "step": 1550
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 6.9400000000000005e-06,
+      "loss": 1.3143,
+      "step": 1575
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 6.868571428571429e-06,
+      "loss": 1.2939,
+      "step": 1600
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 6.797142857142858e-06,
+      "loss": 1.2099,
+      "step": 1625
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 6.725714285714287e-06,
+      "loss": 1.2248,
+      "step": 1650
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 6.654285714285716e-06,
+      "loss": 1.1217,
+      "step": 1675
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 6.582857142857143e-06,
+      "loss": 1.1274,
+      "step": 1700
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 6.511428571428572e-06,
+      "loss": 1.0399,
+      "step": 1725
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.440000000000001e-06,
+      "loss": 1.046,
+      "step": 1750
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.371428571428572e-06,
+      "loss": 0.9206,
+      "step": 1775
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.300000000000001e-06,
+      "loss": 0.9125,
+      "step": 1800
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 6.22857142857143e-06,
+      "loss": 0.9636,
+      "step": 1825
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 6.157142857142858e-06,
+      "loss": 0.8434,
+      "step": 1850
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 6.085714285714286e-06,
+      "loss": 0.7642,
+      "step": 1875
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 6.014285714285715e-06,
+      "loss": 0.7749,
+      "step": 1900
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 5.942857142857143e-06,
+      "loss": 0.7122,
+      "step": 1925
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 5.871428571428572e-06,
+      "loss": 0.7065,
+      "step": 1950
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 5.8e-06,
+      "loss": 0.7062,
+      "step": 1975
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 5.7285714285714285e-06,
+      "loss": 0.7108,
+      "step": 2000
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 0.6925591230392456,
+      "eval_runtime": 219.8232,
+      "eval_samples_per_second": 22.518,
+      "eval_steps_per_second": 5.632,
+      "step": 2000
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 5.6571428571428576e-06,
+      "loss": 0.7476,
+      "step": 2025
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 5.5857142857142866e-06,
+      "loss": 0.6809,
+      "step": 2050
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 5.514285714285714e-06,
+      "loss": 0.625,
+      "step": 2075
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 5.442857142857143e-06,
+      "loss": 0.6623,
+      "step": 2100
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 5.371428571428572e-06,
+      "loss": 0.7041,
+      "step": 2125
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 5.300000000000001e-06,
+      "loss": 0.6609,
+      "step": 2150
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 5.22857142857143e-06,
+      "loss": 0.7054,
+      "step": 2175
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 5.157142857142857e-06,
+      "loss": 0.694,
+      "step": 2200
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 5.085714285714286e-06,
+      "loss": 0.702,
+      "step": 2225
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 5.014285714285715e-06,
+      "loss": 0.6537,
+      "step": 2250
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 4.9428571428571435e-06,
+      "loss": 0.6367,
+      "step": 2275
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 4.871428571428572e-06,
+      "loss": 0.6481,
+      "step": 2300
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.6755,
+      "step": 2325
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 4.728571428571429e-06,
+      "loss": 0.6257,
+      "step": 2350
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 4.657142857142857e-06,
+      "loss": 0.6438,
+      "step": 2375
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 4.585714285714286e-06,
+      "loss": 0.7029,
+      "step": 2400
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 4.514285714285714e-06,
+      "loss": 0.6453,
+      "step": 2425
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 4.442857142857143e-06,
+      "loss": 0.6728,
+      "step": 2450
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 4.371428571428572e-06,
+      "loss": 0.6667,
+      "step": 2475
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 4.3e-06,
+      "loss": 0.6801,
+      "step": 2500
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 0.6374496221542358,
+      "eval_runtime": 222.1867,
+      "eval_samples_per_second": 22.279,
+      "eval_steps_per_second": 5.572,
+      "step": 2500
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 4.228571428571429e-06,
+      "loss": 0.6021,
+      "step": 2525
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 4.1571428571428575e-06,
+      "loss": 0.6657,
+      "step": 2550
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 4.0857142857142865e-06,
+      "loss": 0.6338,
+      "step": 2575
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 4.014285714285715e-06,
+      "loss": 0.6559,
+      "step": 2600
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 3.942857142857143e-06,
+      "loss": 0.6559,
+      "step": 2625
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 3.871428571428572e-06,
+      "loss": 0.6894,
+      "step": 2650
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 0.6422,
+      "step": 2675
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 3.7285714285714286e-06,
+      "loss": 0.6211,
+      "step": 2700
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 3.6571428571428576e-06,
+      "loss": 0.6228,
+      "step": 2725
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 3.5857142857142862e-06,
+      "loss": 0.5956,
+      "step": 2750
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 3.5142857142857144e-06,
+      "loss": 0.6002,
+      "step": 2775
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 3.4428571428571434e-06,
+      "loss": 0.6384,
+      "step": 2800
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 3.3714285714285716e-06,
+      "loss": 0.6283,
+      "step": 2825
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 3.3000000000000006e-06,
+      "loss": 0.6691,
+      "step": 2850
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 3.2285714285714288e-06,
+      "loss": 0.5512,
+      "step": 2875
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 3.1571428571428573e-06,
+      "loss": 0.5573,
+      "step": 2900
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 3.085714285714286e-06,
+      "loss": 0.5772,
+      "step": 2925
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 3.0142857142857145e-06,
+      "loss": 0.6307,
+      "step": 2950
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 2.9428571428571427e-06,
+      "loss": 0.5967,
+      "step": 2975
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 2.8714285714285717e-06,
+      "loss": 0.6273,
+      "step": 3000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.6194672584533691,
+      "eval_runtime": 222.9187,
+      "eval_samples_per_second": 22.205,
+      "eval_steps_per_second": 5.554,
+      "step": 3000
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.5915,
+      "step": 3025
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 2.728571428571429e-06,
+      "loss": 0.6411,
+      "step": 3050
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 2.6571428571428575e-06,
+      "loss": 0.6522,
+      "step": 3075
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 2.5857142857142856e-06,
+      "loss": 0.5862,
+      "step": 3100
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 2.5142857142857147e-06,
+      "loss": 0.5907,
+      "step": 3125
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 2.442857142857143e-06,
+      "loss": 0.6228,
+      "step": 3150
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 2.371428571428572e-06,
+      "loss": 0.639,
+      "step": 3175
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 2.3000000000000004e-06,
+      "loss": 0.6105,
+      "step": 3200
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 2.228571428571429e-06,
+      "loss": 0.6154,
+      "step": 3225
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 2.157142857142857e-06,
+      "loss": 0.6179,
+      "step": 3250
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 2.0857142857142858e-06,
+      "loss": 0.5826,
+      "step": 3275
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 2.0142857142857144e-06,
+      "loss": 0.6063,
+      "step": 3300
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 1.942857142857143e-06,
+      "loss": 0.6412,
+      "step": 3325
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 1.8714285714285715e-06,
+      "loss": 0.5746,
+      "step": 3350
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 0.6644,
+      "step": 3375
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 1.7285714285714287e-06,
+      "loss": 0.5814,
+      "step": 3400
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 1.657142857142857e-06,
+      "loss": 0.6841,
+      "step": 3425
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 1.5857142857142857e-06,
+      "loss": 0.6066,
+      "step": 3450
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 1.5142857142857145e-06,
+      "loss": 0.5992,
+      "step": 3475
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 1.442857142857143e-06,
+      "loss": 0.6001,
+      "step": 3500
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 0.6105530858039856,
+      "eval_runtime": 216.5509,
+      "eval_samples_per_second": 22.858,
+      "eval_steps_per_second": 5.717,
+      "step": 3500
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 1.3714285714285717e-06,
+      "loss": 0.6524,
+      "step": 3525
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 1.3e-06,
+      "loss": 0.5826,
+      "step": 3550
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 1.2285714285714286e-06,
+      "loss": 0.5674,
+      "step": 3575
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 1.1571428571428572e-06,
+      "loss": 0.5817,
+      "step": 3600
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 1.0857142857142858e-06,
+      "loss": 0.6095,
+      "step": 3625
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 1.0142857142857144e-06,
+      "loss": 0.6374,
+      "step": 3650
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 9.42857142857143e-07,
+      "loss": 0.6038,
+      "step": 3675
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 8.714285714285716e-07,
+      "loss": 0.6349,
+      "step": 3700
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.6017,
+      "step": 3725
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 7.285714285714287e-07,
+      "loss": 0.6295,
+      "step": 3750
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 6.571428571428571e-07,
+      "loss": 0.631,
+      "step": 3775
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 5.857142857142857e-07,
+      "loss": 0.5753,
+      "step": 3800
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 5.142857142857143e-07,
+      "loss": 0.5888,
+      "step": 3825
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 4.4285714285714286e-07,
+      "loss": 0.6269,
+      "step": 3850
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 3.7142857142857145e-07,
+      "loss": 0.5584,
+      "step": 3875
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 3.0000000000000004e-07,
+      "loss": 0.642,
+      "step": 3900
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 2.285714285714286e-07,
+      "loss": 0.561,
+      "step": 3925
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 1.5714285714285717e-07,
+      "loss": 0.6469,
+      "step": 3950
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 8.571428571428573e-08,
+      "loss": 0.6164,
+      "step": 3975
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 1.4285714285714288e-08,
+      "loss": 0.6082,
+      "step": 4000
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 0.6078237891197205,
+      "eval_runtime": 220.2328,
+      "eval_samples_per_second": 22.476,
+      "eval_steps_per_second": 5.621,
+      "step": 4000
+    },
+    {
+      "epoch": 5.33,
+      "step": 4000,
+      "total_flos": 1.6501699427328e+18,
+      "train_loss": 1.4726774854660034,
+      "train_runtime": 5301.1107,
+      "train_samples_per_second": 12.073,
+      "train_steps_per_second": 0.755
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 4000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "total_flos": 1.6501699427328e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68200f0eedc80778d9d3d214941bd827c34b44df3ff9f9306ed17f6784a87550
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:775d3f66b05e1f0b0a241c7939bfe039c39404da0b0ccec1f12b1d2afec24a2c
 size 4856