huggingartists

Browse files

Files changed (13) hide show

README.md +7 -7
config.json +4 -2
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +2 -2
pytorch_model.bin +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +5 -1
tokenizer.json +0 -0
tokenizer_config.json +10 -1
trainer_state.json +749 -7
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -14,11 +14,11 @@ widget:
 <div class="inline-flex flex-col" style="line-height: 1.5;">
     <div class="flex">
         <div
-			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; background-size: cover; background-image: url(&#39;https://images.genius.com/10795217955d95e2543993f8e83fe5c8.960x960x1.jpg&#39;)">
         </div>
     </div>
     <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">🤖 HuggingArtists Model 🤖</div>
-    <div style="text-align: center; font-size: 16px; font-weight: 800">MiyaGi</div>
     <a href="https://genius.com/artists/miyagi">
     	<div style="text-align: center; font-size: 14px;">@miyagi</div>
     </a>
@@ -34,7 +34,7 @@ To understand how the model was developed, check the [W&B report](https://wandb.
 ## Training data
-The model was trained on lyrics from MiyaGi.
 Dataset is available [here](https://huggingface.co/datasets/huggingartists/miyagi).
 And can be used with:
@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/miyagi")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1ai9l9x0/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
-The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on MiyaGi's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1jowduev) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1jowduev/artifacts) is logged and versioned.
 ## How to use

 <div class="inline-flex flex-col" style="line-height: 1.5;">
     <div class="flex">
         <div
+			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; background-size: cover; background-image: url(&#39;https://images.genius.com/b6e783ce8d8c51516715e291dbc87535.1000x1000x1.jpg&#39;)">
         </div>
     </div>
     <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">🤖 HuggingArtists Model 🤖</div>
+    <div style="text-align: center; font-size: 16px; font-weight: 800">Miyagi</div>
     <a href="https://genius.com/artists/miyagi">
     	<div style="text-align: center; font-size: 14px;">@miyagi</div>
     </a>
 ## Training data
+The model was trained on lyrics from Miyagi.
 Dataset is available [here](https://huggingface.co/datasets/huggingartists/miyagi).
 And can be used with:
 dataset = load_dataset("huggingartists/miyagi")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1c4sny4a/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
+The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Miyagi's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1v51pw0u) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1v51pw0u/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "huggingartists/miyagi",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
@@ -18,7 +18,9 @@
   "n_inner": null,
   "n_layer": 12,
   "n_positions": 1024,
   "resid_pdrop": 0.1,
   "scale_attn_weights": true,
   "summary_activation": null,
   "summary_first_dropout": 0.1,
@@ -35,7 +37,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.10.2",
   "use_cache": true,
   "vocab_size": 50257
 }

 {
+  "_name_or_path": "miyagi",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
   "n_inner": null,
   "n_layer": 12,
   "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
   "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
   "scale_attn_weights": true,
   "summary_activation": null,
   "summary_first_dropout": 0.1,
     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.20.1",
   "use_cache": true,
   "vocab_size": 50257
 }

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~8749154806137085~~, "eval_runtime": 7.~~3205~~, "eval_samples_per_second": 21.~~993~~, "eval_steps_per_second": 2.~~869~~, "epoch": 2.0}


1	+ {"eval_loss": 1.5914676189422607, "eval_runtime": 4.1139, "eval_samples_per_second": 45.699, "eval_steps_per_second": 5.834, "epoch": 7.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc6c27a566d394fbdfff2c02e91b8c4f7dcbbda449ff9001dad2a4e5e9c49d15
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:a88522fd7fb4c4615bae3c3d07e5ded91b0bf21a5dfd66ca3f85be5209139b8d
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b786b373617192574138bda4ac4b3640a92f885392072876141d13ed205ff93f
-size 995603825

 version https://git-lfs.github.com/spec/v1
+oid sha256:265731eee23bd3d189fe5369a563077fb3d0384be204f28434a5d57192049a13
+size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7efb14a7343abd44b17d9c21ac3a67b41d36a9948a87d8429abc40754990793b
-size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6add507eb308c14d70e52641a1608fcffee1c65638446eb45d1430a306b21d1
+size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c04cc128afd4b444801d7a22ed3a8e15a0e9e121067a7a197e91e35268473f22
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:3980c79e66b16ab3e203128b955ee2dda43c76a8327ed0967d73839d2be5a4cc
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34ccf3854b39bd52f430cb63b3a54f30c543980a0b5913372cb9a1e99f761d9b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:11c7b09b01cedaa5d1e45d7238ddd1cb693755cdfd02e047b278bc47fef3bc66
 size 623

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,5 @@
1	- {~~"bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "unk_token": "<\|endoftext\|>"}~~

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

	@@ -1 +1,10 @@
1	- {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "huggingartists/miyagi", "tokenizer_class": "GPT2Tokenizer"}

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "name_or_path": "huggingartists/miyagi",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 1.8749154806137085,
-  "best_model_checkpoint": "output/miyagi/checkpoint-242",
-  "epoch": 2.0,
-  "global_step": 242,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -318,11 +318,753 @@
       "eval_samples_per_second": 22.555,
       "eval_steps_per_second": 2.942,
       "step": 242
     }
   ],
-  "max_steps": 242,
-  "num_train_epochs": 2,
-  "total_flos": 252146810880000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.5914676189422607,
+  "best_model_checkpoint": "output/miyagi/checkpoint-826",
+  "epoch": 7.0,
+  "global_step": 826,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.555,
       "eval_steps_per_second": 2.942,
       "step": 242
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.00013524009067795913,
+      "loss": 1.7074,
+      "step": 245
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.00013248966177323044,
+      "loss": 1.7453,
+      "step": 250
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.00012860874759889254,
+      "loss": 1.8948,
+      "step": 255
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.00012366601836206413,
+      "loss": 1.9676,
+      "step": 260
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.00011774893238446447,
+      "loss": 1.7939,
+      "step": 265
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.00011096218858530879,
+      "loss": 1.8352,
+      "step": 270
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.00010342587390324441,
+      "loss": 2.0245,
+      "step": 275
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 9.527333843746984e-05,
+      "loss": 1.9197,
+      "step": 280
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 8.664883590600801e-05,
+      "loss": 1.9335,
+      "step": 285
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 7.77049711716633e-05,
+      "loss": 1.875,
+      "step": 290
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 6.860000000000001e-05,
+      "loss": 1.8544,
+      "step": 295
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 5.949502882833675e-05,
+      "loss": 1.9954,
+      "step": 300
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 5.055116409399204e-05,
+      "loss": 1.8779,
+      "step": 305
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 4.192666156253025e-05,
+      "loss": 1.8122,
+      "step": 310
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3.377412609675556e-05,
+      "loss": 1.8168,
+      "step": 315
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.6237811414691256e-05,
+      "loss": 1.7168,
+      "step": 320
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 1.9451067615535547e-05,
+      "loss": 1.7654,
+      "step": 325
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 1.3533981637935892e-05,
+      "loss": 1.8255,
+      "step": 330
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 8.591252401107479e-06,
+      "loss": 1.8593,
+      "step": 335
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 4.710338226769622e-06,
+      "loss": 1.7707,
+      "step": 340
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 1.959909322040904e-06,
+      "loss": 1.7329,
+      "step": 345
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 3.886327055845878e-07,
+      "loss": 1.8968,
+      "step": 350
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.6329461336135864,
+      "eval_runtime": 4.0979,
+      "eval_samples_per_second": 45.877,
+      "eval_steps_per_second": 5.857,
+      "step": 354
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 2.4311076931149823e-08,
+      "loss": 1.7177,
+      "step": 355
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 8.733908661157559e-07,
+      "loss": 1.8309,
+      "step": 360
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 2.920848168366426e-06,
+      "loss": 1.6587,
+      "step": 365
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 6.130454582152937e-06,
+      "loss": 1.8153,
+      "step": 370
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 1.044541824676853e-05,
+      "loss": 1.6569,
+      "step": 375
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 1.5789388736708423e-05,
+      "loss": 1.7716,
+      "step": 380
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 2.206780803190438e-05,
+      "loss": 1.7591,
+      "step": 385
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 2.9169583659291692e-05,
+      "loss": 1.8322,
+      "step": 390
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 3.696905440057621e-05,
+      "loss": 1.5984,
+      "step": 395
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 4.5328213784303035e-05,
+      "loss": 1.7572,
+      "step": 400
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 5.4099152019007745e-05,
+      "loss": 1.8058,
+      "step": 405
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 6.312667315905842e-05,
+      "loss": 1.9387,
+      "step": 410
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 7.225104119417345e-05,
+      "loss": 1.9436,
+      "step": 415
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 8.1310806472376e-05,
+      "loss": 1.7717,
+      "step": 420
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 9.01456624447057e-05,
+      "loss": 1.6776,
+      "step": 425
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 9.859928218347747e-05,
+      "loss": 1.7468,
+      "step": 430
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 0.0001065220844837778,
+      "loss": 1.7603,
+      "step": 435
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.00011377388060386165,
+      "loss": 1.7576,
+      "step": 440
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 0.00012022635481213106,
+      "loss": 1.8352,
+      "step": 445
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 0.00012576533484906052,
+      "loss": 1.748,
+      "step": 450
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 0.00013029281212974562,
+      "loss": 1.6407,
+      "step": 455
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 0.00013372867594093092,
+      "loss": 1.7799,
+      "step": 460
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 0.00013601213094704693,
+      "loss": 1.8188,
+      "step": 465
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 0.00013710277292342587,
+      "loss": 1.7514,
+      "step": 470
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6437361240386963,
+      "eval_runtime": 4.1027,
+      "eval_samples_per_second": 45.824,
+      "eval_steps_per_second": 5.85,
+      "step": 472
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.00013698130368230946,
+      "loss": 1.8553,
+      "step": 475
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 0.00013564987254150566,
+      "loss": 1.677,
+      "step": 480
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 0.00013313203829363288,
+      "loss": 1.6993,
+      "step": 485
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 0.00012947235234888086,
+      "loss": 1.7383,
+      "step": 490
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 0.00012473557042730042,
+      "loss": 1.7513,
+      "step": 495
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 0.00011900550674920642,
+      "loss": 1.6364,
+      "step": 500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 0.00011238355099803469,
+      "loss": 1.6798,
+      "step": 505
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 0.00010498687429701432,
+      "loss": 1.7396,
+      "step": 510
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 9.694635594371065e-05,
+      "loss": 1.5501,
+      "step": 515
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 8.840426758749807e-05,
+      "loss": 1.6678,
+      "step": 520
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 7.951175582690834e-05,
+      "loss": 1.703,
+      "step": 525
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 7.042616777063153e-05,
+      "loss": 1.7374,
+      "step": 530
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 6.130826688459083e-05,
+      "loss": 1.7254,
+      "step": 535
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 5.231938838884156e-05,
+      "loss": 1.6928,
+      "step": 540
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 4.361858453765647e-05,
+      "loss": 1.742,
+      "step": 545
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 3.535981029518021e-05,
+      "loss": 1.6946,
+      "step": 550
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 2.768919920425875e-05,
+      "loss": 1.6874,
+      "step": 555
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 2.0742477650140126e-05,
+      "loss": 1.7176,
+      "step": 560
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 1.464256327193875e-05,
+      "loss": 1.6007,
+      "step": 565
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 9.497390016384942e-06,
+      "loss": 1.7331,
+      "step": 570
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 5.397998318089678e-06,
+      "loss": 1.4962,
+      "step": 575
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 2.416924199324192e-06,
+      "loss": 1.6863,
+      "step": 580
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 6.069157931251217e-07,
+      "loss": 1.7319,
+      "step": 585
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0,
+      "loss": 1.6369,
+      "step": 590
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.601211667060852,
+      "eval_runtime": 4.0987,
+      "eval_samples_per_second": 45.868,
+      "eval_steps_per_second": 5.856,
+      "step": 590
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 6.06915793125114e-07,
+      "loss": 1.6055,
+      "step": 595
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 2.416924199324169e-06,
+      "loss": 1.5901,
+      "step": 600
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 5.39799831808964e-06,
+      "loss": 1.6282,
+      "step": 605
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 9.497390016384903e-06,
+      "loss": 1.6198,
+      "step": 610
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 1.464256327193862e-05,
+      "loss": 1.6603,
+      "step": 615
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 2.074247765013998e-05,
+      "loss": 1.6531,
+      "step": 620
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 2.768919920425878e-05,
+      "loss": 1.5269,
+      "step": 625
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 3.535981029518024e-05,
+      "loss": 1.6306,
+      "step": 630
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 4.3618584537656514e-05,
+      "loss": 1.4954,
+      "step": 635
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 5.231938838884147e-05,
+      "loss": 1.6128,
+      "step": 640
+    },
+    {
+      "epoch": 5.47,
+      "learning_rate": 6.130826688459075e-05,
+      "loss": 1.7703,
+      "step": 645
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 7.042616777063145e-05,
+      "loss": 1.6367,
+      "step": 650
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 7.951175582690827e-05,
+      "loss": 1.6559,
+      "step": 655
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 8.8404267587498e-05,
+      "loss": 1.646,
+      "step": 660
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 9.694635594371057e-05,
+      "loss": 1.6984,
+      "step": 665
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 0.00010498687429701424,
+      "loss": 1.6156,
+      "step": 670
+    },
+    {
+      "epoch": 5.72,
+      "learning_rate": 0.00011238355099803463,
+      "loss": 1.6668,
+      "step": 675
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 0.00011900550674920627,
+      "loss": 1.7146,
+      "step": 680
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 0.00012473557042730032,
+      "loss": 1.5721,
+      "step": 685
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 0.00012947235234888078,
+      "loss": 1.6113,
+      "step": 690
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 0.00013313203829363288,
+      "loss": 1.6012,
+      "step": 695
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 0.00013564987254150568,
+      "loss": 1.54,
+      "step": 700
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 0.00013698130368230946,
+      "loss": 1.5771,
+      "step": 705
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.6223803758621216,
+      "eval_runtime": 4.1028,
+      "eval_samples_per_second": 45.822,
+      "eval_steps_per_second": 5.85,
+      "step": 708
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 0.00013710277292342587,
+      "loss": 1.6545,
+      "step": 710
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 0.00013601213094704693,
+      "loss": 1.6159,
+      "step": 715
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 0.000133728675940931,
+      "loss": 1.5379,
+      "step": 720
+    },
+    {
+      "epoch": 6.14,
+      "learning_rate": 0.00013029281212974567,
+      "loss": 1.5675,
+      "step": 725
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 0.00012576533484906052,
+      "loss": 1.5401,
+      "step": 730
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 0.0001202263548121312,
+      "loss": 1.7157,
+      "step": 735
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 0.00011377388060386172,
+      "loss": 1.6472,
+      "step": 740
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 0.00010652208448377808,
+      "loss": 1.6329,
+      "step": 745
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 9.859928218347764e-05,
+      "loss": 1.6732,
+      "step": 750
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 9.014566244470579e-05,
+      "loss": 1.5562,
+      "step": 755
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 8.131080647237608e-05,
+      "loss": 1.669,
+      "step": 760
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 7.225104119417342e-05,
+      "loss": 1.5005,
+      "step": 765
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 6.31266731590584e-05,
+      "loss": 1.5282,
+      "step": 770
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 5.4099152019007833e-05,
+      "loss": 1.5426,
+      "step": 775
+    },
+    {
+      "epoch": 6.61,
+      "learning_rate": 4.532821378430311e-05,
+      "loss": 1.5988,
+      "step": 780
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 3.696905440057639e-05,
+      "loss": 1.4735,
+      "step": 785
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 2.916958365929176e-05,
+      "loss": 1.561,
+      "step": 790
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 2.206780803190435e-05,
+      "loss": 1.5727,
+      "step": 795
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 1.578938873670855e-05,
+      "loss": 1.5714,
+      "step": 800
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 1.0445418246768637e-05,
+      "loss": 1.3599,
+      "step": 805
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 6.130454582152975e-06,
+      "loss": 1.4926,
+      "step": 810
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 2.9208481683664865e-06,
+      "loss": 1.4652,
+      "step": 815
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 8.733908661157864e-07,
+      "loss": 1.6516,
+      "step": 820
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 2.4311076931157437e-08,
+      "loss": 1.6115,
+      "step": 825
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.5914676189422607,
+      "eval_runtime": 4.1088,
+      "eval_samples_per_second": 45.755,
+      "eval_steps_per_second": 5.841,
+      "step": 826
     }
   ],
+  "max_steps": 826,
+  "num_train_epochs": 7,
+  "total_flos": 859258847232000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fea27806c0a8b58c971861b19a8e6a16537326283f0b22c46854ba1150e10ed
-size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd1782f3f75c74631b3cd9920d85b1f04eebc2f2a023905946a75841206980fa
+size 3311