huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +1013 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/morgenshtern")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/3of8bax2/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on MORGENSHTERN's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/29va0sby) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/29va0sby/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/morgenshtern")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/cy7nthpy/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on MORGENSHTERN's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/2hgvstnt) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/2hgvstnt/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~546966552734375~~, "eval_runtime": 6.~~4283~~, "eval_samples_per_second": 22.~~556~~, "eval_steps_per_second": 2.~~956~~, "epoch": 3.0}


1	+ {"eval_loss": 1.3747466802597046, "eval_runtime": 7.026, "eval_samples_per_second": 21.207, "eval_steps_per_second": 2.704, "epoch": 13.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a828940fd9988b72532dc4a17c18b562f948e61d3a0c8b6be9e117dee381362e
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7a0ed22dbf6a9bd7a962b4206529c5b815a5266affe74c8fbab8d7c67c678b8
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa430dc03f846a18abdb51d16edff75c0f3552a1f8035dae856393612fde1f9a
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae486a04cf9c310967320cdf13a21303624d9c5b8c37c7e267c7dde9079eb63b
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2264a9b234d1b11adb7339ea59e58dad473cf0dc99c0f1d311469e6ce8e50fe
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:92d329a8e2a96548eb477ceb62baefe02d077414bc0c397d42965b651a2fa187
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dbad4e46f0b23a7fbe31e6a10224311e7ec288f4ef415ae360dec29f4e7661a
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:f877e4bcb76e9ecc9bb481c6d8b7ee9505646a43bb655295a3a04f05d40ce503
+size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:340c51ed8fb1370066103a87c329a9f9d39d9f589b8a9a525ff69c489da5b8e5
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b0aee656c44c094a4ce15e92ad37f3cff7d7b2a11b7b8ea601ce5c5f3e729f2
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 1.546966552734375,
-  "best_model_checkpoint": "output/morgenshtern/checkpoint-294",
-  "epoch": 3.0,
-  "global_step": 294,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -402,11 +402,1017 @@
       "eval_samples_per_second": 22.99,
       "eval_steps_per_second": 3.013,
       "step": 294
     }
   ],
-  "max_steps": 294,
-  "num_train_epochs": 3,
-  "total_flos": 306103615488000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.3747466802597046,
+  "best_model_checkpoint": "output/morgenshtern/checkpoint-1078",
+  "epoch": 11.0,
+  "global_step": 1078,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.99,
       "eval_steps_per_second": 3.013,
       "step": 294
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 3.52455686328105e-08,
+      "loss": 1.4805,
+      "step": 295
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 1.2650418304129032e-06,
+      "loss": 1.6327,
+      "step": 300
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 4.221066247386418e-06,
+      "loss": 1.7416,
+      "step": 305
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 8.827536897135471e-06,
+      "loss": 1.6078,
+      "step": 310
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.496636030269314e-05,
+      "loss": 1.5727,
+      "step": 315
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 2.2480158928073662e-05,
+      "loss": 1.6548,
+      "step": 320
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 3.117630577695637e-05,
+      "loss": 1.596,
+      "step": 325
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 4.08318626618038e-05,
+      "loss": 1.4367,
+      "step": 330
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 5.119929554380771e-05,
+      "loss": 1.621,
+      "step": 335
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 6.201282042273297e-05,
+      "loss": 1.7111,
+      "step": 340
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 7.299521709067686e-05,
+      "loss": 1.6959,
+      "step": 345
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 8.386493606940314e-05,
+      "loss": 1.7452,
+      "step": 350
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 9.434331653472505e-05,
+      "loss": 1.6352,
+      "step": 355
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 0.00010416173018610202,
+      "loss": 1.5285,
+      "step": 360
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 0.00011306846791811431,
+      "loss": 1.7379,
+      "step": 365
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 0.00012083519274412256,
+      "loss": 1.7212,
+      "step": 370
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 0.0001272627935421667,
+      "loss": 1.6984,
+      "step": 375
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 0.00013218648955393709,
+      "loss": 1.5563,
+      "step": 380
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 0.0001354800547756731,
+      "loss": 1.6133,
+      "step": 385
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 0.00013705905394267309,
+      "loss": 1.6524,
+      "step": 390
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.4850682020187378,
+      "eval_runtime": 6.9944,
+      "eval_samples_per_second": 21.303,
+      "eval_steps_per_second": 2.716,
+      "step": 392
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.000136883007148315,
+      "loss": 1.6487,
+      "step": 395
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.00013495642760447742,
+      "loss": 1.5179,
+      "step": 400
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 0.00013132870593888477,
+      "loss": 1.3698,
+      "step": 405
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 0.00012609284399558033,
+      "loss": 1.6439,
+      "step": 410
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 0.00011938307059936668,
+      "loss": 1.5471,
+      "step": 415
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 0.00011137140040750914,
+      "loss": 1.6368,
+      "step": 420
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 0.00010226322406747016,
+      "loss": 1.5678,
+      "step": 425
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 9.229204273330182e-05,
+      "loss": 1.6766,
+      "step": 430
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 8.171348192891424e-05,
+      "loss": 1.6611,
+      "step": 435
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 7.079873822141565e-05,
+      "loss": 1.6183,
+      "step": 440
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 5.982762670844296e-05,
+      "loss": 1.5438,
+      "step": 445
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 4.908140755711112e-05,
+      "loss": 1.6215,
+      "step": 450
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 3.883557549653544e-05,
+      "loss": 1.5207,
+      "step": 455
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 2.9352797115619177e-05,
+      "loss": 1.4362,
+      "step": 460
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 2.0876177028600835e-05,
+      "loss": 1.5917,
+      "step": 465
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 1.3623025539858168e-05,
+      "loss": 1.4801,
+      "step": 470
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 7.779287582812185e-06,
+      "loss": 1.4835,
+      "step": 475
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 3.494775755068154e-06,
+      "loss": 1.5351,
+      "step": 480
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 8.793296577687332e-07,
+      "loss": 1.4665,
+      "step": 485
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0,
+      "loss": 1.5628,
+      "step": 490
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.417140007019043,
+      "eval_runtime": 6.9215,
+      "eval_samples_per_second": 21.527,
+      "eval_steps_per_second": 2.745,
+      "step": 490
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 8.79329657768718e-07,
+      "loss": 1.3775,
+      "step": 495
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 3.4947757550681237e-06,
+      "loss": 1.5294,
+      "step": 500
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 7.7792875828122e-06,
+      "loss": 1.436,
+      "step": 505
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 1.3623025539858192e-05,
+      "loss": 1.5282,
+      "step": 510
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 2.087617702860069e-05,
+      "loss": 1.5277,
+      "step": 515
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 2.9352797115619008e-05,
+      "loss": 1.6218,
+      "step": 520
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 3.8835575496535365e-05,
+      "loss": 1.4628,
+      "step": 525
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 4.9081407557111025e-05,
+      "loss": 1.4702,
+      "step": 530
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 5.9827626708442996e-05,
+      "loss": 1.3757,
+      "step": 535
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 7.079873822141567e-05,
+      "loss": 1.3535,
+      "step": 540
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 8.171348192891405e-05,
+      "loss": 1.4668,
+      "step": 545
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 9.229204273330163e-05,
+      "loss": 1.4463,
+      "step": 550
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 0.00010226322406747008,
+      "loss": 1.3922,
+      "step": 555
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 0.00011137140040750908,
+      "loss": 1.4607,
+      "step": 560
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 0.00011938307059936662,
+      "loss": 1.533,
+      "step": 565
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 0.00012609284399558025,
+      "loss": 1.5392,
+      "step": 570
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 0.00013132870593888474,
+      "loss": 1.6347,
+      "step": 575
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 0.00013495642760447742,
+      "loss": 1.6022,
+      "step": 580
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 0.000136883007148315,
+      "loss": 1.4927,
+      "step": 585
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.4285378456115723,
+      "eval_runtime": 6.9515,
+      "eval_samples_per_second": 21.434,
+      "eval_steps_per_second": 2.733,
+      "step": 588
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 0.00013705905394267309,
+      "loss": 1.415,
+      "step": 590
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 0.00013548005477567314,
+      "loss": 1.4139,
+      "step": 595
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 0.00013218648955393714,
+      "loss": 1.522,
+      "step": 600
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 0.00012726279354216682,
+      "loss": 1.4313,
+      "step": 605
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 0.0001208351927441227,
+      "loss": 1.3831,
+      "step": 610
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 0.00011306846791811419,
+      "loss": 1.4225,
+      "step": 615
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 0.0001041617301861021,
+      "loss": 1.5253,
+      "step": 620
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 9.434331653472514e-05,
+      "loss": 1.3459,
+      "step": 625
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 8.386493606940322e-05,
+      "loss": 1.3962,
+      "step": 630
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 7.299521709067695e-05,
+      "loss": 1.3858,
+      "step": 635
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 6.201282042273305e-05,
+      "loss": 1.4634,
+      "step": 640
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 5.11992955438078e-05,
+      "loss": 1.4289,
+      "step": 645
+    },
+    {
+      "epoch": 6.63,
+      "learning_rate": 4.0831862661803776e-05,
+      "loss": 1.4365,
+      "step": 650
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 3.1176305776956335e-05,
+      "loss": 1.4483,
+      "step": 655
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 2.248015892807363e-05,
+      "loss": 1.387,
+      "step": 660
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 1.496636030269327e-05,
+      "loss": 1.4562,
+      "step": 665
+    },
+    {
+      "epoch": 6.84,
+      "learning_rate": 8.827536897135571e-06,
+      "loss": 1.4136,
+      "step": 670
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 4.221066247386487e-06,
+      "loss": 1.3972,
+      "step": 675
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 1.2650418304129413e-06,
+      "loss": 1.4283,
+      "step": 680
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 3.5245568632818114e-08,
+      "loss": 1.4148,
+      "step": 685
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.388408899307251,
+      "eval_runtime": 6.9772,
+      "eval_samples_per_second": 21.355,
+      "eval_steps_per_second": 2.723,
+      "step": 686
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 5.632050517253056e-07,
+      "loss": 1.4365,
+      "step": 690
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 2.8353852816850615e-06,
+      "loss": 1.2923,
+      "step": 695
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 6.793535661894024e-06,
+      "loss": 1.3917,
+      "step": 700
+    },
+    {
+      "epoch": 7.19,
+      "learning_rate": 1.2336183334648805e-05,
+      "loss": 1.4588,
+      "step": 705
+    },
+    {
+      "epoch": 7.24,
+      "learning_rate": 1.932123458329587e-05,
+      "loss": 1.3238,
+      "step": 710
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 2.7569617608302577e-05,
+      "loss": 1.3604,
+      "step": 715
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 3.686987328947871e-05,
+      "loss": 1.3916,
+      "step": 720
+    },
+    {
+      "epoch": 7.4,
+      "learning_rate": 4.698357624357965e-05,
+      "loss": 1.3839,
+      "step": 725
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 5.7651447200710234e-05,
+      "loss": 1.3886,
+      "step": 730
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 6.859999999999982e-05,
+      "loss": 1.3475,
+      "step": 735
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 7.954855279928965e-05,
+      "loss": 1.3304,
+      "step": 740
+    },
+    {
+      "epoch": 7.6,
+      "learning_rate": 9.021642375642024e-05,
+      "loss": 1.3287,
+      "step": 745
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 0.00010033012671052118,
+      "loss": 1.4354,
+      "step": 750
+    },
+    {
+      "epoch": 7.7,
+      "learning_rate": 0.00010963038239169733,
+      "loss": 1.3597,
+      "step": 755
+    },
+    {
+      "epoch": 7.76,
+      "learning_rate": 0.00011787876541670406,
+      "loss": 1.3221,
+      "step": 760
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 0.00012486381666535114,
+      "loss": 1.3458,
+      "step": 765
+    },
+    {
+      "epoch": 7.86,
+      "learning_rate": 0.00013040646433810593,
+      "loss": 1.4032,
+      "step": 770
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 0.00013436461471831492,
+      "loss": 1.403,
+      "step": 775
+    },
+    {
+      "epoch": 7.96,
+      "learning_rate": 0.00013663679494827467,
+      "loss": 1.4234,
+      "step": 780
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.4104630947113037,
+      "eval_runtime": 6.9539,
+      "eval_samples_per_second": 21.427,
+      "eval_steps_per_second": 2.732,
+      "step": 784
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 0.0001371647544313672,
+      "loss": 1.1334,
+      "step": 785
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 0.0001359349581695871,
+      "loss": 1.2244,
+      "step": 790
+    },
+    {
+      "epoch": 8.11,
+      "learning_rate": 0.00013297893375261365,
+      "loss": 1.361,
+      "step": 795
+    },
+    {
+      "epoch": 8.16,
+      "learning_rate": 0.00012837246310286448,
+      "loss": 1.3544,
+      "step": 800
+    },
+    {
+      "epoch": 8.21,
+      "learning_rate": 0.00012223363969730697,
+      "loss": 1.1642,
+      "step": 805
+    },
+    {
+      "epoch": 8.27,
+      "learning_rate": 0.00011471984107192647,
+      "loss": 1.3799,
+      "step": 810
+    },
+    {
+      "epoch": 8.32,
+      "learning_rate": 0.00010602369422304377,
+      "loss": 1.3705,
+      "step": 815
+    },
+    {
+      "epoch": 8.37,
+      "learning_rate": 9.636813733819635e-05,
+      "loss": 1.2818,
+      "step": 820
+    },
+    {
+      "epoch": 8.42,
+      "learning_rate": 8.600070445619209e-05,
+      "loss": 1.3989,
+      "step": 825
+    },
+    {
+      "epoch": 8.47,
+      "learning_rate": 7.518717957726708e-05,
+      "loss": 1.2671,
+      "step": 830
+    },
+    {
+      "epoch": 8.52,
+      "learning_rate": 6.420478290932294e-05,
+      "loss": 1.359,
+      "step": 835
+    },
+    {
+      "epoch": 8.57,
+      "learning_rate": 5.33350639305969e-05,
+      "loss": 1.3868,
+      "step": 840
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 4.285668346527499e-05,
+      "loss": 1.4007,
+      "step": 845
+    },
+    {
+      "epoch": 8.67,
+      "learning_rate": 3.3038269813898015e-05,
+      "loss": 1.351,
+      "step": 850
+    },
+    {
+      "epoch": 8.72,
+      "learning_rate": 2.413153208188573e-05,
+      "loss": 1.317,
+      "step": 855
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 1.636480725587754e-05,
+      "loss": 1.2524,
+      "step": 860
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 9.937206457833243e-06,
+      "loss": 1.3045,
+      "step": 865
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 5.013510446062984e-06,
+      "loss": 1.4154,
+      "step": 870
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 1.719945224326892e-06,
+      "loss": 1.2452,
+      "step": 875
+    },
+    {
+      "epoch": 8.98,
+      "learning_rate": 1.4094605732693502e-07,
+      "loss": 1.3688,
+      "step": 880
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.3758981227874756,
+      "eval_runtime": 6.9963,
+      "eval_samples_per_second": 21.297,
+      "eval_steps_per_second": 2.716,
+      "step": 882
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 3.169928516849862e-07,
+      "loss": 1.4731,
+      "step": 885
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 2.2435723955225417e-06,
+      "loss": 1.217,
+      "step": 890
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 5.8712940611152096e-06,
+      "loss": 1.2492,
+      "step": 895
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 1.1107156004419803e-05,
+      "loss": 1.2326,
+      "step": 900
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 1.7816929400633287e-05,
+      "loss": 1.2444,
+      "step": 905
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 2.582859959249101e-05,
+      "loss": 1.2759,
+      "step": 910
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 3.493677593252981e-05,
+      "loss": 1.2315,
+      "step": 915
+    },
+    {
+      "epoch": 9.39,
+      "learning_rate": 4.490795726669825e-05,
+      "loss": 1.2353,
+      "step": 920
+    },
+    {
+      "epoch": 9.44,
+      "learning_rate": 5.548651807108583e-05,
+      "loss": 1.2733,
+      "step": 925
+    },
+    {
+      "epoch": 9.49,
+      "learning_rate": 6.640126177858445e-05,
+      "loss": 1.205,
+      "step": 930
+    },
+    {
+      "epoch": 9.54,
+      "learning_rate": 7.737237329155688e-05,
+      "loss": 1.2441,
+      "step": 935
+    },
+    {
+      "epoch": 9.59,
+      "learning_rate": 8.811859244288885e-05,
+      "loss": 1.2469,
+      "step": 940
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 9.83644245034643e-05,
+      "loss": 1.2763,
+      "step": 945
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 0.00010784720288438088,
+      "loss": 1.1781,
+      "step": 950
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 0.00011632382297139905,
+      "loss": 1.2822,
+      "step": 955
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 0.00012357697446014173,
+      "loss": 1.2663,
+      "step": 960
+    },
+    {
+      "epoch": 9.85,
+      "learning_rate": 0.00012942071241718773,
+      "loss": 1.3906,
+      "step": 965
+    },
+    {
+      "epoch": 9.9,
+      "learning_rate": 0.00013370522424493184,
+      "loss": 1.3015,
+      "step": 970
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 0.00013632067034223124,
+      "loss": 1.2348,
+      "step": 975
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 0.0001372,
+      "loss": 1.2793,
+      "step": 980
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.3976633548736572,
+      "eval_runtime": 7.0041,
+      "eval_samples_per_second": 21.273,
+      "eval_steps_per_second": 2.713,
+      "step": 980
+    },
+    {
+      "epoch": 10.05,
+      "learning_rate": 0.00013632067034223126,
+      "loss": 1.2203,
+      "step": 985
+    },
+    {
+      "epoch": 10.1,
+      "learning_rate": 0.0001337052242449319,
+      "loss": 1.3016,
+      "step": 990
+    },
+    {
+      "epoch": 10.15,
+      "learning_rate": 0.00012942071241718781,
+      "loss": 1.2078,
+      "step": 995
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 0.00012357697446014183,
+      "loss": 1.2408,
+      "step": 1000
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 0.00011632382297139899,
+      "loss": 1.2247,
+      "step": 1005
+    },
+    {
+      "epoch": 10.31,
+      "learning_rate": 0.00010784720288438083,
+      "loss": 1.0939,
+      "step": 1010
+    },
+    {
+      "epoch": 10.36,
+      "learning_rate": 9.836442450346467e-05,
+      "loss": 1.1944,
+      "step": 1015
+    },
+    {
+      "epoch": 10.41,
+      "learning_rate": 8.811859244288877e-05,
+      "loss": 1.2171,
+      "step": 1020
+    },
+    {
+      "epoch": 10.46,
+      "learning_rate": 7.737237329155728e-05,
+      "loss": 1.2546,
+      "step": 1025
+    },
+    {
+      "epoch": 10.51,
+      "learning_rate": 6.640126177858486e-05,
+      "loss": 1.1607,
+      "step": 1030
+    },
+    {
+      "epoch": 10.56,
+      "learning_rate": 5.5486518071086e-05,
+      "loss": 1.2547,
+      "step": 1035
+    },
+    {
+      "epoch": 10.61,
+      "learning_rate": 4.4907957266698644e-05,
+      "loss": 1.2295,
+      "step": 1040
+    },
+    {
+      "epoch": 10.66,
+      "learning_rate": 3.493677593252996e-05,
+      "loss": 1.2566,
+      "step": 1045
+    },
+    {
+      "epoch": 10.71,
+      "learning_rate": 2.5828599592491143e-05,
+      "loss": 1.2949,
+      "step": 1050
+    },
+    {
+      "epoch": 10.77,
+      "learning_rate": 1.7816929400633402e-05,
+      "loss": 1.2886,
+      "step": 1055
+    },
+    {
+      "epoch": 10.82,
+      "learning_rate": 1.1107156004419895e-05,
+      "loss": 1.1858,
+      "step": 1060
+    },
+    {
+      "epoch": 10.87,
+      "learning_rate": 5.871294061115278e-06,
+      "loss": 1.2322,
+      "step": 1065
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 2.2435723955225265e-06,
+      "loss": 1.0434,
+      "step": 1070
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 3.169928516850014e-07,
+      "loss": 1.2505,
+      "step": 1075
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 1.3747466802597046,
+      "eval_runtime": 7.0127,
+      "eval_samples_per_second": 21.247,
+      "eval_steps_per_second": 2.709,
+      "step": 1078
     }
   ],
+  "max_steps": 1274,
+  "num_train_epochs": 13,
+  "total_flos": 1118199250944000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eda2c3fc1a169357c5ab29108c2671d35b5d8c42cbde93e4b348dab2cf8667ff
 size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2f1578ed0263fa3cde0930e9e148d11708f37717f22b869ef9dc3fb789f5d60
 size 2671