huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +663 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/big-baby-tape")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2oh33los/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Big Baby Tape's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1s6lnq7u) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1s6lnq7u/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/big-baby-tape")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1mu9ki6z/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Big Baby Tape's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/30qklxvh) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/30qklxvh/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~7459986209869385~~, "eval_runtime": 9.~~6814~~, "eval_samples_per_second": 20.~~142~~, "eval_steps_per_second": 2.~~582~~, "epoch": 4.0}


1	+ {"eval_loss": 1.5916674137115479, "eval_runtime": 9.8629, "eval_samples_per_second": 20.075, "eval_steps_per_second": 2.535, "epoch": 13.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb5c95a97e20f7c95d543dc5984fc5037b700d9f4b39e1b5e4f6b58ce0293f31
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:b81b2217929fc3a04adc28aeef96d8c22dca42ee762849488f148e9c66ff8ebb
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:234a4acde292f927cb5081f20b7a098d4310346b486b808347df772453d38fbe
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:c93cb1dbf3bafab16cffecaf5835427ece275345f8190c3861fb64882677a2c7
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97121acb26a6fa4c7fb4a741eb682f5cf8f1b3bb9f337fe691b8c152067e55fe
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:efd707232768bf963bbfa80d00e4a1ac406411c38942ae6da42f491a699e0b1d
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:077dc7f31533b68ea237703ffc91a5ac35fd4765522f824d8d2330befe10761d
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:55264648aba19a33aed9e5dcadfb3f6be836fe87263f0b60fcb9a1183bf613ea
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bac8ceca19c5c4936fbf77b46507ea6d5819a16be52083fb75390b76c3994a44
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:316708ce40514505582ee090ddaa6c8e8624da3a3fe6edd6790da2e26bd960ad
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 1.7459986209869385,
-  "best_model_checkpoint": "output/big-baby-tape/checkpoint-520",
-  "epoch": 4.0,
-  "global_step": 520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -662,11 +662,667 @@
       "eval_samples_per_second": 20.192,
       "eval_steps_per_second": 2.589,
       "step": 520
     }
   ],
-  "max_steps": 520,
-  "num_train_epochs": 4,
-  "total_flos": 542964842496000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.5916674137115479,
+  "best_model_checkpoint": "output/big-baby-tape/checkpoint-1040",
+  "epoch": 8.0,
+  "global_step": 1040,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.192,
       "eval_steps_per_second": 2.589,
       "step": 520
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 5.001712368734899e-07,
+      "loss": 1.7425,
+      "step": 525
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.9933913245728015e-06,
+      "loss": 1.6693,
+      "step": 530
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 4.457885751780535e-06,
+      "loss": 1.5825,
+      "step": 535
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 7.857716640189824e-06,
+      "loss": 1.6875,
+      "step": 540
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 1.2143306799695106e-05,
+      "loss": 1.6501,
+      "step": 545
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 1.725216267546245e-05,
+      "loss": 1.5837,
+      "step": 550
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 2.3109785644681495e-05,
+      "loss": 1.5563,
+      "step": 555
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 2.963075837424263e-05,
+      "loss": 1.5985,
+      "step": 560
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 3.6719990397797463e-05,
+      "loss": 1.606,
+      "step": 565
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 4.4274104748882125e-05,
+      "loss": 1.6791,
+      "step": 570
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 5.2182945429873444e-05,
+      "loss": 1.7505,
+      "step": 575
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 6.033118373448483e-05,
+      "loss": 1.5154,
+      "step": 580
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 6.859999999999984e-05,
+      "loss": 1.671,
+      "step": 585
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 7.686881626551508e-05,
+      "loss": 1.5294,
+      "step": 590
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 8.501705457012647e-05,
+      "loss": 1.5787,
+      "step": 595
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 9.292589525111778e-05,
+      "loss": 1.7159,
+      "step": 600
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 0.00010048000960220244,
+      "loss": 1.6876,
+      "step": 605
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 0.0001075692416257573,
+      "loss": 1.6451,
+      "step": 610
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 0.00011409021435531843,
+      "loss": 1.7096,
+      "step": 615
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 0.00011994783732453749,
+      "loss": 1.6926,
+      "step": 620
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 0.00012505669320030485,
+      "loss": 1.6774,
+      "step": 625
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 0.00012934228335981013,
+      "loss": 1.769,
+      "step": 630
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 0.00013274211424821943,
+      "loss": 1.6677,
+      "step": 635
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 0.00013520660867542716,
+      "loss": 1.6415,
+      "step": 640
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 0.00013669982876312649,
+      "loss": 1.6811,
+      "step": 645
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0001372,
+      "loss": 1.6017,
+      "step": 650
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.6280437707901,
+      "eval_runtime": 9.7539,
+      "eval_samples_per_second": 20.3,
+      "eval_steps_per_second": 2.563,
+      "step": 650
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 0.00013669982876312649,
+      "loss": 1.5983,
+      "step": 655
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 0.0001352066086754272,
+      "loss": 1.6281,
+      "step": 660
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 0.00013274211424821946,
+      "loss": 1.6583,
+      "step": 665
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 0.00012934228335981018,
+      "loss": 1.5553,
+      "step": 670
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 0.0001250566932003049,
+      "loss": 1.669,
+      "step": 675
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 0.00011994783732453757,
+      "loss": 1.5035,
+      "step": 680
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 0.00011409021435531852,
+      "loss": 1.5271,
+      "step": 685
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 0.00010756924162575738,
+      "loss": 1.6283,
+      "step": 690
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 0.00010048000960220254,
+      "loss": 1.5816,
+      "step": 695
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 9.292589525111789e-05,
+      "loss": 1.537,
+      "step": 700
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 8.501705457012655e-05,
+      "loss": 1.5076,
+      "step": 705
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 7.686881626551518e-05,
+      "loss": 1.5273,
+      "step": 710
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 6.859999999999993e-05,
+      "loss": 1.6255,
+      "step": 715
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 6.033118373448493e-05,
+      "loss": 1.5228,
+      "step": 720
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 5.2182945429873545e-05,
+      "loss": 1.4525,
+      "step": 725
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 4.427410474888221e-05,
+      "loss": 1.5599,
+      "step": 730
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 3.671999039779755e-05,
+      "loss": 1.7274,
+      "step": 735
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 2.9630758374242713e-05,
+      "loss": 1.5442,
+      "step": 740
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 2.3109785644681573e-05,
+      "loss": 1.4565,
+      "step": 745
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 1.725216267546251e-05,
+      "loss": 1.4942,
+      "step": 750
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 1.2143306799695167e-05,
+      "loss": 1.6139,
+      "step": 755
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 7.857716640189868e-06,
+      "loss": 1.6282,
+      "step": 760
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.457885751780565e-06,
+      "loss": 1.6596,
+      "step": 765
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 1.9933913245728244e-06,
+      "loss": 1.5722,
+      "step": 770
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 5.001712368735127e-07,
+      "loss": 1.5391,
+      "step": 775
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.0,
+      "loss": 1.6218,
+      "step": 780
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.5917974710464478,
+      "eval_runtime": 9.7962,
+      "eval_samples_per_second": 20.212,
+      "eval_steps_per_second": 2.552,
+      "step": 780
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 5.001712368734975e-07,
+      "loss": 1.4457,
+      "step": 785
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 1.9933913245728015e-06,
+      "loss": 1.5599,
+      "step": 790
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 4.457885751780527e-06,
+      "loss": 1.4377,
+      "step": 795
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 7.857716640189815e-06,
+      "loss": 1.4766,
+      "step": 800
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 1.2143306799695099e-05,
+      "loss": 1.4534,
+      "step": 805
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 1.7252162675462436e-05,
+      "loss": 1.4231,
+      "step": 810
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 2.310978564468148e-05,
+      "loss": 1.5066,
+      "step": 815
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 2.963075837424261e-05,
+      "loss": 1.4435,
+      "step": 820
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 3.671999039779744e-05,
+      "loss": 1.5639,
+      "step": 825
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 4.4274104748882104e-05,
+      "loss": 1.4327,
+      "step": 830
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 5.218294542987343e-05,
+      "loss": 1.5161,
+      "step": 835
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 6.0331183734484816e-05,
+      "loss": 1.412,
+      "step": 840
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 6.859999999999982e-05,
+      "loss": 1.5963,
+      "step": 845
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 7.686881626551506e-05,
+      "loss": 1.4996,
+      "step": 850
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 8.501705457012646e-05,
+      "loss": 1.4342,
+      "step": 855
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 9.292589525111778e-05,
+      "loss": 1.5237,
+      "step": 860
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 0.00010048000960220244,
+      "loss": 1.5488,
+      "step": 865
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 0.00010756924162575728,
+      "loss": 1.5456,
+      "step": 870
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 0.00011409021435531843,
+      "loss": 1.4942,
+      "step": 875
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 0.00011994783732453747,
+      "loss": 1.5108,
+      "step": 880
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 0.00012505669320030482,
+      "loss": 1.5004,
+      "step": 885
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 0.00012934228335981013,
+      "loss": 1.5133,
+      "step": 890
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 0.00013274211424821943,
+      "loss": 1.5261,
+      "step": 895
+    },
+    {
+      "epoch": 6.92,
+      "learning_rate": 0.00013520660867542716,
+      "loss": 1.5521,
+      "step": 900
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 0.00013669982876312649,
+      "loss": 1.6079,
+      "step": 905
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 0.0001372,
+      "loss": 1.546,
+      "step": 910
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.618756890296936,
+      "eval_runtime": 9.7835,
+      "eval_samples_per_second": 20.238,
+      "eval_steps_per_second": 2.555,
+      "step": 910
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 0.00013669982876312649,
+      "loss": 1.2732,
+      "step": 915
+    },
+    {
+      "epoch": 7.08,
+      "learning_rate": 0.0001352066086754272,
+      "loss": 1.4751,
+      "step": 920
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 0.00013274211424821948,
+      "loss": 1.5095,
+      "step": 925
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 0.0001293422833598103,
+      "loss": 1.4858,
+      "step": 930
+    },
+    {
+      "epoch": 7.19,
+      "learning_rate": 0.0001250566932003049,
+      "loss": 1.5896,
+      "step": 935
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 0.00011994783732453773,
+      "loss": 1.3257,
+      "step": 940
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 0.00011409021435531852,
+      "loss": 1.5044,
+      "step": 945
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 0.00010756924162575719,
+      "loss": 1.389,
+      "step": 950
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 0.00010048000960220255,
+      "loss": 1.4434,
+      "step": 955
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 9.29258952511179e-05,
+      "loss": 1.4208,
+      "step": 960
+    },
+    {
+      "epoch": 7.42,
+      "learning_rate": 8.501705457012658e-05,
+      "loss": 1.4817,
+      "step": 965
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 7.68688162655152e-05,
+      "loss": 1.5339,
+      "step": 970
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 6.859999999999995e-05,
+      "loss": 1.5614,
+      "step": 975
+    },
+    {
+      "epoch": 7.54,
+      "learning_rate": 6.0331183734484945e-05,
+      "loss": 1.4163,
+      "step": 980
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 5.2182945429873566e-05,
+      "loss": 1.3478,
+      "step": 985
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 4.4274104748882226e-05,
+      "loss": 1.502,
+      "step": 990
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 3.6719990397797565e-05,
+      "loss": 1.52,
+      "step": 995
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 2.9630758374242923e-05,
+      "loss": 1.3148,
+      "step": 1000
+    },
+    {
+      "epoch": 7.73,
+      "learning_rate": 2.310978564468158e-05,
+      "loss": 1.5192,
+      "step": 1005
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 1.7252162675462368e-05,
+      "loss": 1.4457,
+      "step": 1010
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 1.2143306799695174e-05,
+      "loss": 1.3958,
+      "step": 1015
+    },
+    {
+      "epoch": 7.85,
+      "learning_rate": 7.85771664018977e-06,
+      "loss": 1.5431,
+      "step": 1020
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 4.457885751780573e-06,
+      "loss": 1.4051,
+      "step": 1025
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 1.993391324572832e-06,
+      "loss": 1.4924,
+      "step": 1030
+    },
+    {
+      "epoch": 7.96,
+      "learning_rate": 5.001712368735127e-07,
+      "loss": 1.4193,
+      "step": 1035
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0,
+      "loss": 1.4695,
+      "step": 1040
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.5916674137115479,
+      "eval_runtime": 9.7988,
+      "eval_samples_per_second": 20.206,
+      "eval_steps_per_second": 2.551,
+      "step": 1040
     }
   ],
+  "max_steps": 1690,
+  "num_train_epochs": 13,
+  "total_flos": 1084361932800000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b5708c7447842968121331f651a0667504a3cf69e6dddb04ddfb6f7d888825b
 size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:7de331ed63430c4c904d774190a38a9a01f51742c221c11fc99341c51bd96bba
 size 2671