huggingartists

Browse files

Files changed (11) hide show

README.md +3 -3
config.json +1 -1
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
tokenizer_config.json +1 -1
trainer_state.json +587 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2l695pm1/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/3pk4ea2u) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/3pk4ea2u/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/3vis8hub/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/vsi1kmha) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/vsi1kmha/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "gpt2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "huggingartists/eminem",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 3.~~7048158645629883~~, "eval_runtime": 29.~~3569~~, "eval_samples_per_second": 22.~~346~~, "eval_steps_per_second": 2.~~793~~, "epoch": 1.0}


1	+ {"eval_loss": 3.550342321395874, "eval_runtime": 15.4175, "eval_samples_per_second": 39.176, "eval_steps_per_second": 4.929, "epoch": 2.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:262ff390844a8a0d15cf1ac5ddf0c0f51bd950f9f01fdb4a18686cbfa1628688
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:50be979b8b3586b1733c928ce8490cf5cc1a14a66edbce08b2db156f4be93f15
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a9fa7f2a4e7ff45453dae447ffe05636eeee45a087bf41722388a6b4a91a547
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:632ddf0a9ff1dbc17c7ef3df2f3b5d2c7ea6dbc503edad780e47dfc8809d90bc
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:820ebbeb7718d17ad5c349804b16925fad394702b9340fb9c1d111edf68f17e9
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:09add2f3ac2fd368dc8c57fd18053cdac18d00b8e1ac65a2d642833e74a0a759
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f91cf577609be35642d017de628b6109e240d8b6435db8740abfe22b6288bf5e
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:a59e6426f4884c6a7dfc9127b714b01aad43ac43d68d147e4b7627a97abecd21
+size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43b44e5cb72f3e614f443e8ef7c3fb3c5f06bbee285da28e31095e8a027e0c62
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:64d649c29e36fd0af6b34d053ac5a147e5edddf6dd49f7bdc7b41cd80c5d9b45
 size 623

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "~~gpt2~~", "tokenizer_class": "GPT2Tokenizer"}


1	+ {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "huggingartists/eminem", "tokenizer_class": "GPT2Tokenizer"}

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 3.7048158645629883,
-  "best_model_checkpoint": "output/eminem/checkpoint-453",
-  "epoch": 1.0,
-  "global_step": 453,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -554,11 +554,591 @@
       "eval_samples_per_second": 22.388,
       "eval_steps_per_second": 2.798,
       "step": 453
     }
   ],
-  "max_steps": 453,
-  "num_train_epochs": 1,
-  "total_flos": 473069223936000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 3.550342321395874,
+  "best_model_checkpoint": "output/eminem/checkpoint-920",
+  "epoch": 2.0,
+  "global_step": 920,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.388,
       "eval_steps_per_second": 2.798,
       "step": 453
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.9992265680461966e-08,
+      "loss": 3.6362,
+      "step": 455
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 3.3994,
+      "step": 460
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 3.5555710792541504,
+      "eval_runtime": 13.5198,
+      "eval_samples_per_second": 44.675,
+      "eval_steps_per_second": 5.621,
+      "step": 460
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3.9992265680461966e-08,
+      "loss": 3.5614,
+      "step": 465
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.5992243352901425e-07,
+      "loss": 3.7249,
+      "step": 470
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.5965067033469397e-07,
+      "loss": 3.4991,
+      "step": 475
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 6.389441019077102e-07,
+      "loss": 3.439,
+      "step": 480
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 9.97477084600295e-07,
+      "loss": 3.6568,
+      "step": 485
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.4348315849926483e-06,
+      "loss": 3.5489,
+      "step": 490
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1.9504976673012086e-06,
+      "loss": 3.6268,
+      "step": 495
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.5438740879409643e-06,
+      "loss": 3.8246,
+      "step": 500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.2142689965485674e-06,
+      "loss": 3.5789,
+      "step": 505
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.960900742648913e-06,
+      "loss": 3.618,
+      "step": 510
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.782898787024646e-06,
+      "loss": 3.6802,
+      "step": 515
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 5.679304716725914e-06,
+      "loss": 3.6302,
+      "step": 520
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.649073362537048e-06,
+      "loss": 3.5926,
+      "step": 525
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.691074017597052e-06,
+      "loss": 3.5005,
+      "step": 530
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 8.804091755753263e-06,
+      "loss": 3.6247,
+      "step": 535
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 9.986828848110884e-06,
+      "loss": 3.5699,
+      "step": 540
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1237906276126821e-05,
+      "loss": 3.5435,
+      "step": 545
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.2555865339483672e-05,
+      "loss": 3.5681,
+      "step": 550
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.3939169356868945e-05,
+      "loss": 3.5438,
+      "step": 555
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.5386205457676803e-05,
+      "loss": 3.6615,
+      "step": 560
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.6895286462543014e-05,
+      "loss": 3.5334,
+      "step": 565
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.8464652850520678e-05,
+      "loss": 3.5256,
+      "step": 570
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 2.009247481060283e-05,
+      "loss": 3.5908,
+      "step": 575
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 2.1776854375200328e-05,
+      "loss": 3.6817,
+      "step": 580
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 2.351582763308709e-05,
+      "loss": 3.6254,
+      "step": 585
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 2.5307367019232758e-05,
+      "loss": 3.5371,
+      "step": 590
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 2.714938367885288e-05,
+      "loss": 3.6406,
+      "step": 595
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 2.9039729902920112e-05,
+      "loss": 3.5787,
+      "step": 600
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 3.097620163229676e-05,
+      "loss": 3.5732,
+      "step": 605
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 3.295654102756921e-05,
+      "loss": 3.5091,
+      "step": 610
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 3.4978439101588006e-05,
+      "loss": 3.617,
+      "step": 615
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.703953841164292e-05,
+      "loss": 3.582,
+      "step": 620
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 3.913743580813637e-05,
+      "loss": 3.6594,
+      "step": 625
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.126968523654786e-05,
+      "loss": 3.6063,
+      "step": 630
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.343380058942427e-05,
+      "loss": 3.6137,
+      "step": 635
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.562725860507034e-05,
+      "loss": 3.5565,
+      "step": 640
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.784750180955822e-05,
+      "loss": 3.6099,
+      "step": 645
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 5.009194149862813e-05,
+      "loss": 3.6417,
+      "step": 650
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 5.235796075600178e-05,
+      "loss": 3.7049,
+      "step": 655
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 5.4642917504589275e-05,
+      "loss": 3.7319,
+      "step": 660
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 5.694414758703346e-05,
+      "loss": 3.554,
+      "step": 665
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 5.92589678719975e-05,
+      "loss": 3.5522,
+      "step": 670
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 6.158467938257645e-05,
+      "loss": 3.6115,
+      "step": 675
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 6.391857044318355e-05,
+      "loss": 3.6475,
+      "step": 680
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 6.625791984124255e-05,
+      "loss": 3.5034,
+      "step": 685
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 6.859999999999999e-05,
+      "loss": 3.5767,
+      "step": 690
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.094208015875743e-05,
+      "loss": 3.6471,
+      "step": 695
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 7.328142955681643e-05,
+      "loss": 3.6515,
+      "step": 700
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.561532061742353e-05,
+      "loss": 3.6649,
+      "step": 705
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 7.794103212800247e-05,
+      "loss": 3.4103,
+      "step": 710
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 8.025585241296653e-05,
+      "loss": 3.5488,
+      "step": 715
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 8.25570824954107e-05,
+      "loss": 3.5076,
+      "step": 720
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 8.484203924399819e-05,
+      "loss": 3.5708,
+      "step": 725
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 8.710805850137184e-05,
+      "loss": 3.7272,
+      "step": 730
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 8.935249819044176e-05,
+      "loss": 3.6548,
+      "step": 735
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.157274139492964e-05,
+      "loss": 3.6463,
+      "step": 740
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.376619941057571e-05,
+      "loss": 3.484,
+      "step": 745
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.593031476345212e-05,
+      "loss": 3.5106,
+      "step": 750
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 9.80625641918636e-05,
+      "loss": 3.6845,
+      "step": 755
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00010016046158835706,
+      "loss": 3.5078,
+      "step": 760
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00010222156089841198,
+      "loss": 3.62,
+      "step": 765
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00010424345897243078,
+      "loss": 3.644,
+      "step": 770
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00010622379836770322,
+      "loss": 3.7684,
+      "step": 775
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00010816027009707987,
+      "loss": 3.5978,
+      "step": 780
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0001100506163211471,
+      "loss": 3.5937,
+      "step": 785
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00011189263298076723,
+      "loss": 3.6434,
+      "step": 790
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00011368417236691289,
+      "loss": 3.6893,
+      "step": 795
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00011542314562479964,
+      "loss": 3.6739,
+      "step": 800
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00011710752518939715,
+      "loss": 3.5122,
+      "step": 805
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00011873534714947934,
+      "loss": 3.6633,
+      "step": 810
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00012030471353745696,
+      "loss": 3.5101,
+      "step": 815
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012181379454232318,
+      "loss": 3.6736,
+      "step": 820
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00012326083064313103,
+      "loss": 3.4271,
+      "step": 825
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0001246441346605163,
+      "loss": 3.5088,
+      "step": 830
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00012596209372387317,
+      "loss": 3.5845,
+      "step": 835
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0001272131711518891,
+      "loss": 3.6172,
+      "step": 840
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00012839590824424672,
+      "loss": 3.5649,
+      "step": 845
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00012950892598240292,
+      "loss": 3.5506,
+      "step": 850
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00013055092663746294,
+      "loss": 3.4779,
+      "step": 855
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00013152069528327408,
+      "loss": 3.5707,
+      "step": 860
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00013241710121297533,
+      "loss": 3.497,
+      "step": 865
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0001332390992573511,
+      "loss": 3.6343,
+      "step": 870
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00013398573100345144,
+      "loss": 3.5251,
+      "step": 875
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00013465612591205902,
+      "loss": 3.7421,
+      "step": 880
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00013524950233269879,
+      "loss": 3.5967,
+      "step": 885
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00013576516841500732,
+      "loss": 3.5853,
+      "step": 890
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0001362025229153997,
+      "loss": 3.7016,
+      "step": 895
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00013656105589809228,
+      "loss": 3.7649,
+      "step": 900
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0001368403493296653,
+      "loss": 3.6488,
+      "step": 905
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.000137040077566471,
+      "loss": 3.5113,
+      "step": 910
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00013716000773431953,
+      "loss": 3.4688,
+      "step": 915
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0001372,
+      "loss": 3.5363,
+      "step": 920
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 3.550342321395874,
+      "eval_runtime": 15.5302,
+      "eval_samples_per_second": 38.892,
+      "eval_steps_per_second": 4.894,
+      "step": 920
     }
   ],
+  "max_steps": 920,
+  "num_train_epochs": 2,
+  "total_flos": 959594987520000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88afb1791286823d1557961f7a8392ea79a53d89533284d93c6a6575791bb1ea
 size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5708224240385f21adb137af8222892ce526560dfb553f1518c008662fb3365
 size 2671