huggingartists

Browse files

Files changed (11) hide show

README.md +3 -3
config.json +2 -2
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +2 -2
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer_config.json +1 -1
trainer_state.json +459 -7
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/coldplay")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2dznxm49/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Coldplay's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/3ll07k50) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/3ll07k50/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/coldplay")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/34iy5awi/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Coldplay's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/p1oxwu42) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/p1oxwu42/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "gpt2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
@@ -35,7 +35,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.10.2",
   "use_cache": true,
   "vocab_size": 50257
 }

 {
+  "_name_or_path": "huggingartists/coldplay",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.11.3",
   "use_cache": true,
   "vocab_size": 50257
 }

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 2.~~627840757369995~~, "eval_runtime": 3.~~4065~~, "eval_samples_per_second": 21.43, "eval_steps_per_second": 2.~~936~~, "epoch": 1.0}


1	+ {"eval_loss": 2.3194692134857178, "eval_runtime": 1.0619, "eval_samples_per_second": 76.28, "eval_steps_per_second": 10.359, "epoch": 61.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ead9db893f292aadd4d15f62a1b535b49253de67d50eb246ca4ce2263fe819a
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b47c6d38b14cb8948342f6984a6c1085465ea6d66dc0b0e263b9efdcf12dd4d
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acfa87429140421dff57f9d4e3279f875fe9ae59d2be9ca282b5821837308051
-size 995603825

 version https://git-lfs.github.com/spec/v1
+oid sha256:da8b48aba8a2ac3780274dff233d2f46b80384823383f633919cb3fff88e3a1a
+size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62bbad0e4434383099ceb0e60e0c83e6f9d86385a92809741b438ac46c9e6dfa
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:d268187c04aaef8b37af7894fd8c042ea497315e5c23e7d7d5f5175e3c43fc91
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:206cdb80d3e3bcaa4a4db6bb72279bbb124927d5763dfcc626c79769ad185e35
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8173196c210c0874e6edb77639fe67968b8a0f875123e25b7002bd9aa763efc
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71252f08280d2f37911a6a36ecee4f688037ea330ad139359869696f6b1221ab
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea923f2e0b275d809c555b520c2a11f0ea9d5d9892df660f643bda82951dfca7
 size 623

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "~~gpt2~~", "tokenizer_class": "GPT2Tokenizer"}


1	+ {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "huggingartists/coldplay", "tokenizer_class": "GPT2Tokenizer"}

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 2.627840757369995,
-  "best_model_checkpoint": "output/coldplay/checkpoint-48",
-  "epoch": 1.0,
-  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -68,11 +68,463 @@
       "eval_samples_per_second": 21.405,
       "eval_steps_per_second": 2.932,
       "step": 48
     }
   ],
-  "max_steps": 48,
-  "num_train_epochs": 1,
-  "total_flos": 50037424128000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.3194692134857178,
+  "best_model_checkpoint": "output/coldplay/checkpoint-376",
+  "epoch": 8.0,
+  "global_step": 376,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.405,
       "eval_steps_per_second": 2.932,
       "step": 48
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1.3746270344901413e-06,
+      "loss": 2.7251,
+      "step": 50
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 9.576451662754438e-06,
+      "loss": 2.4207,
+      "step": 55
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 2.4309929383066146e-05,
+      "loss": 2.7058,
+      "step": 60
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.3944626783346644e-05,
+      "loss": 2.6908,
+      "step": 65
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 6.630773257727353e-05,
+      "loss": 2.7345,
+      "step": 70
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 8.892450484875447e-05,
+      "loss": 2.4105,
+      "step": 75
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00010929213048843373,
+      "loss": 2.5926,
+      "step": 80
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00012515669103944476,
+      "loss": 2.4909,
+      "step": 85
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00013476258540873022,
+      "loss": 2.5389,
+      "step": 90
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.446333646774292,
+      "eval_runtime": 1.0636,
+      "eval_samples_per_second": 76.156,
+      "eval_steps_per_second": 10.342,
+      "step": 94
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00013704680787354832,
+      "loss": 2.3598,
+      "step": 95
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.00013175658222600302,
+      "loss": 2.2124,
+      "step": 100
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00011947733444744994,
+      "loss": 2.1658,
+      "step": 105
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0001015679084058065,
+      "loss": 2.1519,
+      "step": 110
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 8.001019372440279e-05,
+      "loss": 2.243,
+      "step": 115
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 5.718980627559731e-05,
+      "loss": 2.2952,
+      "step": 120
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.563209159419354e-05,
+      "loss": 2.2394,
+      "step": 125
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 1.772266555255008e-05,
+      "loss": 2.2106,
+      "step": 130
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 5.443417773996978e-06,
+      "loss": 2.2222,
+      "step": 135
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 1.5319212645169297e-07,
+      "loss": 2.1897,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.3795111179351807,
+      "eval_runtime": 1.0634,
+      "eval_samples_per_second": 76.169,
+      "eval_steps_per_second": 10.344,
+      "step": 141
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 2.4374145912697595e-06,
+      "loss": 2.0277,
+      "step": 145
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 1.204330896055522e-05,
+      "loss": 2.0337,
+      "step": 150
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 2.790786951156628e-05,
+      "loss": 2.0818,
+      "step": 155
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 4.8275495151245426e-05,
+      "loss": 2.1041,
+      "step": 160
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 7.089226742272638e-05,
+      "loss": 2.1708,
+      "step": 165
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 9.325537321665337e-05,
+      "loss": 2.0552,
+      "step": 170
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 0.00011289007061693382,
+      "loss": 2.1205,
+      "step": 175
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 0.00012762354833724553,
+      "loss": 1.9704,
+      "step": 180
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 0.00013582537296550986,
+      "loss": 1.9882,
+      "step": 185
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 2.3495991230010986,
+      "eval_runtime": 1.0619,
+      "eval_samples_per_second": 76.281,
+      "eval_steps_per_second": 10.359,
+      "step": 188
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 0.0001365879156874179,
+      "loss": 2.1933,
+      "step": 190
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 0.00012982679213998792,
+      "loss": 1.8172,
+      "step": 195
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 0.00011629020053848047,
+      "loss": 1.6238,
+      "step": 200
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 9.747612470258382e-05,
+      "loss": 1.8408,
+      "step": 205
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 7.546656444541333e-05,
+      "loss": 1.8867,
+      "step": 210
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 5.2697137691647635e-05,
+      "loss": 2.0636,
+      "step": 215
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 3.1687550572992616e-05,
+      "loss": 1.8887,
+      "step": 220
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 1.4762762169883855e-05,
+      "loss": 1.9152,
+      "step": 225
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 3.795700315696817e-06,
+      "loss": 1.8236,
+      "step": 230
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0,
+      "loss": 1.6923,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 2.332808017730713,
+      "eval_runtime": 1.0629,
+      "eval_samples_per_second": 76.208,
+      "eval_steps_per_second": 10.349,
+      "step": 235
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 3.7957003156967485e-06,
+      "loss": 1.6147,
+      "step": 240
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 1.4762762169883802e-05,
+      "loss": 1.7048,
+      "step": 245
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 3.168755057299255e-05,
+      "loss": 1.5544,
+      "step": 250
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 5.269713769164743e-05,
+      "loss": 1.5129,
+      "step": 255
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 7.546656444541325e-05,
+      "loss": 1.7164,
+      "step": 260
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 9.747612470258363e-05,
+      "loss": 1.6792,
+      "step": 265
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 0.0001162902005384805,
+      "loss": 1.7173,
+      "step": 270
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 0.00012982679213998787,
+      "loss": 1.7795,
+      "step": 275
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 0.00013658791568741792,
+      "loss": 1.9717,
+      "step": 280
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 2.336082935333252,
+      "eval_runtime": 1.0719,
+      "eval_samples_per_second": 75.567,
+      "eval_steps_per_second": 10.262,
+      "step": 282
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 0.00013582537296550986,
+      "loss": 1.6967,
+      "step": 285
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 0.00012762354833724559,
+      "loss": 1.4993,
+      "step": 290
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 0.0001128900706169339,
+      "loss": 1.3665,
+      "step": 295
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 9.325537321665346e-05,
+      "loss": 1.5098,
+      "step": 300
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 7.089226742272658e-05,
+      "loss": 1.6949,
+      "step": 305
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 4.827549515124539e-05,
+      "loss": 1.5465,
+      "step": 310
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 2.7907869511566348e-05,
+      "loss": 1.506,
+      "step": 315
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 1.2043308960555334e-05,
+      "loss": 1.6257,
+      "step": 320
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 2.437414591269752e-06,
+      "loss": 1.3859,
+      "step": 325
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 2.334944009780884,
+      "eval_runtime": 1.0709,
+      "eval_samples_per_second": 75.638,
+      "eval_steps_per_second": 10.272,
+      "step": 329
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 1.5319212645167772e-07,
+      "loss": 1.5912,
+      "step": 330
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 5.443417773996994e-06,
+      "loss": 1.4726,
+      "step": 335
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 1.772266555255011e-05,
+      "loss": 1.2431,
+      "step": 340
+    },
+    {
+      "epoch": 7.34,
+      "learning_rate": 3.563209159419346e-05,
+      "loss": 1.3668,
+      "step": 345
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 5.718980627559723e-05,
+      "loss": 1.3476,
+      "step": 350
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 8.001019372440265e-05,
+      "loss": 1.2561,
+      "step": 355
+    },
+    {
+      "epoch": 7.66,
+      "learning_rate": 0.00010156790840580641,
+      "loss": 1.6616,
+      "step": 360
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 0.0001194773344474498,
+      "loss": 1.4607,
+      "step": 365
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 0.00013175658222600294,
+      "loss": 1.3461,
+      "step": 370
+    },
+    {
+      "epoch": 7.98,
+      "learning_rate": 0.00013704680787354832,
+      "loss": 1.3842,
+      "step": 375
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 2.3194692134857178,
+      "eval_runtime": 1.0661,
+      "eval_samples_per_second": 75.98,
+      "eval_steps_per_second": 10.318,
+      "step": 376
     }
   ],
+  "max_steps": 2867,
+  "num_train_epochs": 61,
+  "total_flos": 391938048000000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:048a39b3592a2f42dac700c0353f225e76c9fb9c51f735a610400f6387986da0
-size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:7042b00f38d89f1720e38aa30d3c0f04599b070773bf507b3a660f4d7684fea2
+size 2863