huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +555 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/34ev3in7/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/2iebqgin) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/2iebqgin/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2fespoxc/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/2uxxai0x) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/2uxxai0x/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~8371484875679016~~, "eval_runtime": 28.~~4545~~, "eval_samples_per_second": 22.~~492~~, "eval_steps_per_second": 2.~~812~~, "epoch": 3.0}


1	+ {"eval_loss": 0.7939189076423645, "eval_runtime": 29.8066, "eval_samples_per_second": 22.042, "eval_steps_per_second": 2.785, "epoch": 2.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4343a974b428f2382c57dc21472d0735cfbc51b542207259564769ff3c5b5d79
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:f13dd8e7e0c9ea5bd0091dd8c60afb3afa7fdbacbd0e37efcc6130c50e8634a6
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5fff095b20c51a4b4e3fc03bd427c6a48c06d1c4a3fafa90e2817de86902ef
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:244fe45604351a89563c2d647023fc18fab7a2bdb00ee109903ee4436f8466cd
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ac1dd12ba6af1895c67e09c5b9970be8207845ad1570e61d761228933792ba2
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc197655c513ce8a2a9aedb71ffa9ae873a18e0f44bc498db64cb0722c23020c
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:053b31451b4156f416231234f7c955cb69f6666842866d29cfc6affde3e80434
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b55a1470c98d33492d6908fcd8cbbeb708c5888e1d08bcca65ab8be3c46a358d
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42fcdea14db30a826f8903082c3714025c570e8cd1f8adb6f049bd62c52728b2
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6d8fb3a2cb0240cc608113b76f96c3fc15943c30c93e0a97efa65d0bfdc14f6
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.8371484875679016,
-  "best_model_checkpoint": "output/eminem/checkpoint-455",
-  "epoch": 1.0,
-  "global_step": 455,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -560,11 +560,559 @@
       "eval_samples_per_second": 22.341,
       "eval_steps_per_second": 2.793,
       "step": 455
     }
   ],
-  "max_steps": 1365,
-  "num_train_epochs": 3,
-  "total_flos": 475159560192000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7939189076423645,
+  "best_model_checkpoint": "output/eminem/checkpoint-906",
+  "epoch": 2.0,
+  "global_step": 906,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.341,
       "eval_steps_per_second": 2.793,
       "step": 455
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 3.313560072903732e-06,
+      "loss": 0.9642,
+      "step": 460
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.083020186586042e-06,
+      "loss": 1.0926,
+      "step": 465
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.930046740852481e-06,
+      "loss": 1.1107,
+      "step": 470
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 5.85362138619196e-06,
+      "loss": 1.0343,
+      "step": 475
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 6.852633742079277e-06,
+      "loss": 1.0895,
+      "step": 480
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.925882731949876e-06,
+      "loss": 1.0942,
+      "step": 485
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 9.072078027207483e-06,
+      "loss": 1.0349,
+      "step": 490
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1.0289841598539205e-05,
+      "loss": 1.1153,
+      "step": 495
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1.1577709372675019e-05,
+      "loss": 1.1266,
+      "step": 500
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1.2934132992586013e-05,
+      "loss": 1.0478,
+      "step": 505
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1.4357481679018476e-05,
+      "loss": 1.0834,
+      "step": 510
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.5846044191123214e-05,
+      "loss": 0.9411,
+      "step": 515
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.739803088381975e-05,
+      "loss": 1.1014,
+      "step": 520
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.9011575859416407e-05,
+      "loss": 1.0989,
+      "step": 525
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 2.0684739210917447e-05,
+      "loss": 0.9124,
+      "step": 530
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 2.2415509354303698e-05,
+      "loss": 1.0756,
+      "step": 535
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 2.4201805446981234e-05,
+      "loss": 1.0015,
+      "step": 540
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 2.604147988950966e-05,
+      "loss": 1.2663,
+      "step": 545
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 2.793232090758389e-05,
+      "loss": 1.1183,
+      "step": 550
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 2.9872055211163767e-05,
+      "loss": 1.2909,
+      "step": 555
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 3.185835072757725e-05,
+      "loss": 1.1669,
+      "step": 560
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3.388881940527942e-05,
+      "loss": 1.062,
+      "step": 565
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 3.596102008492985e-05,
+      "loss": 1.1253,
+      "step": 570
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 3.807246143430314e-05,
+      "loss": 1.1079,
+      "step": 575
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 4.02206049435268e-05,
+      "loss": 1.2146,
+      "step": 580
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 4.2402867977052555e-05,
+      "loss": 1.0767,
+      "step": 585
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 4.461662687864929e-05,
+      "loss": 1.0771,
+      "step": 590
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 4.685922012574009e-05,
+      "loss": 1.1997,
+      "step": 595
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 4.912795152925409e-05,
+      "loss": 1.107,
+      "step": 600
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.14200934751585e-05,
+      "loss": 1.1217,
+      "step": 605
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 5.373289020376694e-05,
+      "loss": 1.0955,
+      "step": 610
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 5.606356112288902e-05,
+      "loss": 1.1355,
+      "step": 615
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 5.840930415084469e-05,
+      "loss": 1.2501,
+      "step": 620
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 6.0767299085297635e-05,
+      "loss": 1.0553,
+      "step": 625
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 6.313471099388376e-05,
+      "loss": 1.0718,
+      "step": 630
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.550869362255213e-05,
+      "loss": 1.2052,
+      "step": 635
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 6.788639281751474e-05,
+      "loss": 0.9941,
+      "step": 640
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 7.026494995668396e-05,
+      "loss": 1.0171,
+      "step": 645
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 7.264150538649964e-05,
+      "loss": 1.0264,
+      "step": 650
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 7.501320185998764e-05,
+      "loss": 0.9926,
+      "step": 655
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 7.737718797191607e-05,
+      "loss": 1.0749,
+      "step": 660
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 7.97306215869479e-05,
+      "loss": 1.0997,
+      "step": 665
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 8.207067325662808e-05,
+      "loss": 1.1054,
+      "step": 670
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 8.439452962113818e-05,
+      "loss": 1.2298,
+      "step": 675
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 8.669939679168881e-05,
+      "loss": 1.0679,
+      "step": 680
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 8.898250370951158e-05,
+      "loss": 0.93,
+      "step": 685
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 9.124110547741169e-05,
+      "loss": 1.0726,
+      "step": 690
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 9.347248665985043e-05,
+      "loss": 1.038,
+      "step": 695
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 9.567396454761656e-05,
+      "loss": 1.219,
+      "step": 700
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 9.78428923831546e-05,
+      "loss": 1.1036,
+      "step": 705
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 9.997666254266687e-05,
+      "loss": 1.2553,
+      "step": 710
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0001020727096711577,
+      "loss": 0.9944,
+      "step": 715
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00010412851376667537,
+      "loss": 1.0103,
+      "step": 720
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00010614160321001933,
+      "loss": 1.1856,
+      "step": 725
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00010810955773627152,
+      "loss": 1.1214,
+      "step": 730
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00011003001134460133,
+      "loss": 1.226,
+      "step": 735
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00011190065514282273,
+      "loss": 1.1587,
+      "step": 740
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00011371924012328539,
+      "loss": 1.3559,
+      "step": 745
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00011548357986678387,
+      "loss": 1.0196,
+      "step": 750
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00011719155317120334,
+      "loss": 1.0605,
+      "step": 755
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00011884110660177233,
+      "loss": 1.3014,
+      "step": 760
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001204302569598269,
+      "loss": 1.104,
+      "step": 765
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00012195709366713928,
+      "loss": 1.1758,
+      "step": 770
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012341978106294302,
+      "loss": 1.1321,
+      "step": 775
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00012481656061087584,
+      "loss": 1.0998,
+      "step": 780
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00012614575301320556,
+      "loss": 1.2422,
+      "step": 785
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012740576022979148,
+      "loss": 1.0643,
+      "step": 790
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00012859506739935084,
+      "loss": 1.224,
+      "step": 795
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0001297122446607173,
+      "loss": 1.2715,
+      "step": 800
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00013075594887191635,
+      "loss": 1.2678,
+      "step": 805
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00013172492522497582,
+      "loss": 1.3525,
+      "step": 810
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00013261800875453292,
+      "loss": 1.1699,
+      "step": 815
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0001334341257384344,
+      "loss": 1.2546,
+      "step": 820
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00013417229498863045,
+      "loss": 1.1295,
+      "step": 825
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00013483162903082528,
+      "loss": 1.0542,
+      "step": 830
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00013541133517145263,
+      "loss": 1.1614,
+      "step": 835
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.000135910716450703,
+      "loss": 1.2422,
+      "step": 840
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00013632917248045546,
+      "loss": 1.3636,
+      "step": 845
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00013666620016610032,
+      "loss": 1.1613,
+      "step": 850
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00013692139431139235,
+      "loss": 1.1166,
+      "step": 855
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00013709444810560428,
+      "loss": 1.3142,
+      "step": 860
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00013718515349239374,
+      "loss": 1.2432,
+      "step": 865
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0001371934014199418,
+      "loss": 1.2136,
+      "step": 870
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00013711918197206236,
+      "loss": 1.244,
+      "step": 875
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00013696258438012369,
+      "loss": 1.197,
+      "step": 880
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0001367237969157692,
+      "loss": 1.2077,
+      "step": 885
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0001364031066645648,
+      "loss": 1.219,
+      "step": 890
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00013600089918084689,
+      "loss": 1.1498,
+      "step": 895
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00013551765802418306,
+      "loss": 1.3182,
+      "step": 900
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00013495396417800696,
+      "loss": 1.2463,
+      "step": 905
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.7939189076423645,
+      "eval_runtime": 29.7555,
+      "eval_samples_per_second": 22.08,
+      "eval_steps_per_second": 2.789,
+      "step": 906
     }
   ],
+  "max_steps": 906,
+  "num_train_epochs": 2,
+  "total_flos": 946007801856000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b986e4f4f2e2134990d847c21ce0a264050d00e79765a961bbab54f0f92a28e2
 size 2863

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6d62b22b3fddf4b65d8ed71d85e9c10475e541c7b4f259ebe2c4dc5efb2628c
 size 2863