{message}

Browse files

Files changed (6) hide show

config.json +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +205 -3

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "headie-one",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "huggingartists/headie-one",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bf0113bc79048fa4f8214311ab56f9b4f73fd88207147dd999b498f940e9b2c
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:7491b6f16bd0a1d8e4cb329eaef6bf7bd58975ad38795c84abed5455f08eca81
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c2e46911e2b964ef6bfca87fc55d66441ba1b1e08e3ed511a06da4af21f2ff2
 size 510396521

 version https://git-lfs.github.com/spec/v1
+oid sha256:97acf1b0eb486b438bdd175b53cfcfd5b7761ae16a12d32f98ac946a816b0cbe
 size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1e26cfdb1fd28906d45a5f87757e190292be8bc12770ec4ca25406b63980b90
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8420f7ec058563a1409e89652133384b907f8881b615732be2215b79b14c7ca6
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0accbb6af875cc1fdea78a273b74af30a4276611bc4487469c70b401bdb5d69c
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4d0b85035a9999c17bb635a766784cff44d93cc2adedcb471b74f0a33c5e80a
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": 5.471560001373291,
   "best_model_checkpoint": "output/headie-one/checkpoint-76",
-  "epoch": 48.0,
-  "global_step": 3648,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4764,11 +4764,213 @@
       "eval_samples_per_second": 42.777,
       "eval_steps_per_second": 5.452,
       "step": 3648
     }
   ],
   "max_steps": 3800,
   "num_train_epochs": 50,
-  "total_flos": 3768876269568000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 5.471560001373291,
   "best_model_checkpoint": "output/headie-one/checkpoint-76",
+  "epoch": 50.0,
+  "global_step": 3800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 42.777,
       "eval_steps_per_second": 5.452,
       "step": 3648
+    },
+    {
+      "epoch": 48.03,
+      "learning_rate": 0.00013696569622025762,
+      "loss": 0.043,
+      "step": 3650
+    },
+    {
+      "epoch": 48.09,
+      "learning_rate": 0.00013434812529663595,
+      "loss": 0.0509,
+      "step": 3655
+    },
+    {
+      "epoch": 48.16,
+      "learning_rate": 0.00012893189933276593,
+      "loss": 0.0521,
+      "step": 3660
+    },
+    {
+      "epoch": 48.22,
+      "learning_rate": 0.00012094756707850676,
+      "loss": 0.051,
+      "step": 3665
+    },
+    {
+      "epoch": 48.29,
+      "learning_rate": 0.00011073499209051154,
+      "loss": 0.0583,
+      "step": 3670
+    },
+    {
+      "epoch": 48.36,
+      "learning_rate": 9.872888599492854e-05,
+      "loss": 0.0547,
+      "step": 3675
+    },
+    {
+      "epoch": 48.42,
+      "learning_rate": 8.54403044178599e-05,
+      "loss": 0.0645,
+      "step": 3680
+    },
+    {
+      "epoch": 48.49,
+      "learning_rate": 7.143489323346813e-05,
+      "loss": 0.0598,
+      "step": 3685
+    },
+    {
+      "epoch": 48.55,
+      "learning_rate": 5.7308811106741546e-05,
+      "loss": 0.0511,
+      "step": 3690
+    },
+    {
+      "epoch": 48.62,
+      "learning_rate": 4.366335321932151e-05,
+      "loss": 0.051,
+      "step": 3695
+    },
+    {
+      "epoch": 48.68,
+      "learning_rate": 3.107935635280202e-05,
+      "loss": 0.0494,
+      "step": 3700
+    },
+    {
+      "epoch": 48.75,
+      "learning_rate": 2.0092474810603514e-05,
+      "loss": 0.047,
+      "step": 3705
+    },
+    {
+      "epoch": 48.82,
+      "learning_rate": 1.1170379591190191e-05,
+      "loss": 0.0484,
+      "step": 3710
+    },
+    {
+      "epoch": 48.88,
+      "learning_rate": 4.69285135968287e-06,
+      "loss": 0.0499,
+      "step": 3715
+    },
+    {
+      "epoch": 48.95,
+      "learning_rate": 9.356145865732563e-07,
+      "loss": 0.0526,
+      "step": 3720
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 6.790609836578369,
+      "eval_runtime": 2.386,
+      "eval_samples_per_second": 42.749,
+      "eval_steps_per_second": 5.448,
+      "step": 3724
+    },
+    {
+      "epoch": 49.01,
+      "learning_rate": 5.8600974631134825e-08,
+      "loss": 0.0424,
+      "step": 3725
+    },
+    {
+      "epoch": 49.08,
+      "learning_rate": 2.0991417565617385e-06,
+      "loss": 0.0426,
+      "step": 3730
+    },
+    {
+      "epoch": 49.14,
+      "learning_rate": 6.970378642209748e-06,
+      "loss": 0.0428,
+      "step": 3735
+    },
+    {
+      "epoch": 49.21,
+      "learning_rate": 1.446496105540648e-05,
+      "loss": 0.0409,
+      "step": 3740
+    },
+    {
+      "epoch": 49.28,
+      "learning_rate": 2.4263872282739523e-05,
+      "loss": 0.0452,
+      "step": 3745
+    },
+    {
+      "epoch": 49.34,
+      "learning_rate": 3.595000883765652e-05,
+      "loss": 0.0406,
+      "step": 3750
+    },
+    {
+      "epoch": 49.41,
+      "learning_rate": 4.902593501651078e-05,
+      "loss": 0.0424,
+      "step": 3755
+    },
+    {
+      "epoch": 49.47,
+      "learning_rate": 6.293505690059702e-05,
+      "loss": 0.0368,
+      "step": 3760
+    },
+    {
+      "epoch": 49.54,
+      "learning_rate": 7.708531450507785e-05,
+      "loss": 0.0432,
+      "step": 3765
+    },
+    {
+      "epoch": 49.61,
+      "learning_rate": 9.087438358744153e-05,
+      "loss": 0.0429,
+      "step": 3770
+    },
+    {
+      "epoch": 49.67,
+      "learning_rate": 0.00010371531436754655,
+      "loss": 0.0429,
+      "step": 3775
+    },
+    {
+      "epoch": 49.74,
+      "learning_rate": 0.00011506151581352551,
+      "loss": 0.0473,
+      "step": 3780
+    },
+    {
+      "epoch": 49.8,
+      "learning_rate": 0.0001244300220047349,
+      "loss": 0.041,
+      "step": 3785
+    },
+    {
+      "epoch": 49.87,
+      "learning_rate": 0.00013142205020853727,
+      "loss": 0.051,
+      "step": 3790
+    },
+    {
+      "epoch": 49.93,
+      "learning_rate": 0.0001357399755894562,
+      "loss": 0.0513,
+      "step": 3795
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 0.0001372,
+      "loss": 0.053,
+      "step": 3800
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 6.893409252166748,
+      "eval_runtime": 2.3737,
+      "eval_samples_per_second": 42.971,
+      "eval_steps_per_second": 5.477,
+      "step": 3800
     }
   ],
   "max_steps": 3800,
   "num_train_epochs": 50,
+  "total_flos": 3925912780800000.0,
   "trial_name": null,
   "trial_params": null
 }