pcalhoun
/

gpt-j-6b-limericks-finetuned

Text Generation

Transformers

PyTorch

gptj

Inference Endpoints

Model card Files Files and versions Community

Ubuntu commited on Feb 18, 2023

Commit

780df45

•

1 Parent(s): cc48966

step 3180

Browse files

Files changed (2) hide show

pytorch_model.bin +1 -1
trainer_state.json +629 -3

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:188b012cec3039d8440f0980b517a0c0e7c8993f8a4f07b2854d3b2f700b2494
 size 24673403925

 version https://git-lfs.github.com/spec/v1
+oid sha256:f045975060d8226ff3daf019b77d5f576d821becbdcceea3e81eb46457d6ff70
 size 24673403925

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.12664021971315229,
-  "global_step": 1660,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -688,11 +688,637 @@
       "eval_samples_per_second": 8.622,
       "eval_steps_per_second": 0.386,
       "step": 1660
     }
   ],
   "max_steps": 13108,
   "num_train_epochs": 1,
-  "total_flos": 24131860955136.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.24259993896856882,
+  "global_step": 3180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.622,
       "eval_steps_per_second": 0.386,
       "step": 1660
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1107728481292725,
+      "eval_runtime": 35.8293,
+      "eval_samples_per_second": 8.736,
+      "eval_steps_per_second": 0.391,
+      "step": 1680
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1059305667877197,
+      "eval_runtime": 38.1951,
+      "eval_samples_per_second": 8.195,
+      "eval_steps_per_second": 0.367,
+      "step": 1700
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.109574794769287,
+      "eval_runtime": 36.6746,
+      "eval_samples_per_second": 8.535,
+      "eval_steps_per_second": 0.382,
+      "step": 1720
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1008386611938477,
+      "eval_runtime": 38.8587,
+      "eval_samples_per_second": 8.055,
+      "eval_steps_per_second": 0.36,
+      "step": 1740
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1023361682891846,
+      "eval_runtime": 35.8353,
+      "eval_samples_per_second": 8.734,
+      "eval_steps_per_second": 0.391,
+      "step": 1760
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.1008386611938477,
+      "eval_runtime": 36.6886,
+      "eval_samples_per_second": 8.531,
+      "eval_steps_per_second": 0.382,
+      "step": 1780
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.093350648880005,
+      "eval_runtime": 38.2167,
+      "eval_samples_per_second": 8.19,
+      "eval_steps_per_second": 0.366,
+      "step": 1800
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.1041831970214844,
+      "eval_runtime": 36.3105,
+      "eval_samples_per_second": 8.62,
+      "eval_steps_per_second": 0.386,
+      "step": 1820
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.0942492485046387,
+      "eval_runtime": 37.4668,
+      "eval_samples_per_second": 8.354,
+      "eval_steps_per_second": 0.374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.0858376026153564,
+      "eval_runtime": 36.0576,
+      "eval_samples_per_second": 8.681,
+      "eval_steps_per_second": 0.388,
+      "step": 1860
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.1020865440368652,
+      "eval_runtime": 37.7141,
+      "eval_samples_per_second": 8.299,
+      "eval_steps_per_second": 0.371,
+      "step": 1880
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.1026856899261475,
+      "eval_runtime": 35.4823,
+      "eval_samples_per_second": 8.821,
+      "eval_steps_per_second": 0.395,
+      "step": 1900
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0936501026153564,
+      "eval_runtime": 37.4147,
+      "eval_samples_per_second": 8.366,
+      "eval_steps_per_second": 0.374,
+      "step": 1920
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0930511951446533,
+      "eval_runtime": 37.4908,
+      "eval_samples_per_second": 8.349,
+      "eval_steps_per_second": 0.373,
+      "step": 1940
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0927765369415283,
+      "eval_runtime": 35.6866,
+      "eval_samples_per_second": 8.771,
+      "eval_steps_per_second": 0.392,
+      "step": 1960
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0972445011138916,
+      "eval_runtime": 36.708,
+      "eval_samples_per_second": 8.527,
+      "eval_steps_per_second": 0.381,
+      "step": 1980
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 5e-05,
+      "loss": 1.9023,
+      "step": 2000
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0981428623199463,
+      "eval_runtime": 37.7854,
+      "eval_samples_per_second": 8.284,
+      "eval_steps_per_second": 0.371,
+      "step": 2000
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0930511951446533,
+      "eval_runtime": 35.9143,
+      "eval_samples_per_second": 8.715,
+      "eval_steps_per_second": 0.39,
+      "step": 2020
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0959465503692627,
+      "eval_runtime": 36.7602,
+      "eval_samples_per_second": 8.515,
+      "eval_steps_per_second": 0.381,
+      "step": 2040
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.094498872756958,
+      "eval_runtime": 35.6393,
+      "eval_samples_per_second": 8.782,
+      "eval_steps_per_second": 0.393,
+      "step": 2060
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.10168719291687,
+      "eval_runtime": 36.6139,
+      "eval_samples_per_second": 8.549,
+      "eval_steps_per_second": 0.382,
+      "step": 2080
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.089132308959961,
+      "eval_runtime": 37.1222,
+      "eval_samples_per_second": 8.432,
+      "eval_steps_per_second": 0.377,
+      "step": 2100
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0930261611938477,
+      "eval_runtime": 36.6415,
+      "eval_samples_per_second": 8.542,
+      "eval_steps_per_second": 0.382,
+      "step": 2120
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0837409496307373,
+      "eval_runtime": 35.3492,
+      "eval_samples_per_second": 8.855,
+      "eval_steps_per_second": 0.396,
+      "step": 2140
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0924770832061768,
+      "eval_runtime": 35.8577,
+      "eval_samples_per_second": 8.729,
+      "eval_steps_per_second": 0.39,
+      "step": 2160
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0876598358154297,
+      "eval_runtime": 36.7333,
+      "eval_samples_per_second": 8.521,
+      "eval_steps_per_second": 0.381,
+      "step": 2180
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0903303623199463,
+      "eval_runtime": 36.5753,
+      "eval_samples_per_second": 8.558,
+      "eval_steps_per_second": 0.383,
+      "step": 2200
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0882089138031006,
+      "eval_runtime": 37.2231,
+      "eval_samples_per_second": 8.409,
+      "eval_steps_per_second": 0.376,
+      "step": 2220
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0914785861968994,
+      "eval_runtime": 35.3728,
+      "eval_samples_per_second": 8.849,
+      "eval_steps_per_second": 0.396,
+      "step": 2240
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.092726707458496,
+      "eval_runtime": 40.8988,
+      "eval_samples_per_second": 7.653,
+      "eval_steps_per_second": 0.342,
+      "step": 2260
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.092102527618408,
+      "eval_runtime": 38.6861,
+      "eval_samples_per_second": 8.091,
+      "eval_steps_per_second": 0.362,
+      "step": 2280
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0902554988861084,
+      "eval_runtime": 37.1228,
+      "eval_samples_per_second": 8.431,
+      "eval_steps_per_second": 0.377,
+      "step": 2300
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.1011133193969727,
+      "eval_runtime": 38.2059,
+      "eval_samples_per_second": 8.192,
+      "eval_steps_per_second": 0.366,
+      "step": 2320
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0915534496307373,
+      "eval_runtime": 37.7371,
+      "eval_samples_per_second": 8.294,
+      "eval_steps_per_second": 0.371,
+      "step": 2340
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.084639549255371,
+      "eval_runtime": 37.4914,
+      "eval_samples_per_second": 8.349,
+      "eval_steps_per_second": 0.373,
+      "step": 2360
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0891075134277344,
+      "eval_runtime": 37.0809,
+      "eval_samples_per_second": 8.441,
+      "eval_steps_per_second": 0.378,
+      "step": 2380
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.080421209335327,
+      "eval_runtime": 38.2834,
+      "eval_samples_per_second": 8.176,
+      "eval_steps_per_second": 0.366,
+      "step": 2400
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0774011611938477,
+      "eval_runtime": 36.0821,
+      "eval_samples_per_second": 8.675,
+      "eval_steps_per_second": 0.388,
+      "step": 2420
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.074655532836914,
+      "eval_runtime": 38.4174,
+      "eval_samples_per_second": 8.147,
+      "eval_steps_per_second": 0.364,
+      "step": 2440
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.0918281078338623,
+      "eval_runtime": 37.5135,
+      "eval_samples_per_second": 8.344,
+      "eval_steps_per_second": 0.373,
+      "step": 2460
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.0866613388061523,
+      "eval_runtime": 37.8846,
+      "eval_samples_per_second": 8.262,
+      "eval_steps_per_second": 0.37,
+      "step": 2480
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 5e-05,
+      "loss": 1.8656,
+      "step": 2500
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.0818939208984375,
+      "eval_runtime": 37.1254,
+      "eval_samples_per_second": 8.431,
+      "eval_steps_per_second": 0.377,
+      "step": 2500
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.082193374633789,
+      "eval_runtime": 37.2165,
+      "eval_samples_per_second": 8.41,
+      "eval_steps_per_second": 0.376,
+      "step": 2520
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.078274726867676,
+      "eval_runtime": 38.1535,
+      "eval_samples_per_second": 8.204,
+      "eval_steps_per_second": 0.367,
+      "step": 2540
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.0924270153045654,
+      "eval_runtime": 37.0529,
+      "eval_samples_per_second": 8.447,
+      "eval_steps_per_second": 0.378,
+      "step": 2560
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.0776758193969727,
+      "eval_runtime": 38.2095,
+      "eval_samples_per_second": 8.192,
+      "eval_steps_per_second": 0.366,
+      "step": 2580
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.074331045150757,
+      "eval_runtime": 38.0087,
+      "eval_samples_per_second": 8.235,
+      "eval_steps_per_second": 0.368,
+      "step": 2600
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.0753045082092285,
+      "eval_runtime": 35.62,
+      "eval_samples_per_second": 8.787,
+      "eval_steps_per_second": 0.393,
+      "step": 2620
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.0662689208984375,
+      "eval_runtime": 42.1091,
+      "eval_samples_per_second": 7.433,
+      "eval_steps_per_second": 0.332,
+      "step": 2640
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.066293954849243,
+      "eval_runtime": 39.286,
+      "eval_samples_per_second": 7.967,
+      "eval_steps_per_second": 0.356,
+      "step": 2660
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.0750298500061035,
+      "eval_runtime": 37.7908,
+      "eval_samples_per_second": 8.282,
+      "eval_steps_per_second": 0.37,
+      "step": 2680
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.072883367538452,
+      "eval_runtime": 36.9744,
+      "eval_samples_per_second": 8.465,
+      "eval_steps_per_second": 0.379,
+      "step": 2700
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.0656700134277344,
+      "eval_runtime": 38.6743,
+      "eval_samples_per_second": 8.093,
+      "eval_steps_per_second": 0.362,
+      "step": 2720
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.061077356338501,
+      "eval_runtime": 37.2607,
+      "eval_samples_per_second": 8.4,
+      "eval_steps_per_second": 0.376,
+      "step": 2740
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.0596296787261963,
+      "eval_runtime": 38.4938,
+      "eval_samples_per_second": 8.131,
+      "eval_steps_per_second": 0.364,
+      "step": 2760
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.0695137977600098,
+      "eval_runtime": 38.4555,
+      "eval_samples_per_second": 8.139,
+      "eval_steps_per_second": 0.364,
+      "step": 2780
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.0653703212738037,
+      "eval_runtime": 40.8818,
+      "eval_samples_per_second": 7.656,
+      "eval_steps_per_second": 0.342,
+      "step": 2800
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.0632736682891846,
+      "eval_runtime": 37.3448,
+      "eval_samples_per_second": 8.381,
+      "eval_steps_per_second": 0.375,
+      "step": 2820
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.068690061569214,
+      "eval_runtime": 38.9945,
+      "eval_samples_per_second": 8.027,
+      "eval_steps_per_second": 0.359,
+      "step": 2840
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.0744807720184326,
+      "eval_runtime": 37.3809,
+      "eval_samples_per_second": 8.373,
+      "eval_steps_per_second": 0.375,
+      "step": 2860
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.068140983581543,
+      "eval_runtime": 37.0455,
+      "eval_samples_per_second": 8.449,
+      "eval_steps_per_second": 0.378,
+      "step": 2880
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.0711112022399902,
+      "eval_runtime": 36.5798,
+      "eval_samples_per_second": 8.557,
+      "eval_steps_per_second": 0.383,
+      "step": 2900
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.0659945011138916,
+      "eval_runtime": 37.3716,
+      "eval_samples_per_second": 8.375,
+      "eval_steps_per_second": 0.375,
+      "step": 2920
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.076228141784668,
+      "eval_runtime": 38.1126,
+      "eval_samples_per_second": 8.213,
+      "eval_steps_per_second": 0.367,
+      "step": 2940
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.072284460067749,
+      "eval_runtime": 37.7328,
+      "eval_samples_per_second": 8.295,
+      "eval_steps_per_second": 0.371,
+      "step": 2960
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.0797972679138184,
+      "eval_runtime": 39.3148,
+      "eval_samples_per_second": 7.961,
+      "eval_steps_per_second": 0.356,
+      "step": 2980
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 5e-05,
+      "loss": 1.8034,
+      "step": 3000
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.0818939208984375,
+      "eval_runtime": 37.1291,
+      "eval_samples_per_second": 8.43,
+      "eval_steps_per_second": 0.377,
+      "step": 3000
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.0645217895507812,
+      "eval_runtime": 38.134,
+      "eval_samples_per_second": 8.208,
+      "eval_steps_per_second": 0.367,
+      "step": 3020
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.0636231899261475,
+      "eval_runtime": 38.8835,
+      "eval_samples_per_second": 8.05,
+      "eval_steps_per_second": 0.36,
+      "step": 3040
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.0678415298461914,
+      "eval_runtime": 38.0811,
+      "eval_samples_per_second": 8.219,
+      "eval_steps_per_second": 0.368,
+      "step": 3060
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.0711112022399902,
+      "eval_runtime": 38.2925,
+      "eval_samples_per_second": 8.174,
+      "eval_steps_per_second": 0.366,
+      "step": 3080
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.063648223876953,
+      "eval_runtime": 37.5261,
+      "eval_samples_per_second": 8.341,
+      "eval_steps_per_second": 0.373,
+      "step": 3100
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.0624501705169678,
+      "eval_runtime": 37.6407,
+      "eval_samples_per_second": 8.315,
+      "eval_steps_per_second": 0.372,
+      "step": 3120
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.0669429302215576,
+      "eval_runtime": 36.2761,
+      "eval_samples_per_second": 8.628,
+      "eval_steps_per_second": 0.386,
+      "step": 3140
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.056734323501587,
+      "eval_runtime": 39.277,
+      "eval_samples_per_second": 7.969,
+      "eval_steps_per_second": 0.356,
+      "step": 3160
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.0456268787384033,
+      "eval_runtime": 37.5675,
+      "eval_samples_per_second": 8.332,
+      "eval_steps_per_second": 0.373,
+      "step": 3180
     }
   ],
   "max_steps": 13108,
   "num_train_epochs": 1,
+  "total_flos": 46808734629888.0,
   "trial_name": null,
   "trial_params": null
 }