new model

Browse files

Files changed (5) hide show

README.md +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
scheduler.pt +1 -1
trainer_state.json +423 -3

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 # Exo-Machina
 A deep language model, GPT-2, is trained on scientific manuscripts from NASA's Astrophysical Data System pertaining to extrasolar planets and the references therein. This pilot study uses the abstracts of each article as training data in order to explore correlations in scientific literature from a language perspective. A language model is a mathematical representation for an algorithm used to generate sequences in the same way a human would to form sentances. Each word or letter in a sentance is encoded to a numerical value (e.g. using word2vec) and is appended to a list forming sequences that represent up to a paragraph worth of text. The sequences are fed into the [GPT-2](https://openai.com/blog/better-language-models/) 117M model and trained for 500,000 steps with fine tuning. After training, the language model is used to generate new text from scratch and from user input.
-- ### [Browse some samples](https://pearsonkyle.github.io/Exo-Machina/)
 - ### [Train a model on Google Colab](https://colab.research.google.com/drive/1Pur0rFi5YVdn7axYRacXWFMic4NxRexV?usp=sharing)

 # Exo-Machina
 A deep language model, GPT-2, is trained on scientific manuscripts from NASA's Astrophysical Data System pertaining to extrasolar planets and the references therein. This pilot study uses the abstracts of each article as training data in order to explore correlations in scientific literature from a language perspective. A language model is a mathematical representation for an algorithm used to generate sequences in the same way a human would to form sentances. Each word or letter in a sentance is encoded to a numerical value (e.g. using word2vec) and is appended to a list forming sequences that represent up to a paragraph worth of text. The sequences are fed into the [GPT-2](https://openai.com/blog/better-language-models/) 117M model and trained for 500,000 steps with fine tuning. After training, the language model is used to generate new text from scratch and from user input.
+- ### [Browse samples](https://pearsonkyle.github.io/Exo-Machina/)
 - ### [Train a model on Google Colab](https://colab.research.google.com/drive/1Pur0rFi5YVdn7axYRacXWFMic4NxRexV?usp=sharing)

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a221bc4b1968eda415bba8c105db6a2b8b579edc18d1e3592730d101e8d80126
 size 995610991

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c30d157af2f57cabc3a5a2c810287a09033fbf373612568cef620f66f82e0f8
 size 995610991

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:221f869bcca2d877a6bdf0f9b7bf14aac02003800ac264f8b39100f9db2d1f1c
 size 510407951

 version https://git-lfs.github.com/spec/v1
+oid sha256:c305cbf33d44d65fd5ea0fb1a4d8c4aaeae0fd2dc88eb7ce4ffb2c5e954ecb93
 size 510407951

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4538d9d56412255e685cbe4b709f49c4c2ce0cf165b70b84bab6f912af923e07
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6149ede9fc96f56bbd7ff6a474936250fd17b0a96c98ce43da847600b309d96
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 63.36296576508417,
-  "global_step": 335000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2016,11 +2016,431 @@
       "learning_rate": 1.8318517117457917e-05,
       "loss": 1.382125,
       "step": 335000
     }
   ],
   "max_steps": 528700,
   "num_train_epochs": 100,
-  "total_flos": 512235918148829184,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 76.60298846226594,
+  "global_step": 405000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.8318517117457917e-05,
       "loss": 1.382125,
       "step": 335000
+    },
+    {
+      "epoch": 63.55210894647248,
+      "learning_rate": 1.8223945526763762e-05,
+      "loss": 1.3925,
+      "step": 336000
+    },
+    {
+      "epoch": 63.74125212786079,
+      "learning_rate": 1.8129373936069604e-05,
+      "loss": 1.3989375,
+      "step": 337000
+    },
+    {
+      "epoch": 63.9303953092491,
+      "learning_rate": 1.8034802345375452e-05,
+      "loss": 1.4040625,
+      "step": 338000
+    },
+    {
+      "epoch": 64.11953849063741,
+      "learning_rate": 1.7940230754681294e-05,
+      "loss": 1.3838125,
+      "step": 339000
+    },
+    {
+      "epoch": 64.30868167202573,
+      "learning_rate": 1.784565916398714e-05,
+      "loss": 1.3745625,
+      "step": 340000
+    },
+    {
+      "epoch": 64.49782485341403,
+      "learning_rate": 1.7751087573292984e-05,
+      "loss": 1.381875,
+      "step": 341000
+    },
+    {
+      "epoch": 64.68696803480235,
+      "learning_rate": 1.765651598259883e-05,
+      "loss": 1.3859375,
+      "step": 342000
+    },
+    {
+      "epoch": 64.87611121619065,
+      "learning_rate": 1.756194439190467e-05,
+      "loss": 1.4001875,
+      "step": 343000
+    },
+    {
+      "epoch": 65.06525439757897,
+      "learning_rate": 1.7467372801210516e-05,
+      "loss": 1.387,
+      "step": 344000
+    },
+    {
+      "epoch": 65.25439757896727,
+      "learning_rate": 1.737280121051636e-05,
+      "loss": 1.3645625,
+      "step": 345000
+    },
+    {
+      "epoch": 65.44354076035559,
+      "learning_rate": 1.7278229619822206e-05,
+      "loss": 1.373375,
+      "step": 346000
+    },
+    {
+      "epoch": 65.6326839417439,
+      "learning_rate": 1.7183658029128048e-05,
+      "loss": 1.384,
+      "step": 347000
+    },
+    {
+      "epoch": 65.82182712313221,
+      "learning_rate": 1.7089086438433897e-05,
+      "loss": 1.386875,
+      "step": 348000
+    },
+    {
+      "epoch": 66.01097030452053,
+      "learning_rate": 1.6994514847739738e-05,
+      "loss": 1.3924375,
+      "step": 349000
+    },
+    {
+      "epoch": 66.20011348590883,
+      "learning_rate": 1.6899943257045583e-05,
+      "loss": 1.357375,
+      "step": 350000
+    },
+    {
+      "epoch": 66.38925666729715,
+      "learning_rate": 1.680537166635143e-05,
+      "loss": 1.3655625,
+      "step": 351000
+    },
+    {
+      "epoch": 66.57839984868545,
+      "learning_rate": 1.6710800075657274e-05,
+      "loss": 1.3670625,
+      "step": 352000
+    },
+    {
+      "epoch": 66.76754303007377,
+      "learning_rate": 1.661622848496312e-05,
+      "loss": 1.3799375,
+      "step": 353000
+    },
+    {
+      "epoch": 66.95668621146207,
+      "learning_rate": 1.6521656894268964e-05,
+      "loss": 1.3880625,
+      "step": 354000
+    },
+    {
+      "epoch": 67.14582939285039,
+      "learning_rate": 1.642708530357481e-05,
+      "loss": 1.3585,
+      "step": 355000
+    },
+    {
+      "epoch": 67.3349725742387,
+      "learning_rate": 1.633251371288065e-05,
+      "loss": 1.3579375,
+      "step": 356000
+    },
+    {
+      "epoch": 67.52411575562701,
+      "learning_rate": 1.6237942122186496e-05,
+      "loss": 1.3641875,
+      "step": 357000
+    },
+    {
+      "epoch": 67.71325893701533,
+      "learning_rate": 1.614337053149234e-05,
+      "loss": 1.3701875,
+      "step": 358000
+    },
+    {
+      "epoch": 67.90240211840363,
+      "learning_rate": 1.6048798940798186e-05,
+      "loss": 1.375875,
+      "step": 359000
+    },
+    {
+      "epoch": 68.09154529979195,
+      "learning_rate": 1.5954227350104027e-05,
+      "loss": 1.359,
+      "step": 360000
+    },
+    {
+      "epoch": 68.28068848118025,
+      "learning_rate": 1.5859655759409876e-05,
+      "loss": 1.3483125,
+      "step": 361000
+    },
+    {
+      "epoch": 68.46983166256857,
+      "learning_rate": 1.5765084168715718e-05,
+      "loss": 1.3565,
+      "step": 362000
+    },
+    {
+      "epoch": 68.65897484395687,
+      "learning_rate": 1.5670512578021563e-05,
+      "loss": 1.362125,
+      "step": 363000
+    },
+    {
+      "epoch": 68.84811802534519,
+      "learning_rate": 1.5575940987327408e-05,
+      "loss": 1.36725,
+      "step": 364000
+    },
+    {
+      "epoch": 69.0372612067335,
+      "learning_rate": 1.5481369396633253e-05,
+      "loss": 1.3636875,
+      "step": 365000
+    },
+    {
+      "epoch": 69.22640438812181,
+      "learning_rate": 1.5386797805939095e-05,
+      "loss": 1.33725,
+      "step": 366000
+    },
+    {
+      "epoch": 69.41554756951012,
+      "learning_rate": 1.5292226215244943e-05,
+      "loss": 1.3505,
+      "step": 367000
+    },
+    {
+      "epoch": 69.60469075089843,
+      "learning_rate": 1.5197654624550786e-05,
+      "loss": 1.3563125,
+      "step": 368000
+    },
+    {
+      "epoch": 69.79383393228674,
+      "learning_rate": 1.510308303385663e-05,
+      "loss": 1.3588125,
+      "step": 369000
+    },
+    {
+      "epoch": 69.98297711367505,
+      "learning_rate": 1.5008511443162473e-05,
+      "loss": 1.369125,
+      "step": 370000
+    },
+    {
+      "epoch": 70.17212029506337,
+      "learning_rate": 1.491393985246832e-05,
+      "loss": 1.3346875,
+      "step": 371000
+    },
+    {
+      "epoch": 70.36126347645167,
+      "learning_rate": 1.4819368261774163e-05,
+      "loss": 1.338,
+      "step": 372000
+    },
+    {
+      "epoch": 70.55040665783999,
+      "learning_rate": 1.4724796671080007e-05,
+      "loss": 1.3443125,
+      "step": 373000
+    },
+    {
+      "epoch": 70.73954983922829,
+      "learning_rate": 1.4630225080385854e-05,
+      "loss": 1.3544375,
+      "step": 374000
+    },
+    {
+      "epoch": 70.9286930206166,
+      "learning_rate": 1.4535653489691697e-05,
+      "loss": 1.3595625,
+      "step": 375000
+    },
+    {
+      "epoch": 71.11783620200492,
+      "learning_rate": 1.444108189899754e-05,
+      "loss": 1.343875,
+      "step": 376000
+    },
+    {
+      "epoch": 71.30697938339323,
+      "learning_rate": 1.4346510308303387e-05,
+      "loss": 1.332625,
+      "step": 377000
+    },
+    {
+      "epoch": 71.49612256478154,
+      "learning_rate": 1.425193871760923e-05,
+      "loss": 1.3395625,
+      "step": 378000
+    },
+    {
+      "epoch": 71.68526574616985,
+      "learning_rate": 1.4157367126915074e-05,
+      "loss": 1.344125,
+      "step": 379000
+    },
+    {
+      "epoch": 71.87440892755816,
+      "learning_rate": 1.406279553622092e-05,
+      "loss": 1.3505625,
+      "step": 380000
+    },
+    {
+      "epoch": 72.06355210894647,
+      "learning_rate": 1.3968223945526764e-05,
+      "loss": 1.3428125,
+      "step": 381000
+    },
+    {
+      "epoch": 72.25269529033478,
+      "learning_rate": 1.387365235483261e-05,
+      "loss": 1.324875,
+      "step": 382000
+    },
+    {
+      "epoch": 72.44183847172309,
+      "learning_rate": 1.3779080764138453e-05,
+      "loss": 1.332125,
+      "step": 383000
+    },
+    {
+      "epoch": 72.6309816531114,
+      "learning_rate": 1.36845091734443e-05,
+      "loss": 1.339,
+      "step": 384000
+    },
+    {
+      "epoch": 72.82012483449972,
+      "learning_rate": 1.3589937582750143e-05,
+      "loss": 1.3420625,
+      "step": 385000
+    },
+    {
+      "epoch": 73.00926801588803,
+      "learning_rate": 1.3495365992055986e-05,
+      "loss": 1.342875,
+      "step": 386000
+    },
+    {
+      "epoch": 73.19841119727634,
+      "learning_rate": 1.3400794401361833e-05,
+      "loss": 1.3198125,
+      "step": 387000
+    },
+    {
+      "epoch": 73.38755437866465,
+      "learning_rate": 1.3306222810667676e-05,
+      "loss": 1.3253125,
+      "step": 388000
+    },
+    {
+      "epoch": 73.57669756005296,
+      "learning_rate": 1.321165121997352e-05,
+      "loss": 1.328875,
+      "step": 389000
+    },
+    {
+      "epoch": 73.76584074144127,
+      "learning_rate": 1.3117079629279367e-05,
+      "loss": 1.335875,
+      "step": 390000
+    },
+    {
+      "epoch": 73.95498392282958,
+      "learning_rate": 1.302250803858521e-05,
+      "loss": 1.3428125,
+      "step": 391000
+    },
+    {
+      "epoch": 74.14412710421789,
+      "learning_rate": 1.2927936447891053e-05,
+      "loss": 1.3216875,
+      "step": 392000
+    },
+    {
+      "epoch": 74.3332702856062,
+      "learning_rate": 1.2833364857196897e-05,
+      "loss": 1.3190625,
+      "step": 393000
+    },
+    {
+      "epoch": 74.52241346699452,
+      "learning_rate": 1.2738793266502744e-05,
+      "loss": 1.3250625,
+      "step": 394000
+    },
+    {
+      "epoch": 74.71155664838282,
+      "learning_rate": 1.2644221675808587e-05,
+      "loss": 1.3285625,
+      "step": 395000
+    },
+    {
+      "epoch": 74.90069982977114,
+      "learning_rate": 1.254965008511443e-05,
+      "loss": 1.3365625,
+      "step": 396000
+    },
+    {
+      "epoch": 75.08984301115945,
+      "learning_rate": 1.2455078494420275e-05,
+      "loss": 1.3183125,
+      "step": 397000
+    },
+    {
+      "epoch": 75.27898619254776,
+      "learning_rate": 1.236050690372612e-05,
+      "loss": 1.309375,
+      "step": 398000
+    },
+    {
+      "epoch": 75.46812937393607,
+      "learning_rate": 1.2265935313031966e-05,
+      "loss": 1.31425,
+      "step": 399000
+    },
+    {
+      "epoch": 75.65727255532438,
+      "learning_rate": 1.217136372233781e-05,
+      "loss": 1.32575,
+      "step": 400000
+    },
+    {
+      "epoch": 75.84641573671269,
+      "learning_rate": 1.2076792131643656e-05,
+      "loss": 1.330375,
+      "step": 401000
+    },
+    {
+      "epoch": 76.035558918101,
+      "learning_rate": 1.1982220540949501e-05,
+      "loss": 1.3319375,
+      "step": 402000
+    },
+    {
+      "epoch": 76.22470209948932,
+      "learning_rate": 1.1887648950255344e-05,
+      "loss": 1.2995625,
+      "step": 403000
+    },
+    {
+      "epoch": 76.41384528087762,
+      "learning_rate": 1.179307735956119e-05,
+      "loss": 1.309,
+      "step": 404000
+    },
+    {
+      "epoch": 76.60298846226594,
+      "learning_rate": 1.1698505768867033e-05,
+      "loss": 1.3225,
+      "step": 405000
     }
   ],
   "max_steps": 528700,
   "num_train_epochs": 100,
+  "total_flos": 619270336176979968,
   "trial_name": null,
   "trial_params": null
 }