Training in progress, step 120000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66a5ef622dbe8d56e7b956a8e46b2dc79895c2e55948ea096cb19b5071a69a55
 size 586828837

 version https://git-lfs.github.com/spec/v1
+oid sha256:05e2d269f333c96c29da8075e36a6de506892a84e8ab7a1d79c6b5baf653edf5
 size 586828837

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4ef7a37dd78952cbb4fc37873637ea684f070d1e44bde74352b791d0c661cd4
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cc943ae46672312ee4175b7b0df7b2bcb16bb1598452afd869122102f93e701
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e483b397451e40991ea9aa448be1d4addf388b682e3c225fd31dfc476ba76800
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf3e3ff5ca04195d00ae182843134a34efdb2e565df68413f5842b7a4a84c37b
 size 14503

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42dbbdc5cc13bd878c323aa5fdc58a0d0d735dc686a8a6a2c1206cf27279185b
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:17a6c740782a206d1a7821b1fbc9827af7a83dbc888bd997056c93056ef861be
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:645860789a54b6c41f5c11e77f6f0318ed7d04c0720af434b0a590d8b30f84c0
 size 733555848

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2812a708855da00be5c7a2b5b6519990cb027a8d82f04f202c74834685819f6
 size 733555848

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.47269742637737583,
-  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3306,11 +3306,311 @@
       "learning_rate": 0.003245247489550804,
       "loss": 8.6364,
       "step": 110000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
-  "total_flos": 1.7532129804288e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.51566991968441,
+  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.003245247489550804,
       "loss": 8.6364,
       "step": 110000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0032544335062216403,
+      "loss": 8.6422,
+      "step": 110200
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0032636280571558636,
+      "loss": 8.618,
+      "step": 110400
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.003272831102021408,
+      "loss": 8.6276,
+      "step": 110600
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.003282042600448948,
+      "loss": 8.6454,
+      "step": 110800
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0032912625120320753,
+      "loss": 8.6388,
+      "step": 111000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0033004907963274733,
+      "loss": 8.6339,
+      "step": 111200
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.003309727412855108,
+      "loss": 8.6243,
+      "step": 111400
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0033189723210983865,
+      "loss": 8.6264,
+      "step": 111600
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0033282254805043487,
+      "loss": 8.6401,
+      "step": 111800
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.003337440523277331,
+      "loss": 8.6366,
+      "step": 112000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0033467100224565524,
+      "loss": 8.6338,
+      "step": 112200
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.003355987651126521,
+      "loss": 8.6377,
+      "step": 112400
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0033652733685907424,
+      "loss": 8.6414,
+      "step": 112600
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0033745671341172496,
+      "loss": 8.6264,
+      "step": 112800
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0033838689069387654,
+      "loss": 8.6289,
+      "step": 113000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00339317864625289,
+      "loss": 8.6244,
+      "step": 113200
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.003402496311222283,
+      "loss": 8.6287,
+      "step": 113400
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0034118218609748346,
+      "loss": 8.6251,
+      "step": 113600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.003421155254603846,
+      "loss": 8.6214,
+      "step": 113800
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0034304964511682147,
+      "loss": 8.6303,
+      "step": 114000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0034398454096926092,
+      "loss": 8.6369,
+      "step": 114200
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.003449202089167651,
+      "loss": 8.6236,
+      "step": 114400
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0034585196077173436,
+      "loss": 8.6251,
+      "step": 114600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.003467891567838331,
+      "loss": 8.6295,
+      "step": 114800
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.003477271125884973,
+      "loss": 8.6219,
+      "step": 115000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0034866582407136653,
+      "loss": 8.6271,
+      "step": 115200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.003496052871147656,
+      "loss": 8.6372,
+      "step": 115400
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035054549759772242,
+      "loss": 8.6238,
+      "step": 115600
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035148645139598637,
+      "loss": 8.6207,
+      "step": 115800
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035242814438204637,
+      "loss": 8.6099,
+      "step": 116000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035337057242514833,
+      "loss": 8.6142,
+      "step": 116200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035431373139131472,
+      "loss": 8.6033,
+      "step": 116400
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035525761714336104,
+      "loss": 8.6178,
+      "step": 116600
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035619750070819923,
+      "loss": 8.6138,
+      "step": 116800
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035714282402552104,
+      "loss": 8.6143,
+      "step": 117000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035808886171885554,
+      "loss": 8.6034,
+      "step": 117200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0035903560963839124,
+      "loss": 8.6156,
+      "step": 117400
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0035998306363120057,
+      "loss": 8.6148,
+      "step": 117600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0036093121954125906,
+      "loss": 8.6039,
+      "step": 117800
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.003618800732094636,
+      "loss": 8.6107,
+      "step": 118000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0036282962047364973,
+      "loss": 8.6094,
+      "step": 118200
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0036377985716861084,
+      "loss": 8.616,
+      "step": 118400
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.003647307791261164,
+      "loss": 8.6135,
+      "step": 118600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.003656823821749292,
+      "loss": 8.6062,
+      "step": 118800
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0036662989906407328,
+      "loss": 8.6029,
+      "step": 119000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0036758284841655496,
+      "loss": 8.6011,
+      "step": 119200
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0036853646634968946,
+      "loss": 8.5993,
+      "step": 119400
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.003694907486804143,
+      "loss": 8.6029,
+      "step": 119600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00370445691222752,
+      "loss": 8.6018,
+      "step": 119800
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.003714012897878298,
+      "loss": 8.5978,
+      "step": 120000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
+  "total_flos": 1.9125959786496e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4ef7a37dd78952cbb4fc37873637ea684f070d1e44bde74352b791d0c661cd4
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cc943ae46672312ee4175b7b0df7b2bcb16bb1598452afd869122102f93e701
 size 146774203