Training in progress, step 30000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efef12e6736ac05b05123978b5a7ba02086375a879e1e08c05db35ff70c647a0
 size 100170757

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ef929787429c88c576570a6fdf928468aedd3cf5c685150c4d00c23ed2574b5
 size 100170757

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:669ff7fd28968817843d8d3e735a9f1604e6f86bd0620d14ba500c796ee6cb84
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b649041f4e942a1c71886ca3f83f11fc846bb4752950f41b84cd207e3cc556c
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17ed50c4af1d37fb0d41b85169a6f1f89705f404faa32f3817c74e84cd5180c1
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e521fc0b39ea1a8ce6e0a681bc8a834da87e83fd7cd3754aacc6c4b558e0937
 size 14439

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60920ec13686e98f9f0d129e472adaac1417d4bc756e4485725a87068a11e2f1
 size 246897640

 version https://git-lfs.github.com/spec/v1
+oid sha256:677543783c6139b35f47c70ebab6ad516807591d9ad24cec274ace85b8305217
 size 246897640

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08594757198109153,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -606,11 +606,311 @@
       "learning_rate": 0.0008149872553192515,
       "loss": 4.2065,
       "step": 20000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
-  "total_flos": 3.187659964416e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1289213579716373,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0008149872553192515,
       "loss": 4.2065,
       "step": 20000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008232037327492777,
+      "loss": 4.1773,
+      "step": 20200
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008314970061979818,
+      "loss": 4.1904,
+      "step": 20400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008398669301501703,
+      "loss": 4.1868,
+      "step": 20600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008483133577457148,
+      "loss": 4.2006,
+      "step": 20800
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008568361407821495,
+      "loss": 4.1467,
+      "step": 21000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008654351297172607,
+      "loss": 4.1585,
+      "step": 21200
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008741101736717116,
+      "loss": 4.1547,
+      "step": 21400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008828611204316911,
+      "loss": 4.1557,
+      "step": 21600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008916878164515838,
+      "loss": 4.1496,
+      "step": 21800
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0009005901068566691,
+      "loss": 4.1434,
+      "step": 22000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009095678354458306,
+      "loss": 4.1173,
+      "step": 22200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009186208446943008,
+      "loss": 4.1364,
+      "step": 22400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009277489757564244,
+      "loss": 4.1445,
+      "step": 22600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009369520684684475,
+      "loss": 4.1156,
+      "step": 22800
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009462299613513248,
+      "loss": 4.1033,
+      "step": 23000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009555824916135536,
+      "loss": 4.1187,
+      "step": 23200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009650094951540386,
+      "loss": 4.0823,
+      "step": 23400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009745108065649499,
+      "loss": 4.0624,
+      "step": 23600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009840862591346498,
+      "loss": 4.0845,
+      "step": 23800
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009937356848506058,
+      "loss": 4.0483,
+      "step": 24000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001003458914402332,
+      "loss": 4.0512,
+      "step": 24200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0010132557771843787,
+      "loss": 4.0606,
+      "step": 24400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0010231261012993067,
+      "loss": 4.046,
+      "step": 24600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0010330697135607168,
+      "loss": 4.0315,
+      "step": 24800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00104308643949628,
+      "loss": 4.0179,
+      "step": 25000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001053176103350803,
+      "loss": 4.0351,
+      "step": 25200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0010633385280893123,
+      "loss": 4.02,
+      "step": 25400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0010735735354001595,
+      "loss": 4.0201,
+      "step": 25600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0010838809456981471,
+      "loss": 4.0044,
+      "step": 25800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001094260578127686,
+      "loss": 3.9914,
+      "step": 26000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0011047122505659646,
+      "loss": 3.9991,
+      "step": 26200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0011152357796261423,
+      "loss": 4.0109,
+      "step": 26400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0011258309806605731,
+      "loss": 4.0405,
+      "step": 26600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0011364976677640387,
+      "loss": 4.0349,
+      "step": 26800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0011472356537770186,
+      "loss": 4.0312,
+      "step": 27000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0011580447502889633,
+      "loss": 4.0185,
+      "step": 27200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0011689247676416152,
+      "loss": 4.011,
+      "step": 27400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0011798755149323176,
+      "loss": 3.9898,
+      "step": 27600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001190896800017379,
+      "loss": 3.981,
+      "step": 27800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0012019884295154416,
+      "loss": 3.949,
+      "step": 28000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0012131502088108658,
+      "loss": 3.9896,
+      "step": 28200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0012243819420571598,
+      "loss": 3.9951,
+      "step": 28400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0012356834321804039,
+      "loss": 4.0361,
+      "step": 28600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0012470544808827113,
+      "loss": 4.1212,
+      "step": 28800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001258494888645708,
+      "loss": 4.0721,
+      "step": 29000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0012700044547340368,
+      "loss": 4.0311,
+      "step": 29200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0012815829771988738,
+      "loss": 4.0114,
+      "step": 29400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001293230252881479,
+      "loss": 3.9868,
+      "step": 29600
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0013049460774167514,
+      "loss": 3.9881,
+      "step": 29800
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0013167302452368242,
+      "loss": 3.9705,
+      "step": 30000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
+  "total_flos": 4.781489946624e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:669ff7fd28968817843d8d3e735a9f1604e6f86bd0620d14ba500c796ee6cb84
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b649041f4e942a1c71886ca3f83f11fc846bb4752950f41b84cd207e3cc556c
 size 146774203