Training in progress, step 80000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3eb55ec1aacbfeebe119e515b71d01fac6a80c1dc916333ed52358ff9464626e
 size 100172997

 version https://git-lfs.github.com/spec/v1
+oid sha256:61757e92d02b06dda1da003da57fa0b18bc1cc2b413fc514841b017d0d63c3c8
 size 100172997

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e319b3e22d458ba27ff2a2eb8537fae27cd2f8bcba6cd5bc802fb4266dab1c01
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:81a90871ae24751a566fb99821bee5e29d062c303c164fcd6aeac08948cab240
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b63f7cf635c5cd7e0a6a99be90b9c9040bc4b142713e70d6ed808fdd72cc930
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7978600af4170dc4592efcab1d33d1582d45b26dc998a10a280a81e23e422deb
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cce12b461956f7f82f9c60078f067ba7f5af96b281245752bc9e8d8eb78bb3a
 size 246899880

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7331ea7e49edb5d8c1485934eca953ca913987924fdd220c26d2fc895357dc9
 size 246899880

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.30081650193382037,
-  "global_step": 70000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2106,11 +2106,311 @@
       "learning_rate": 0.00046983100340983056,
       "loss": 3.2461,
       "step": 70000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
-  "total_flos": 1.1156809875456e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3437902879243661,
+  "global_step": 80000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00046983100340983056,
       "loss": 3.2461,
       "step": 70000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00047183105799939297,
+      "loss": 3.2495,
+      "step": 70200
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004738319577694809,
+      "loss": 3.2325,
+      "step": 70400
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004758336676119636,
+      "loss": 3.2335,
+      "step": 70600
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004778361524044967,
+      "loss": 3.2499,
+      "step": 70800
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00047983937701113794,
+      "loss": 3.2323,
+      "step": 71000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00048184330628296484,
+      "loss": 3.221,
+      "step": 71200
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004838479050586898,
+      "loss": 3.2344,
+      "step": 71400
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004858531381652792,
+      "loss": 3.241,
+      "step": 71600
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004878589704185682,
+      "loss": 3.2434,
+      "step": 71800
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00048986536662388,
+      "loss": 3.2375,
+      "step": 72000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004918722915766426,
+      "loss": 3.2237,
+      "step": 72200
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004938797100630057,
+      "loss": 3.2665,
+      "step": 72400
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004958875868604602,
+      "loss": 3.218,
+      "step": 72600
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004978958867384551,
+      "loss": 3.2474,
+      "step": 72800
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000499904574459016,
+      "loss": 3.2423,
+      "step": 73000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000501913614777363,
+      "loss": 3.2288,
+      "step": 73200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005039229724425303,
+      "loss": 3.2148,
+      "step": 73400
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005059326121979831,
+      "loss": 3.2383,
+      "step": 73600
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005079424987822374,
+      "loss": 3.236,
+      "step": 73800
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005099525969294778,
+      "loss": 3.2231,
+      "step": 74000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005119628713701773,
+      "loss": 3.2215,
+      "step": 74200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005139732868317155,
+      "loss": 3.227,
+      "step": 74400
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005159838080389977,
+      "loss": 3.2006,
+      "step": 74600
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005179943997150736,
+      "loss": 3.2426,
+      "step": 74800
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005200050265817561,
+      "loss": 3.2194,
+      "step": 75000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005220156533602416,
+      "loss": 3.223,
+      "step": 75200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005240262447717271,
+      "loss": 3.224,
+      "step": 75400
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005260367655380307,
+      "loss": 3.2138,
+      "step": 75600
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005280471803822096,
+      "loss": 3.2123,
+      "step": 75800
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005300574540291803,
+      "loss": 3.2208,
+      "step": 76000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.000532067551206336,
+      "loss": 3.2199,
+      "step": 76200
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005340774366441665,
+      "loss": 3.2367,
+      "step": 76400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005360870750768769,
+      "loss": 3.21,
+      "step": 76600
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005380964312430063,
+      "loss": 3.2221,
+      "step": 76800
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005401054698860466,
+      "loss": 3.2021,
+      "step": 77000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005421141557550603,
+      "loss": 3.2352,
+      "step": 77200
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005441224536053012,
+      "loss": 3.1962,
+      "step": 77400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005461303281988298,
+      "loss": 3.2127,
+      "step": 77600
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.000548137744305134,
+      "loss": 3.2307,
+      "step": 77800
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005501446667017461,
+      "loss": 3.2053,
+      "step": 78000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005521510601748613,
+      "loss": 3.1936,
+      "step": 78200
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005541568895199552,
+      "loss": 3.2019,
+      "step": 78400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005561621195424016,
+      "loss": 3.203,
+      "step": 78600
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005581667150580907,
+      "loss": 3.2125,
+      "step": 78800
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005601706408940451,
+      "loss": 3.2205,
+      "step": 79000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005621738618890382,
+      "loss": 3.2215,
+      "step": 79200
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005641763428942106,
+      "loss": 3.2052,
+      "step": 79400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005661780487736866,
+      "loss": 3.2249,
+      "step": 79600
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005681789444051913,
+      "loss": 3.1952,
+      "step": 79800
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005701789946806666,
+      "loss": 3.1995,
+      "step": 80000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
+  "total_flos": 1.2750639857664e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e319b3e22d458ba27ff2a2eb8537fae27cd2f8bcba6cd5bc802fb4266dab1c01
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:81a90871ae24751a566fb99821bee5e29d062c303c164fcd6aeac08948cab240
 size 146774203