Training in progress, step 70000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +2 -2
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ceedefb856fd84795e75aee417a2889e7dfef00f9cca82e610fbafac5203514
-size 100170757

 version https://git-lfs.github.com/spec/v1
+oid sha256:3eb55ec1aacbfeebe119e515b71d01fac6a80c1dc916333ed52358ff9464626e
+size 100172997

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c51f436fc6ff7c66c8286fca81fd6d00dc485176f29ebe17de85db28a4fa91b5
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:e319b3e22d458ba27ff2a2eb8537fae27cd2f8bcba6cd5bc802fb4266dab1c01
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff9803e49c54da5b93ea63a8f9cfb55e640978474df5d52e215ba5da04a71f90
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b63f7cf635c5cd7e0a6a99be90b9c9040bc4b142713e70d6ed808fdd72cc930
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e429486456e317e2d30183574218e6d221698c823284eb9740704ef563e5d5d
-size 246897640

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cce12b461956f7f82f9c60078f067ba7f5af96b281245752bc9e8d8eb78bb3a
+size 246899880

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2578427159432746,
-  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1806,11 +1806,311 @@
       "learning_rate": 0.0003716756671558975,
       "loss": 3.3157,
       "step": 60000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
-  "total_flos": 9.562979893248e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.30081650193382037,
+  "global_step": 70000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0003716756671558975,
       "loss": 3.3157,
       "step": 60000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003735891933646703,
+      "loss": 3.2991,
+      "step": 60200
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037550528852259106,
+      "loss": 3.2628,
+      "step": 60400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037742391900952516,
+      "loss": 3.2928,
+      "step": 60600
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003793450511608526,
+      "loss": 3.2828,
+      "step": 60800
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00038126865126805905,
+      "loss": 3.2863,
+      "step": 61000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003831946855793267,
+      "loss": 3.2951,
+      "step": 61200
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00038512312030012676,
+      "loss": 3.2583,
+      "step": 61400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003870539215938128,
+      "loss": 3.2872,
+      "step": 61600
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00038898705558221367,
+      "loss": 3.2748,
+      "step": 61800
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00039092248834622883,
+      "loss": 3.3026,
+      "step": 62000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00039286018592642224,
+      "loss": 3.2734,
+      "step": 62200
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00039480011432362007,
+      "loss": 3.2849,
+      "step": 62400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00039674223949950514,
+      "loss": 3.2889,
+      "step": 62600
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003986865273772159,
+      "loss": 3.2938,
+      "step": 62800
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00040063294384194367,
+      "loss": 3.2755,
+      "step": 63000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0004025814547415307,
+      "loss": 3.2774,
+      "step": 63200
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00040453202588707036,
+      "loss": 3.2819,
+      "step": 63400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0004064846230535067,
+      "loss": 3.2867,
+      "step": 63600
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00040843921198023417,
+      "loss": 3.2856,
+      "step": 63800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0004103957583717001,
+      "loss": 3.2932,
+      "step": 64000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0004123542278980058,
+      "loss": 3.272,
+      "step": 64200
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00041431458619550874,
+      "loss": 3.2697,
+      "step": 64400
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00041627679886742527,
+      "loss": 3.276,
+      "step": 64600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0004182408314844355,
+      "loss": 3.2732,
+      "step": 64800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00042020664958528574,
+      "loss": 3.2535,
+      "step": 65000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0004221742186773941,
+      "loss": 3.2791,
+      "step": 65200
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0004241435042374555,
+      "loss": 3.2718,
+      "step": 65400
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0004261144717120477,
+      "loss": 3.2672,
+      "step": 65600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00042808708651823654,
+      "loss": 3.2555,
+      "step": 65800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00043006131404418424,
+      "loss": 3.2717,
+      "step": 66000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00043203711964975595,
+      "loss": 3.2497,
+      "step": 66200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00043401446866712684,
+      "loss": 3.2525,
+      "step": 66400
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000435993326401392,
+      "loss": 3.2523,
+      "step": 66600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004379736581311737,
+      "loss": 3.2431,
+      "step": 66800
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00043995542910923167,
+      "loss": 3.2571,
+      "step": 67000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004419386045630716,
+      "loss": 3.2445,
+      "step": 67200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004439231496955571,
+      "loss": 3.2508,
+      "step": 67400
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00044590902968551834,
+      "loss": 3.2435,
+      "step": 67600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00044789620968836404,
+      "loss": 3.2436,
+      "step": 67800
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004498846548366927,
+      "loss": 3.2533,
+      "step": 68000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004518743302409047,
+      "loss": 3.2523,
+      "step": 68200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00045386520098981335,
+      "loss": 3.2284,
+      "step": 68400
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004558572321512592,
+      "loss": 3.2285,
+      "step": 68600
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00045785038877272114,
+      "loss": 3.2395,
+      "step": 68800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00045984463588193104,
+      "loss": 3.2592,
+      "step": 69000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00046183993848748675,
+      "loss": 3.2478,
+      "step": 69200
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004638362615794662,
+      "loss": 3.2303,
+      "step": 69400
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00046583357013004194,
+      "loss": 3.242,
+      "step": 69600
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00046783182909409496,
+      "loss": 3.2582,
+      "step": 69800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00046983100340983056,
+      "loss": 3.2461,
+      "step": 70000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
+  "total_flos": 1.1156809875456e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c51f436fc6ff7c66c8286fca81fd6d00dc485176f29ebe17de85db28a4fa91b5
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:e319b3e22d458ba27ff2a2eb8537fae27cd2f8bcba6cd5bc802fb4266dab1c01
 size 146774203