Training in progress, step 15000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a8af821523f7f828a05693158f90c4eb3a0034faa0c2293ad1124f5f93f2750
 size 487156538

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6597692baaaecd56cc3119530c69265f378d69e034a383c06ed9343d53fe0ea
 size 487156538

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91553bbc60905f9dec7e2b273a7b78b1aaa7bfa9c652a40341722951f2285fa2
 size 1059459406

 version https://git-lfs.github.com/spec/v1
+oid sha256:75301060d0614bae90398039500c97ff95194395b69fb1d587d503e800901639
 size 1059459406

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4523bbe94ce68cf422359680d501e02156c5a468572eaddf29b6fc30a80a5c85
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:58725715e3a81fd995f3eb6fcd80daea9b56d116fca9b35a744c99f27b82bcc1
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4775592d06656304b14fa76806a517bea34547605af51b0919af58d9e3ad34f6
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a83fee6b01b58aa2d91d3e7341c75d9a4ecceb467333bab32df1edbfad5b705
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cc0d600480a1d336ef5ed5d595520ccc7fd9075dda439dbae6adbb69ff279e7
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba3120a58a84b571dd9da9df7ca01c8edbdf1e3273712bd70e4eea91eb7a2a07
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2f1d1a83fbbd54a97f127d07293b97435077087576259edb01b1d629c65d3ad
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f845f06854dde41c169725cc192fbd9612a41feb786e9ebb38d8ffe1fdb6a40a
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf353f402a8187c44395ca6064b65c6f690bca29a45070f40a2616e51dfc5dd0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f1eef33864701acffbe1e463e988c61c385ad81d27a75b2f5773dcc59db84b1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.020738405749871125,
   "eval_steps": 500,
-  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4908,6 +4908,356 @@
       "learning_rate": 0.0004966664658166431,
       "loss": 18.6651,
       "step": 14000
     }
   ],
   "logging_steps": 20,
@@ -4927,7 +5277,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.1157911970490876e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.022219720446290493,
   "eval_steps": 500,
+  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0004966664658166431,
       "loss": 18.6651,
       "step": 14000
+    },
+    {
+      "epoch": 0.02076803204379951,
+      "grad_norm": 8.6875,
+      "learning_rate": 0.0004966615268816355,
+      "loss": 18.6887,
+      "step": 14020
+    },
+    {
+      "epoch": 0.0207976583377279,
+      "grad_norm": 8.5,
+      "learning_rate": 0.0004966565879466278,
+      "loss": 18.6563,
+      "step": 14040
+    },
+    {
+      "epoch": 0.020827284631656288,
+      "grad_norm": 7.4375,
+      "learning_rate": 0.0004966516490116204,
+      "loss": 18.6696,
+      "step": 14060
+    },
+    {
+      "epoch": 0.020856910925584674,
+      "grad_norm": 13.0,
+      "learning_rate": 0.0004966467100766127,
+      "loss": 18.7075,
+      "step": 14080
+    },
+    {
+      "epoch": 0.02088653721951306,
+      "grad_norm": 8.25,
+      "learning_rate": 0.0004966417711416051,
+      "loss": 18.7774,
+      "step": 14100
+    },
+    {
+      "epoch": 0.02091616351344145,
+      "grad_norm": 8.0625,
+      "learning_rate": 0.0004966368322065976,
+      "loss": 18.7288,
+      "step": 14120
+    },
+    {
+      "epoch": 0.020945789807369837,
+      "grad_norm": 6.9375,
+      "learning_rate": 0.00049663189327159,
+      "loss": 18.7008,
+      "step": 14140
+    },
+    {
+      "epoch": 0.020975416101298223,
+      "grad_norm": 8.25,
+      "learning_rate": 0.0004966269543365825,
+      "loss": 18.6659,
+      "step": 14160
+    },
+    {
+      "epoch": 0.02100504239522661,
+      "grad_norm": 7.625,
+      "learning_rate": 0.0004966220154015749,
+      "loss": 18.5981,
+      "step": 14180
+    },
+    {
+      "epoch": 0.021034668689155,
+      "grad_norm": 7.53125,
+      "learning_rate": 0.0004966170764665674,
+      "loss": 18.6925,
+      "step": 14200
+    },
+    {
+      "epoch": 0.021064294983083386,
+      "grad_norm": 8.125,
+      "learning_rate": 0.0004966121375315598,
+      "loss": 18.7061,
+      "step": 14220
+    },
+    {
+      "epoch": 0.021093921277011773,
+      "grad_norm": 10.3125,
+      "learning_rate": 0.0004966071985965522,
+      "loss": 18.6827,
+      "step": 14240
+    },
+    {
+      "epoch": 0.02112354757094016,
+      "grad_norm": 7.875,
+      "learning_rate": 0.0004966022596615446,
+      "loss": 18.6601,
+      "step": 14260
+    },
+    {
+      "epoch": 0.02115317386486855,
+      "grad_norm": 9.5625,
+      "learning_rate": 0.0004965973207265371,
+      "loss": 18.6155,
+      "step": 14280
+    },
+    {
+      "epoch": 0.021182800158796936,
+      "grad_norm": 9.375,
+      "learning_rate": 0.0004965923817915295,
+      "loss": 18.6963,
+      "step": 14300
+    },
+    {
+      "epoch": 0.021212426452725322,
+      "grad_norm": 7.34375,
+      "learning_rate": 0.000496587442856522,
+      "loss": 18.5988,
+      "step": 14320
+    },
+    {
+      "epoch": 0.02124205274665371,
+      "grad_norm": 7.78125,
+      "learning_rate": 0.0004965825039215144,
+      "loss": 18.6373,
+      "step": 14340
+    },
+    {
+      "epoch": 0.0212716790405821,
+      "grad_norm": 8.125,
+      "learning_rate": 0.0004965775649865069,
+      "loss": 18.6575,
+      "step": 14360
+    },
+    {
+      "epoch": 0.021301305334510485,
+      "grad_norm": 13.1875,
+      "learning_rate": 0.0004965726260514993,
+      "loss": 18.6643,
+      "step": 14380
+    },
+    {
+      "epoch": 0.02133093162843887,
+      "grad_norm": 8.25,
+      "learning_rate": 0.0004965676871164917,
+      "loss": 18.7713,
+      "step": 14400
+    },
+    {
+      "epoch": 0.021360557922367258,
+      "grad_norm": 7.8125,
+      "learning_rate": 0.0004965627481814841,
+      "loss": 18.66,
+      "step": 14420
+    },
+    {
+      "epoch": 0.021390184216295648,
+      "grad_norm": 7.40625,
+      "learning_rate": 0.0004965578092464766,
+      "loss": 18.6699,
+      "step": 14440
+    },
+    {
+      "epoch": 0.021419810510224034,
+      "grad_norm": 8.5625,
+      "learning_rate": 0.000496552870311469,
+      "loss": 18.617,
+      "step": 14460
+    },
+    {
+      "epoch": 0.02144943680415242,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.0004965479313764614,
+      "loss": 18.6727,
+      "step": 14480
+    },
+    {
+      "epoch": 0.021479063098080807,
+      "grad_norm": 7.5625,
+      "learning_rate": 0.0004965429924414539,
+      "loss": 18.5574,
+      "step": 14500
+    },
+    {
+      "epoch": 0.021508689392009197,
+      "grad_norm": 8.875,
+      "learning_rate": 0.0004965380535064463,
+      "loss": 18.7566,
+      "step": 14520
+    },
+    {
+      "epoch": 0.021538315685937583,
+      "grad_norm": 8.3125,
+      "learning_rate": 0.0004965331145714388,
+      "loss": 18.7108,
+      "step": 14540
+    },
+    {
+      "epoch": 0.02156794197986597,
+      "grad_norm": 7.09375,
+      "learning_rate": 0.0004965281756364312,
+      "loss": 18.5922,
+      "step": 14560
+    },
+    {
+      "epoch": 0.021597568273794356,
+      "grad_norm": 7.125,
+      "learning_rate": 0.0004965232367014237,
+      "loss": 18.6615,
+      "step": 14580
+    },
+    {
+      "epoch": 0.021627194567722746,
+      "grad_norm": 7.5625,
+      "learning_rate": 0.0004965182977664161,
+      "loss": 18.6649,
+      "step": 14600
+    },
+    {
+      "epoch": 0.021656820861651133,
+      "grad_norm": 8.3125,
+      "learning_rate": 0.0004965133588314085,
+      "loss": 18.7153,
+      "step": 14620
+    },
+    {
+      "epoch": 0.02168644715557952,
+      "grad_norm": 7.6875,
+      "learning_rate": 0.0004965084198964008,
+      "loss": 18.6446,
+      "step": 14640
+    },
+    {
+      "epoch": 0.021716073449507906,
+      "grad_norm": 6.90625,
+      "learning_rate": 0.0004965034809613934,
+      "loss": 18.6951,
+      "step": 14660
+    },
+    {
+      "epoch": 0.021745699743436295,
+      "grad_norm": 7.875,
+      "learning_rate": 0.0004964985420263857,
+      "loss": 18.6594,
+      "step": 14680
+    },
+    {
+      "epoch": 0.021775326037364682,
+      "grad_norm": 9.25,
+      "learning_rate": 0.0004964936030913782,
+      "loss": 18.6275,
+      "step": 14700
+    },
+    {
+      "epoch": 0.02180495233129307,
+      "grad_norm": 16.5,
+      "learning_rate": 0.0004964886641563706,
+      "loss": 18.6842,
+      "step": 14720
+    },
+    {
+      "epoch": 0.021834578625221458,
+      "grad_norm": 8.5625,
+      "learning_rate": 0.0004964837252213631,
+      "loss": 18.5828,
+      "step": 14740
+    },
+    {
+      "epoch": 0.021864204919149845,
+      "grad_norm": 8.0,
+      "learning_rate": 0.0004964787862863555,
+      "loss": 18.5667,
+      "step": 14760
+    },
+    {
+      "epoch": 0.02189383121307823,
+      "grad_norm": 7.8125,
+      "learning_rate": 0.0004964738473513479,
+      "loss": 18.575,
+      "step": 14780
+    },
+    {
+      "epoch": 0.021923457507006618,
+      "grad_norm": 14.8125,
+      "learning_rate": 0.0004964689084163404,
+      "loss": 18.5941,
+      "step": 14800
+    },
+    {
+      "epoch": 0.021953083800935008,
+      "grad_norm": 7.875,
+      "learning_rate": 0.0004964639694813328,
+      "loss": 18.5917,
+      "step": 14820
+    },
+    {
+      "epoch": 0.021982710094863394,
+      "grad_norm": 9.75,
+      "learning_rate": 0.0004964590305463252,
+      "loss": 18.6876,
+      "step": 14840
+    },
+    {
+      "epoch": 0.02201233638879178,
+      "grad_norm": 6.8125,
+      "learning_rate": 0.0004964540916113176,
+      "loss": 18.5439,
+      "step": 14860
+    },
+    {
+      "epoch": 0.022041962682720167,
+      "grad_norm": 7.96875,
+      "learning_rate": 0.0004964491526763101,
+      "loss": 18.5891,
+      "step": 14880
+    },
+    {
+      "epoch": 0.022071588976648557,
+      "grad_norm": 7.4375,
+      "learning_rate": 0.0004964442137413025,
+      "loss": 18.585,
+      "step": 14900
+    },
+    {
+      "epoch": 0.022101215270576943,
+      "grad_norm": 8.3125,
+      "learning_rate": 0.000496439274806295,
+      "loss": 18.6264,
+      "step": 14920
+    },
+    {
+      "epoch": 0.02213084156450533,
+      "grad_norm": 8.125,
+      "learning_rate": 0.0004964343358712874,
+      "loss": 18.6338,
+      "step": 14940
+    },
+    {
+      "epoch": 0.022160467858433716,
+      "grad_norm": 8.1875,
+      "learning_rate": 0.0004964293969362799,
+      "loss": 18.5912,
+      "step": 14960
+    },
+    {
+      "epoch": 0.022190094152362106,
+      "grad_norm": 7.6875,
+      "learning_rate": 0.0004964244580012723,
+      "loss": 18.6101,
+      "step": 14980
+    },
+    {
+      "epoch": 0.022219720446290493,
+      "grad_norm": 7.59375,
+      "learning_rate": 0.0004964195190662647,
+      "loss": 18.5823,
+      "step": 15000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 3.33834741124327e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null