Training in progress, step 1000000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +312 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e4514153040aa52acec0b23e5c2fbe78b6288537c483ca9a45d4dcaba2a25a8
 size 885330713

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e5a92f11128c60bae53e142b40413437208f5b8c48d647384f7155fa97b3238
 size 885330713

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41f76ab7c37d8cb8748fce3a12de59d4e1d441d259c2a6701a0e4742c0c1c2e5
 size 442678571

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b4259dfdc9d95d40bfcdd98b7cbe401b1f4e0ac89f3aee63b1c92426a50e86b
 size 442678571

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4801294808a210863b6ecf643fbd8e926b42895cf927e0548ceeb29ac4942a6e
 size 17563

 version https://git-lfs.github.com/spec/v1
+oid sha256:61a8c5011437bb6a4b42e3427dd3a9a6650136424f9f2781ff1ae4fc747298ec
 size 17563

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcaa11162b7c951c9bfa5282cd6dd6ff1417ab0e4a551347904767629ee02b1f
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1972554f4c7d872911a1ab4e0fd839fb51f0fb3051ee3a13ef5ecb7c7c14439
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a43de67cf39913c0f0a434773186e831fd0385b2a45f6452c82a19dcf8be8c48
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c62aba35c522b0e30aa960a3ecaac259d22e10553ef1443be4a8e96f7c73f8aa
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.339467,
-  "global_step": 950000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5877,11 +5877,320 @@
       "eval_samples_per_second": 501.78,
       "eval_steps_per_second": 1.004,
       "step": 950000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 6.401249364538294e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.389467,
+  "global_step": 1000000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 501.78,
       "eval_steps_per_second": 1.004,
       "step": 950000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 6.651113057525916e-07,
+      "loss": 0.899,
+      "step": 951000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 6.385277592210082e-07,
+      "loss": 0.8642,
+      "step": 952000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 6.124571418766378e-07,
+      "loss": 0.9313,
+      "step": 953000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.869518794409723e-07,
+      "loss": 0.9976,
+      "step": 954000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.619611892955956e-07,
+      "loss": 0.9632,
+      "step": 955000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 5.375353255232474e-07,
+      "loss": 0.833,
+      "step": 956000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 5.136256546577067e-07,
+      "loss": 0.8247,
+      "step": 957000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.902571588535909e-07,
+      "loss": 0.789,
+      "step": 958000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.674526502020382e-07,
+      "loss": 0.7219,
+      "step": 959000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.451667234591728e-07,
+      "loss": 0.8131,
+      "step": 960000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.234441936661282e-07,
+      "loss": 0.9334,
+      "step": 961000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.0224180986853655e-07,
+      "loss": 0.9777,
+      "step": 962000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.8160220819785095e-07,
+      "loss": 1.0358,
+      "step": 963000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.6148429387927175e-07,
+      "loss": 1.0623,
+      "step": 964000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.419285222713675e-07,
+      "loss": 1.0595,
+      "step": 965000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 3.228959565747369e-07,
+      "loss": 0.9013,
+      "step": 966000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 3.044248696072116e-07,
+      "loss": 0.9035,
+      "step": 967000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.86478484246272e-07,
+      "loss": 0.865,
+      "step": 968000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.690928890965172e-07,
+      "loss": 0.8449,
+      "step": 969000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.5223346831947934e-07,
+      "loss": 1.0131,
+      "step": 970000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.359180811469297e-07,
+      "loss": 1.0522,
+      "step": 971000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.2016240528467956e-07,
+      "loss": 1.0527,
+      "step": 972000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.0493507016841605e-07,
+      "loss": 1.0244,
+      "step": 973000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.902666966315303e-07,
+      "loss": 0.9939,
+      "step": 974000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.7612807899859974e-07,
+      "loss": 0.975,
+      "step": 975000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.6254764878778085e-07,
+      "loss": 0.8924,
+      "step": 976000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.4949836648880388e-07,
+      "loss": 0.8095,
+      "step": 977000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.3699424128894024e-07,
+      "loss": 0.7741,
+      "step": 978000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.2503540993129005e-07,
+      "loss": 0.7888,
+      "step": 979000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.1363314412082271e-07,
+      "loss": 0.8592,
+      "step": 980000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.0276474121272417e-07,
+      "loss": 0.8308,
+      "step": 981000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 9.245205661059241e-08,
+      "loss": 0.8657,
+      "step": 982000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 8.2674557095902e-08,
+      "loss": 0.9413,
+      "step": 983000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 7.345190436134352e-08,
+      "loss": 0.9376,
+      "step": 984000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 6.476573551197352e-08,
+      "loss": 0.8103,
+      "step": 985000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 5.6633517670373616e-08,
+      "loss": 0.8122,
+      "step": 986000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.903905906762374e-08,
+      "loss": 0.809,
+      "step": 987000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.1990856170864845e-08,
+      "loss": 0.7404,
+      "step": 988000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 3.549521501085562e-08,
+      "loss": 0.8188,
+      "step": 989000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 2.9539202348127794e-08,
+      "loss": 0.9535,
+      "step": 990000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 2.412965863871075e-08,
+      "loss": 0.9178,
+      "step": 991000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.9271233047113424e-08,
+      "loss": 0.9305,
+      "step": 992000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.4954252135407352e-08,
+      "loss": 0.938,
+      "step": 993000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.1187396973016962e-08,
+      "loss": 0.969,
+      "step": 994000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 7.963167508967528e-09,
+      "loss": 0.8864,
+      "step": 995000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 5.288047385498818e-09,
+      "loss": 0.8899,
+      "step": 996000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 3.156710266344343e-09,
+      "loss": 0.8701,
+      "step": 997000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.5721306152016724e-09,
+      "loss": 0.8305,
+      "step": 998000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 5.350904473455653e-10,
+      "loss": 0.961,
+      "step": 999000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.3524949094875254e-11,
+      "loss": 1.0488,
+      "step": 1000000
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 0.8387476162115661,
+      "eval_loss": 0.7079769372940063,
+      "eval_runtime": 10.2424,
+      "eval_samples_per_second": 488.169,
+      "eval_steps_per_second": 0.976,
+      "step": 1000000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 6.738157336654774e+19,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41f76ab7c37d8cb8748fce3a12de59d4e1d441d259c2a6701a0e4742c0c1c2e5
 size 442678571

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b4259dfdc9d95d40bfcdd98b7cbe401b1f4e0ac89f3aee63b1c92426a50e86b
 size 442678571