Training in progress, step 348, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -4

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3720c9d7c3d147e3c6a4c31b748a401804a80a6f28683e7c9983f2e8c8a0f20a
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:df206f3b879f704bd24d474b4494d4527c95a2627aeee5322496bb015dc2e1ed
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3638a66f29f136c13174bee0dd43e693f5fc102e10bee4ca9b5d7060756ced7c
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7cd57b99d8cb0b28e877ada22b15f71a91fbb719fd88618a8834bfdc37a18a9
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59454dac3aeba9c46e0b8ed50eb871c1d98271ecbabd9754c8618cdc65584ad9
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bde4bd3a698c50b8bcc6d141f3a2dd9bc7cfa485ff7f655f8d648878900078a
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93ca40f1a301b546ff3c8e51d511eb49571367df816e5ac6c43d69b073ba1e35
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:3be417bebf8d699c301a1ed56e05bca215a475491b001651ee8b864cb7762cf1
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e305eb64bbd004a3712d4d0f3b65560d9c0d8b3920c2789be35be33fef333cd
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee8f344278ba1c8e1ca3a2e31d078c62dfed2ae5e3dbe234706a67121c9e5394
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16b6721393030c99c98218e1bcc44fa93cc347e7c920295cebba18bf69ebf311
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:2357908bc64768e845681e2bb008065d0f46e1ceec84ebf0b10e23d9502acec1
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9c2af98820448e537c2aa09618f8c2299b2ed8c9040abdad7cc23d455398738
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e67ddb3e8ee36e3dbf20aa58a6346f6498d44ac1adff04b53091aca883c6f52
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa8dfa614952af057b305d24646b204cdfa9b2fbf5610aa112de72f4d1903dd4
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:40237d4b55e93987e3e60ec247c712ac33d89cd732d545fb30a27bb79745517d
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6185843c50764de20922699c89193c33e1e13037719a5d55479aa190e715e4fc
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:269eae03847773cb4bd93a4517a905853bc54a68269b815c31577215fdc55d2d
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35e51ecf57078c2d652964726d8abc8157e10e9fdddf8cacb5700305b465147a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:d187c3af11ce3a881345c7efd9082ca0cb36a6949dfbe3343c996f42f2afc3e6
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebe10fe55b3a58ae13fa7a58fca8f2486fa82c4aa360522ee9cde43cc43ba473
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:344fb25f2c262f28ced1e24ddcd208e4806d9788cdec5b2a7f2397013b68c284
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcda73faaa8d5a9ab0a72d2fef1c1af0341c8e7f8ec0eede744acae39dd22f43
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:805247d87233bfa93147263830dc68344cf75f632c10a49edc8486147debfef7
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3e47edb1b664bc04c493b0996774157c1ffdb9f0b12df515a0b32829d748704
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d015d34b7739a1124fe31968c605ff2948a6a921eb3374a8e282b0787486605
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8620689655172413,
   "eval_steps": 20,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2299,6 +2299,366 @@
       "eval_samples_per_second": 6.275,
       "eval_steps_per_second": 0.237,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2313,12 +2673,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.46781682579538e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 20,
+  "global_step": 348,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.275,
       "eval_steps_per_second": 0.237,
       "step": 300
+    },
+    {
+      "epoch": 0.8649425287356322,
+      "grad_norm": 2.3745739459991455,
+      "learning_rate": 1.0922142398186097e-06,
+      "loss": 0.2735,
+      "step": 301
+    },
+    {
+      "epoch": 0.867816091954023,
+      "grad_norm": 3.9790706634521484,
+      "learning_rate": 1.0470516257959351e-06,
+      "loss": 0.2966,
+      "step": 302
+    },
+    {
+      "epoch": 0.8706896551724138,
+      "grad_norm": 2.3996686935424805,
+      "learning_rate": 1.00279094316854e-06,
+      "loss": 0.2725,
+      "step": 303
+    },
+    {
+      "epoch": 0.8735632183908046,
+      "grad_norm": 3.1654207706451416,
+      "learning_rate": 9.594366508138352e-07,
+      "loss": 0.2983,
+      "step": 304
+    },
+    {
+      "epoch": 0.8764367816091954,
+      "grad_norm": 4.094039440155029,
+      "learning_rate": 9.169931162983137e-07,
+      "loss": 0.2797,
+      "step": 305
+    },
+    {
+      "epoch": 0.8793103448275862,
+      "grad_norm": 2.8442471027374268,
+      "learning_rate": 8.754646154375801e-07,
+      "loss": 0.2584,
+      "step": 306
+    },
+    {
+      "epoch": 0.882183908045977,
+      "grad_norm": 3.6936562061309814,
+      "learning_rate": 8.348553318655795e-07,
+      "loss": 0.3164,
+      "step": 307
+    },
+    {
+      "epoch": 0.8850574712643678,
+      "grad_norm": 2.954345703125,
+      "learning_rate": 7.951693566131325e-07,
+      "loss": 0.3144,
+      "step": 308
+    },
+    {
+      "epoch": 0.8879310344827587,
+      "grad_norm": 2.597691774368286,
+      "learning_rate": 7.564106876958188e-07,
+      "loss": 0.2971,
+      "step": 309
+    },
+    {
+      "epoch": 0.8908045977011494,
+      "grad_norm": 3.1714141368865967,
+      "learning_rate": 7.185832297111939e-07,
+      "loss": 0.391,
+      "step": 310
+    },
+    {
+      "epoch": 0.8936781609195402,
+      "grad_norm": 2.410207748413086,
+      "learning_rate": 6.816907934454353e-07,
+      "loss": 0.2538,
+      "step": 311
+    },
+    {
+      "epoch": 0.896551724137931,
+      "grad_norm": 2.8893043994903564,
+      "learning_rate": 6.457370954894582e-07,
+      "loss": 0.2312,
+      "step": 312
+    },
+    {
+      "epoch": 0.8994252873563219,
+      "grad_norm": 2.990267276763916,
+      "learning_rate": 6.107257578644721e-07,
+      "loss": 0.27,
+      "step": 313
+    },
+    {
+      "epoch": 0.9022988505747126,
+      "grad_norm": 2.6063694953918457,
+      "learning_rate": 5.766603076571164e-07,
+      "loss": 0.2675,
+      "step": 314
+    },
+    {
+      "epoch": 0.9051724137931034,
+      "grad_norm": 2.8116941452026367,
+      "learning_rate": 5.43544176664137e-07,
+      "loss": 0.2846,
+      "step": 315
+    },
+    {
+      "epoch": 0.9080459770114943,
+      "grad_norm": 2.8802504539489746,
+      "learning_rate": 5.113807010466432e-07,
+      "loss": 0.2898,
+      "step": 316
+    },
+    {
+      "epoch": 0.9109195402298851,
+      "grad_norm": 3.1726322174072266,
+      "learning_rate": 4.801731209940375e-07,
+      "loss": 0.2796,
+      "step": 317
+    },
+    {
+      "epoch": 0.9137931034482759,
+      "grad_norm": 3.0099661350250244,
+      "learning_rate": 4.499245803975927e-07,
+      "loss": 0.2649,
+      "step": 318
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "grad_norm": 3.7728664875030518,
+      "learning_rate": 4.206381265337189e-07,
+      "loss": 0.3021,
+      "step": 319
+    },
+    {
+      "epoch": 0.9195402298850575,
+      "grad_norm": 3.430644989013672,
+      "learning_rate": 3.9231670975699354e-07,
+      "loss": 0.326,
+      "step": 320
+    },
+    {
+      "epoch": 0.9195402298850575,
+      "eval_accuracy": 0.8589108910891089,
+      "eval_f1": 0.7348837209302326,
+      "eval_loss": 0.31510937213897705,
+      "eval_precision": 0.7247706422018348,
+      "eval_recall": 0.7452830188679245,
+      "eval_runtime": 17.0364,
+      "eval_samples_per_second": 6.222,
+      "eval_steps_per_second": 0.235,
+      "step": 320
+    },
+    {
+      "epoch": 0.9224137931034483,
+      "grad_norm": 4.415366172790527,
+      "learning_rate": 3.649631832029288e-07,
+      "loss": 0.3382,
+      "step": 321
+    },
+    {
+      "epoch": 0.9252873563218391,
+      "grad_norm": 2.5626957416534424,
+      "learning_rate": 3.385803025005463e-07,
+      "loss": 0.2792,
+      "step": 322
+    },
+    {
+      "epoch": 0.9281609195402298,
+      "grad_norm": 3.4501123428344727,
+      "learning_rate": 3.1317072549477246e-07,
+      "loss": 0.3482,
+      "step": 323
+    },
+    {
+      "epoch": 0.9310344827586207,
+      "grad_norm": 2.9147861003875732,
+      "learning_rate": 2.887370119786792e-07,
+      "loss": 0.2824,
+      "step": 324
+    },
+    {
+      "epoch": 0.9339080459770115,
+      "grad_norm": 3.037773847579956,
+      "learning_rate": 2.6528162343561593e-07,
+      "loss": 0.3257,
+      "step": 325
+    },
+    {
+      "epoch": 0.9367816091954023,
+      "grad_norm": 3.1816771030426025,
+      "learning_rate": 2.4280692279122554e-07,
+      "loss": 0.2645,
+      "step": 326
+    },
+    {
+      "epoch": 0.9396551724137931,
+      "grad_norm": 2.802854537963867,
+      "learning_rate": 2.2131517417540937e-07,
+      "loss": 0.2947,
+      "step": 327
+    },
+    {
+      "epoch": 0.9425287356321839,
+      "grad_norm": 2.949431896209717,
+      "learning_rate": 2.00808542694233e-07,
+      "loss": 0.2907,
+      "step": 328
+    },
+    {
+      "epoch": 0.9454022988505747,
+      "grad_norm": 2.371004581451416,
+      "learning_rate": 1.8128909421180506e-07,
+      "loss": 0.2558,
+      "step": 329
+    },
+    {
+      "epoch": 0.9482758620689655,
+      "grad_norm": 2.651993989944458,
+      "learning_rate": 1.6275879514217052e-07,
+      "loss": 0.3132,
+      "step": 330
+    },
+    {
+      "epoch": 0.9511494252873564,
+      "grad_norm": 3.5036203861236572,
+      "learning_rate": 1.4521951225120345e-07,
+      "loss": 0.3745,
+      "step": 331
+    },
+    {
+      "epoch": 0.9540229885057471,
+      "grad_norm": 2.3972132205963135,
+      "learning_rate": 1.2867301246854757e-07,
+      "loss": 0.2746,
+      "step": 332
+    },
+    {
+      "epoch": 0.9568965517241379,
+      "grad_norm": 2.4108810424804688,
+      "learning_rate": 1.1312096270961525e-07,
+      "loss": 0.2656,
+      "step": 333
+    },
+    {
+      "epoch": 0.9597701149425287,
+      "grad_norm": 2.761547565460205,
+      "learning_rate": 9.856492970766296e-08,
+      "loss": 0.3047,
+      "step": 334
+    },
+    {
+      "epoch": 0.9626436781609196,
+      "grad_norm": 2.521554470062256,
+      "learning_rate": 8.50063798559475e-08,
+      "loss": 0.2753,
+      "step": 335
+    },
+    {
+      "epoch": 0.9655172413793104,
+      "grad_norm": 3.3763246536254883,
+      "learning_rate": 7.244667906001202e-08,
+      "loss": 0.2594,
+      "step": 336
+    },
+    {
+      "epoch": 0.9683908045977011,
+      "grad_norm": 3.34621000289917,
+      "learning_rate": 6.088709260007153e-08,
+      "loss": 0.2837,
+      "step": 337
+    },
+    {
+      "epoch": 0.9712643678160919,
+      "grad_norm": 2.6902542114257812,
+      "learning_rate": 5.032878500355498e-08,
+      "loss": 0.2849,
+      "step": 338
+    },
+    {
+      "epoch": 0.9741379310344828,
+      "grad_norm": 4.887283802032471,
+      "learning_rate": 4.07728199277857e-08,
+      "loss": 0.3055,
+      "step": 339
+    },
+    {
+      "epoch": 0.9770114942528736,
+      "grad_norm": 4.528458118438721,
+      "learning_rate": 3.2220160052828245e-08,
+      "loss": 0.3475,
+      "step": 340
+    },
+    {
+      "epoch": 0.9770114942528736,
+      "eval_accuracy": 0.8638613861386139,
+      "eval_f1": 0.7417840375586855,
+      "eval_loss": 0.3143324553966522,
+      "eval_precision": 0.7383177570093458,
+      "eval_recall": 0.7452830188679245,
+      "eval_runtime": 16.6976,
+      "eval_samples_per_second": 6.348,
+      "eval_steps_per_second": 0.24,
+      "step": 340
+    },
+    {
+      "epoch": 0.9798850574712644,
+      "grad_norm": 2.665673017501831,
+      "learning_rate": 2.467166698450485e-08,
+      "loss": 0.2825,
+      "step": 341
+    },
+    {
+      "epoch": 0.9827586206896551,
+      "grad_norm": 3.8746824264526367,
+      "learning_rate": 1.812810116760044e-08,
+      "loss": 0.2802,
+      "step": 342
+    },
+    {
+      "epoch": 0.985632183908046,
+      "grad_norm": 4.368228912353516,
+      "learning_rate": 1.2590121809247235e-08,
+      "loss": 0.3322,
+      "step": 343
+    },
+    {
+      "epoch": 0.9885057471264368,
+      "grad_norm": 2.3723561763763428,
+      "learning_rate": 8.05828681252452e-09,
+      "loss": 0.2589,
+      "step": 344
+    },
+    {
+      "epoch": 0.9913793103448276,
+      "grad_norm": 3.3824245929718018,
+      "learning_rate": 4.5330527202480656e-09,
+      "loss": 0.3456,
+      "step": 345
+    },
+    {
+      "epoch": 0.9942528735632183,
+      "grad_norm": 2.772489070892334,
+      "learning_rate": 2.014774668979147e-09,
+      "loss": 0.2756,
+      "step": 346
+    },
+    {
+      "epoch": 0.9971264367816092,
+      "grad_norm": 4.0318827629089355,
+      "learning_rate": 5.037063532498109e-10,
+      "loss": 0.303,
+      "step": 347
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.210477113723755,
+      "learning_rate": 0.0,
+      "loss": 0.2905,
+      "step": 348
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.0991834484860518e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null