Training in progress, step 500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step500/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +178 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d5794c68522903362bd13bff8a3a9d4ddbbdc08ed274ca763782dd8af324f41
 size 40036488

 version https://git-lfs.github.com/spec/v1
+oid sha256:edb1b8a303fc9b3efcf849062236f63c083e832b9046d873cf9992c715843b93
 size 40036488

last-checkpoint/global_step500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abd7d6494f445634ed0c5199eae72b6d115d61e4207ed306563079f7f118a58a
+size 239914192

last-checkpoint/global_step500/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:439671f20c83645773f281ff7dc11fd332dece646507f0f9ceb23efecbbe4c75
+size 143772857

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step475~~


1	+ global_step500

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10ef9acbd4fa0d6f3cf9ef31e36c3f42b685148e0b2bdf384912e243beb8a4d6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3480915ffec0a67b3b569a0849907362275927ef32fee988b0a6bace7e965c6
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.22400377269511906,
   "eval_steps": 1000,
-  "global_step": 475,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3332,6 +3332,181 @@
       "learning_rate": 1.09979633401222e-05,
       "loss": 1.3586,
       "step": 475
     }
   ],
   "logging_steps": 1,
@@ -3339,7 +3514,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 25,
-  "total_flos": 4986911766085632.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.23579344494223062,
   "eval_steps": 1000,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.09979633401222e-05,
       "loss": 1.3586,
       "step": 475
+    },
+    {
+      "epoch": 0.22447535958500353,
+      "grad_norm": 1.565455350231205,
+      "learning_rate": 1.059063136456212e-05,
+      "loss": 1.2235,
+      "step": 476
+    },
+    {
+      "epoch": 0.224946946474888,
+      "grad_norm": 1.4820242487973796,
+      "learning_rate": 1.0183299389002038e-05,
+      "loss": 0.731,
+      "step": 477
+    },
+    {
+      "epoch": 0.22541853336477247,
+      "grad_norm": 1.5511126800670054,
+      "learning_rate": 9.775967413441956e-06,
+      "loss": 1.1143,
+      "step": 478
+    },
+    {
+      "epoch": 0.22589012025465693,
+      "grad_norm": 1.9312597502922166,
+      "learning_rate": 9.368635437881874e-06,
+      "loss": 1.8651,
+      "step": 479
+    },
+    {
+      "epoch": 0.22636170714454137,
+      "grad_norm": 2.332740151981935,
+      "learning_rate": 8.961303462321792e-06,
+      "loss": 1.5795,
+      "step": 480
+    },
+    {
+      "epoch": 0.22683329403442584,
+      "grad_norm": 1.6625740665773265,
+      "learning_rate": 8.55397148676171e-06,
+      "loss": 0.8778,
+      "step": 481
+    },
+    {
+      "epoch": 0.2273048809243103,
+      "grad_norm": 2.0164940904700503,
+      "learning_rate": 8.14663951120163e-06,
+      "loss": 1.2201,
+      "step": 482
+    },
+    {
+      "epoch": 0.22777646781419478,
+      "grad_norm": 2.308672133920739,
+      "learning_rate": 7.739307535641548e-06,
+      "loss": 1.6128,
+      "step": 483
+    },
+    {
+      "epoch": 0.22824805470407922,
+      "grad_norm": 3.6223058225453437,
+      "learning_rate": 7.3319755600814665e-06,
+      "loss": 1.1935,
+      "step": 484
+    },
+    {
+      "epoch": 0.22871964159396369,
+      "grad_norm": 1.898440262906297,
+      "learning_rate": 6.9246435845213855e-06,
+      "loss": 1.3363,
+      "step": 485
+    },
+    {
+      "epoch": 0.22919122848384815,
+      "grad_norm": 1.6065163269115639,
+      "learning_rate": 6.517311608961303e-06,
+      "loss": 1.0665,
+      "step": 486
+    },
+    {
+      "epoch": 0.22966281537373262,
+      "grad_norm": 1.8701305737526783,
+      "learning_rate": 6.109979633401222e-06,
+      "loss": 1.6185,
+      "step": 487
+    },
+    {
+      "epoch": 0.23013440226361706,
+      "grad_norm": 1.6728117270550722,
+      "learning_rate": 5.702647657841141e-06,
+      "loss": 1.4654,
+      "step": 488
+    },
+    {
+      "epoch": 0.23060598915350153,
+      "grad_norm": 1.7046091455062304,
+      "learning_rate": 5.29531568228106e-06,
+      "loss": 1.0988,
+      "step": 489
+    },
+    {
+      "epoch": 0.231077576043386,
+      "grad_norm": 1.6534105108434365,
+      "learning_rate": 4.887983706720978e-06,
+      "loss": 1.1103,
+      "step": 490
+    },
+    {
+      "epoch": 0.23154916293327046,
+      "grad_norm": 1.4043753102008933,
+      "learning_rate": 4.480651731160896e-06,
+      "loss": 0.656,
+      "step": 491
+    },
+    {
+      "epoch": 0.2320207498231549,
+      "grad_norm": 1.9403853927340866,
+      "learning_rate": 4.073319755600815e-06,
+      "loss": 1.6598,
+      "step": 492
+    },
+    {
+      "epoch": 0.23249233671303937,
+      "grad_norm": 1.5035036811542513,
+      "learning_rate": 3.6659877800407332e-06,
+      "loss": 1.1763,
+      "step": 493
+    },
+    {
+      "epoch": 0.23296392360292384,
+      "grad_norm": 2.0180415371872273,
+      "learning_rate": 3.2586558044806514e-06,
+      "loss": 1.2816,
+      "step": 494
+    },
+    {
+      "epoch": 0.2334355104928083,
+      "grad_norm": 1.9388592781834748,
+      "learning_rate": 2.8513238289205704e-06,
+      "loss": 1.4855,
+      "step": 495
+    },
+    {
+      "epoch": 0.23390709738269277,
+      "grad_norm": 2.3566969268057516,
+      "learning_rate": 2.443991853360489e-06,
+      "loss": 1.3763,
+      "step": 496
+    },
+    {
+      "epoch": 0.23437868427257721,
+      "grad_norm": 1.506615118830032,
+      "learning_rate": 2.0366598778004075e-06,
+      "loss": 0.9294,
+      "step": 497
+    },
+    {
+      "epoch": 0.23485027116246168,
+      "grad_norm": 1.9049222731064772,
+      "learning_rate": 1.6293279022403257e-06,
+      "loss": 1.5868,
+      "step": 498
+    },
+    {
+      "epoch": 0.23532185805234615,
+      "grad_norm": 2.0393885793885573,
+      "learning_rate": 1.2219959266802445e-06,
+      "loss": 1.3604,
+      "step": 499
+    },
+    {
+      "epoch": 0.23579344494223062,
+      "grad_norm": 1.53222897433984,
+      "learning_rate": 8.146639511201628e-07,
+      "loss": 1.0879,
+      "step": 500
     }
   ],
   "logging_steps": 1,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 25,
+  "total_flos": 5267949826867200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null