Training in progress, step 580, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +164 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c114ae96d9d8cb96dbaa3cd6af73dd527250586aeb31e8856b53c540acef67d6
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:6589280cb3cff27d0e3f809d9fe18d16f0e9a7c5605ca58835189f572dabff16
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac9691a0ad4d7be278c4991469273ca3ad54f22471fe44e8fcb314a30188d0d3
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:0682c52911bfd561a6f52732b0960db62f88ed27fe66503c2c995a4eaf4cdaed
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a78f5c44175ab04d2074e288162c4abc93267ecb39ae1f22c8db10bc367ff930
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c64a34b4af24bd84d792037de6a5cdeb1e9758d386ffdf2a30823c12441032d4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8138069582686512,
   "eval_steps": 500,
-  "global_step": 557,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3906,6 +3906,167 @@
       "learning_rate": 4.349315068493151e-06,
       "loss": 1.1756,
       "step": 557
     }
   ],
   "logging_steps": 1,
@@ -3925,7 +4086,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.292640189270753e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8474111953246279,
   "eval_steps": 500,
+  "global_step": 580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.349315068493151e-06,
       "loss": 1.1756,
       "step": 557
+    },
+    {
+      "epoch": 0.8152680120536937,
+      "grad_norm": 0.11740544438362122,
+      "learning_rate": 4.315068493150685e-06,
+      "loss": 1.1753,
+      "step": 558
+    },
+    {
+      "epoch": 0.8167290658387362,
+      "grad_norm": 0.11186040937900543,
+      "learning_rate": 4.28082191780822e-06,
+      "loss": 1.2328,
+      "step": 559
+    },
+    {
+      "epoch": 0.8181901196237786,
+      "grad_norm": 0.11647879332304001,
+      "learning_rate": 4.246575342465754e-06,
+      "loss": 1.1962,
+      "step": 560
+    },
+    {
+      "epoch": 0.8196511734088211,
+      "grad_norm": 0.12523581087589264,
+      "learning_rate": 4.212328767123288e-06,
+      "loss": 1.2818,
+      "step": 561
+    },
+    {
+      "epoch": 0.8211122271938636,
+      "grad_norm": 0.11687058955430984,
+      "learning_rate": 4.178082191780822e-06,
+      "loss": 1.173,
+      "step": 562
+    },
+    {
+      "epoch": 0.822573280978906,
+      "grad_norm": 0.1250499188899994,
+      "learning_rate": 4.143835616438356e-06,
+      "loss": 1.1234,
+      "step": 563
+    },
+    {
+      "epoch": 0.8240343347639485,
+      "grad_norm": 0.11505109816789627,
+      "learning_rate": 4.109589041095891e-06,
+      "loss": 1.2452,
+      "step": 564
+    },
+    {
+      "epoch": 0.825495388548991,
+      "grad_norm": 0.1190369576215744,
+      "learning_rate": 4.075342465753426e-06,
+      "loss": 1.149,
+      "step": 565
+    },
+    {
+      "epoch": 0.8269564423340334,
+      "grad_norm": 0.12453046441078186,
+      "learning_rate": 4.0410958904109595e-06,
+      "loss": 1.2214,
+      "step": 566
+    },
+    {
+      "epoch": 0.8284174961190759,
+      "grad_norm": 0.10606851428747177,
+      "learning_rate": 4.006849315068493e-06,
+      "loss": 1.1749,
+      "step": 567
+    },
+    {
+      "epoch": 0.8298785499041184,
+      "grad_norm": 0.11873757094144821,
+      "learning_rate": 3.972602739726027e-06,
+      "loss": 1.2741,
+      "step": 568
+    },
+    {
+      "epoch": 0.8313396036891608,
+      "grad_norm": 0.12206880748271942,
+      "learning_rate": 3.938356164383562e-06,
+      "loss": 1.2122,
+      "step": 569
+    },
+    {
+      "epoch": 0.8328006574742033,
+      "grad_norm": 0.10448160022497177,
+      "learning_rate": 3.904109589041096e-06,
+      "loss": 1.2251,
+      "step": 570
+    },
+    {
+      "epoch": 0.8342617112592458,
+      "grad_norm": 0.10980773717164993,
+      "learning_rate": 3.869863013698631e-06,
+      "loss": 1.1791,
+      "step": 571
+    },
+    {
+      "epoch": 0.8357227650442882,
+      "grad_norm": 0.11824549734592438,
+      "learning_rate": 3.8356164383561645e-06,
+      "loss": 1.2319,
+      "step": 572
+    },
+    {
+      "epoch": 0.8371838188293307,
+      "grad_norm": 0.1143551915884018,
+      "learning_rate": 3.8013698630136993e-06,
+      "loss": 1.16,
+      "step": 573
+    },
+    {
+      "epoch": 0.8386448726143731,
+      "grad_norm": 0.11645519733428955,
+      "learning_rate": 3.767123287671233e-06,
+      "loss": 1.1278,
+      "step": 574
+    },
+    {
+      "epoch": 0.8401059263994156,
+      "grad_norm": 0.12313269078731537,
+      "learning_rate": 3.7328767123287675e-06,
+      "loss": 1.1707,
+      "step": 575
+    },
+    {
+      "epoch": 0.8415669801844581,
+      "grad_norm": 0.1056065782904625,
+      "learning_rate": 3.6986301369863014e-06,
+      "loss": 1.0892,
+      "step": 576
+    },
+    {
+      "epoch": 0.8430280339695005,
+      "grad_norm": 0.10892536491155624,
+      "learning_rate": 3.664383561643836e-06,
+      "loss": 1.2527,
+      "step": 577
+    },
+    {
+      "epoch": 0.844489087754543,
+      "grad_norm": 0.10961074382066727,
+      "learning_rate": 3.6301369863013704e-06,
+      "loss": 1.2338,
+      "step": 578
+    },
+    {
+      "epoch": 0.8459501415395855,
+      "grad_norm": 0.1143115982413292,
+      "learning_rate": 3.5958904109589043e-06,
+      "loss": 1.2256,
+      "step": 579
+    },
+    {
+      "epoch": 0.8474111953246279,
+      "grad_norm": 0.1371782124042511,
+      "learning_rate": 3.5616438356164386e-06,
+      "loss": 1.1487,
+      "step": 580
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.557703270576169e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null