Training in progress, step 1700, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +703 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca6d7b29067a6f1802f95f9ae9a63da450c0fea767f9619e952dfe7ded4bbac1
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:0930d6e64875820c22c7cffca09ca1acaf6cdcc1e7968d0c5a856968a87824e8
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b22c239721aee44efc685d4b1334c0286d18e2d4e1a7cdd018c60a67b16bf89c
 size 81735892

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b9d593632762fa95cd51142f1adb4c560e59f1f9d92ecb7de05d6485c887205
 size 81735892

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ca599b893276769adc2f6c1d4d029dfc6620646247d84a40c0c82d7f07af46e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b283d316b0c499174401fc8457651f1fb183c6003c46a4d25e29dfecd151147
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3cac2327cb924e4f297c23ce5eb4e23debff02122db63c77a3bdcac410a9ffd
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a6797f0f81e1d80bc4d2d6295ad3c421b4b433370ca9e0c209b11267f3ef64f
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae270426c2cd8e1894df96f1ceb38a20e29481d4f6f7b2903c1da7e94dcbed0a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bd17fa23f67ef7fbf6e377f7e0c23474bf385755bb96f63949a2752039f1de4
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:333db600402aeeecc3fab07acc6d09f62217db914fcc898662b20b1afa147c61
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:212929e3bfad92319ef54b8b509922f96991c6c7d7791e9983b6f58b96c35aff
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa0f2c31dda0951ee9cc2b00073ac9a44026193943adb54ebced21cb99784765
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:671918de7ffc87d6187292033f79bb1cacaa6a7d5996a986d5989df4cdad43d1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9324009324009324,
   "eval_steps": 500,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11207,6 +11207,706 @@
       "learning_rate": 6.759906759906761e-05,
       "loss": 0.0034,
       "step": 1600
     }
   ],
   "logging_steps": 1,
@@ -11226,7 +11926,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.6914779581854515e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9906759906759907,
   "eval_steps": 500,
+  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.759906759906761e-05,
       "loss": 0.0034,
       "step": 1600
+    },
+    {
+      "epoch": 0.932983682983683,
+      "grad_norm": 0.0013091769069433212,
+      "learning_rate": 6.701631701631703e-05,
+      "loss": 0.0038,
+      "step": 1601
+    },
+    {
+      "epoch": 0.9335664335664335,
+      "grad_norm": 0.0009162210044451058,
+      "learning_rate": 6.643356643356644e-05,
+      "loss": 0.0028,
+      "step": 1602
+    },
+    {
+      "epoch": 0.9341491841491841,
+      "grad_norm": 0.0008717044838704169,
+      "learning_rate": 6.585081585081586e-05,
+      "loss": 0.003,
+      "step": 1603
+    },
+    {
+      "epoch": 0.9347319347319347,
+      "grad_norm": 0.0010865787044167519,
+      "learning_rate": 6.526806526806527e-05,
+      "loss": 0.0035,
+      "step": 1604
+    },
+    {
+      "epoch": 0.9353146853146853,
+      "grad_norm": 0.0007628489984199405,
+      "learning_rate": 6.46853146853147e-05,
+      "loss": 0.0025,
+      "step": 1605
+    },
+    {
+      "epoch": 0.9358974358974359,
+      "grad_norm": 0.0009772854391485453,
+      "learning_rate": 6.41025641025641e-05,
+      "loss": 0.0041,
+      "step": 1606
+    },
+    {
+      "epoch": 0.9364801864801865,
+      "grad_norm": 0.0008730532717891037,
+      "learning_rate": 6.351981351981353e-05,
+      "loss": 0.0028,
+      "step": 1607
+    },
+    {
+      "epoch": 0.9370629370629371,
+      "grad_norm": 0.0007411614060401917,
+      "learning_rate": 6.293706293706295e-05,
+      "loss": 0.0032,
+      "step": 1608
+    },
+    {
+      "epoch": 0.9376456876456877,
+      "grad_norm": 0.0009279727819375694,
+      "learning_rate": 6.235431235431236e-05,
+      "loss": 0.0022,
+      "step": 1609
+    },
+    {
+      "epoch": 0.9382284382284383,
+      "grad_norm": 0.0010616903891786933,
+      "learning_rate": 6.177156177156177e-05,
+      "loss": 0.0044,
+      "step": 1610
+    },
+    {
+      "epoch": 0.9388111888111889,
+      "grad_norm": 0.0009532080148346722,
+      "learning_rate": 6.118881118881119e-05,
+      "loss": 0.0026,
+      "step": 1611
+    },
+    {
+      "epoch": 0.9393939393939394,
+      "grad_norm": 0.0007426452939398587,
+      "learning_rate": 6.060606060606061e-05,
+      "loss": 0.0027,
+      "step": 1612
+    },
+    {
+      "epoch": 0.9399766899766899,
+      "grad_norm": 0.0010714689269661903,
+      "learning_rate": 6.002331002331003e-05,
+      "loss": 0.0041,
+      "step": 1613
+    },
+    {
+      "epoch": 0.9405594405594405,
+      "grad_norm": 0.0008739576442167163,
+      "learning_rate": 5.944055944055944e-05,
+      "loss": 0.0035,
+      "step": 1614
+    },
+    {
+      "epoch": 0.9411421911421911,
+      "grad_norm": 0.0018457169644534588,
+      "learning_rate": 5.885780885780886e-05,
+      "loss": 0.0048,
+      "step": 1615
+    },
+    {
+      "epoch": 0.9417249417249417,
+      "grad_norm": 0.0008747098036110401,
+      "learning_rate": 5.8275058275058275e-05,
+      "loss": 0.003,
+      "step": 1616
+    },
+    {
+      "epoch": 0.9423076923076923,
+      "grad_norm": 0.001420872751623392,
+      "learning_rate": 5.76923076923077e-05,
+      "loss": 0.0048,
+      "step": 1617
+    },
+    {
+      "epoch": 0.9428904428904429,
+      "grad_norm": 0.0008954692748375237,
+      "learning_rate": 5.7109557109557114e-05,
+      "loss": 0.0026,
+      "step": 1618
+    },
+    {
+      "epoch": 0.9434731934731935,
+      "grad_norm": 0.000952814007177949,
+      "learning_rate": 5.652680652680653e-05,
+      "loss": 0.004,
+      "step": 1619
+    },
+    {
+      "epoch": 0.9440559440559441,
+      "grad_norm": 0.0011160552967339754,
+      "learning_rate": 5.5944055944055945e-05,
+      "loss": 0.0034,
+      "step": 1620
+    },
+    {
+      "epoch": 0.9446386946386947,
+      "grad_norm": 0.0009834656957536936,
+      "learning_rate": 5.536130536130536e-05,
+      "loss": 0.0042,
+      "step": 1621
+    },
+    {
+      "epoch": 0.9452214452214452,
+      "grad_norm": 0.0007495367899537086,
+      "learning_rate": 5.477855477855478e-05,
+      "loss": 0.0028,
+      "step": 1622
+    },
+    {
+      "epoch": 0.9458041958041958,
+      "grad_norm": 0.0011641675373539329,
+      "learning_rate": 5.419580419580419e-05,
+      "loss": 0.004,
+      "step": 1623
+    },
+    {
+      "epoch": 0.9463869463869464,
+      "grad_norm": 0.0013844856293871999,
+      "learning_rate": 5.3613053613053616e-05,
+      "loss": 0.014,
+      "step": 1624
+    },
+    {
+      "epoch": 0.946969696969697,
+      "grad_norm": 0.0008486348669975996,
+      "learning_rate": 5.303030303030303e-05,
+      "loss": 0.0029,
+      "step": 1625
+    },
+    {
+      "epoch": 0.9475524475524476,
+      "grad_norm": 0.001107304822653532,
+      "learning_rate": 5.244755244755245e-05,
+      "loss": 0.0028,
+      "step": 1626
+    },
+    {
+      "epoch": 0.9481351981351981,
+      "grad_norm": 0.001052669482305646,
+      "learning_rate": 5.1864801864801863e-05,
+      "loss": 0.0035,
+      "step": 1627
+    },
+    {
+      "epoch": 0.9487179487179487,
+      "grad_norm": 0.001127295778132975,
+      "learning_rate": 5.128205128205128e-05,
+      "loss": 0.0033,
+      "step": 1628
+    },
+    {
+      "epoch": 0.9493006993006993,
+      "grad_norm": 0.00099327159114182,
+      "learning_rate": 5.0699300699300695e-05,
+      "loss": 0.0029,
+      "step": 1629
+    },
+    {
+      "epoch": 0.9498834498834499,
+      "grad_norm": 0.0008510001935064793,
+      "learning_rate": 5.011655011655012e-05,
+      "loss": 0.0031,
+      "step": 1630
+    },
+    {
+      "epoch": 0.9504662004662005,
+      "grad_norm": 0.0006990230758674443,
+      "learning_rate": 4.9533799533799534e-05,
+      "loss": 0.0028,
+      "step": 1631
+    },
+    {
+      "epoch": 0.951048951048951,
+      "grad_norm": 0.0008159316494129598,
+      "learning_rate": 4.895104895104895e-05,
+      "loss": 0.0028,
+      "step": 1632
+    },
+    {
+      "epoch": 0.9516317016317016,
+      "grad_norm": 0.0008230661042034626,
+      "learning_rate": 4.836829836829837e-05,
+      "loss": 0.0033,
+      "step": 1633
+    },
+    {
+      "epoch": 0.9522144522144522,
+      "grad_norm": 0.0009854782838374376,
+      "learning_rate": 4.778554778554779e-05,
+      "loss": 0.0034,
+      "step": 1634
+    },
+    {
+      "epoch": 0.9527972027972028,
+      "grad_norm": 0.0010709573980420828,
+      "learning_rate": 4.7202797202797204e-05,
+      "loss": 0.0029,
+      "step": 1635
+    },
+    {
+      "epoch": 0.9533799533799534,
+      "grad_norm": 0.0010027334792539477,
+      "learning_rate": 4.662004662004663e-05,
+      "loss": 0.0033,
+      "step": 1636
+    },
+    {
+      "epoch": 0.953962703962704,
+      "grad_norm": 0.0009396614041179419,
+      "learning_rate": 4.603729603729604e-05,
+      "loss": 0.0088,
+      "step": 1637
+    },
+    {
+      "epoch": 0.9545454545454546,
+      "grad_norm": 0.0007274977397173643,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 0.0032,
+      "step": 1638
+    },
+    {
+      "epoch": 0.9551282051282052,
+      "grad_norm": 0.0010892600985243917,
+      "learning_rate": 4.4871794871794874e-05,
+      "loss": 0.0042,
+      "step": 1639
+    },
+    {
+      "epoch": 0.9557109557109557,
+      "grad_norm": 0.0007885160739533603,
+      "learning_rate": 4.428904428904429e-05,
+      "loss": 0.0031,
+      "step": 1640
+    },
+    {
+      "epoch": 0.9562937062937062,
+      "grad_norm": 0.0012906527845188975,
+      "learning_rate": 4.3706293706293706e-05,
+      "loss": 0.0044,
+      "step": 1641
+    },
+    {
+      "epoch": 0.9568764568764568,
+      "grad_norm": 0.0012814976507797837,
+      "learning_rate": 4.312354312354312e-05,
+      "loss": 0.0038,
+      "step": 1642
+    },
+    {
+      "epoch": 0.9574592074592074,
+      "grad_norm": 0.0011575610842555761,
+      "learning_rate": 4.2540792540792545e-05,
+      "loss": 0.004,
+      "step": 1643
+    },
+    {
+      "epoch": 0.958041958041958,
+      "grad_norm": 0.0012061079032719135,
+      "learning_rate": 4.195804195804196e-05,
+      "loss": 0.0043,
+      "step": 1644
+    },
+    {
+      "epoch": 0.9586247086247086,
+      "grad_norm": 0.0008972581708803773,
+      "learning_rate": 4.1375291375291377e-05,
+      "loss": 0.0038,
+      "step": 1645
+    },
+    {
+      "epoch": 0.9592074592074592,
+      "grad_norm": 0.0008104901062324643,
+      "learning_rate": 4.079254079254079e-05,
+      "loss": 0.0028,
+      "step": 1646
+    },
+    {
+      "epoch": 0.9597902097902098,
+      "grad_norm": 0.0007863112259656191,
+      "learning_rate": 4.020979020979021e-05,
+      "loss": 0.003,
+      "step": 1647
+    },
+    {
+      "epoch": 0.9603729603729604,
+      "grad_norm": 0.0006893305107951164,
+      "learning_rate": 3.9627039627039624e-05,
+      "loss": 0.0026,
+      "step": 1648
+    },
+    {
+      "epoch": 0.960955710955711,
+      "grad_norm": 0.0009396909736096859,
+      "learning_rate": 3.904428904428905e-05,
+      "loss": 0.0029,
+      "step": 1649
+    },
+    {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 0.0007228578324429691,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 0.0023,
+      "step": 1650
+    },
+    {
+      "epoch": 0.9621212121212122,
+      "grad_norm": 0.0011825780384242535,
+      "learning_rate": 3.787878787878788e-05,
+      "loss": 0.0044,
+      "step": 1651
+    },
+    {
+      "epoch": 0.9627039627039627,
+      "grad_norm": 0.0007647788152098656,
+      "learning_rate": 3.7296037296037295e-05,
+      "loss": 0.003,
+      "step": 1652
+    },
+    {
+      "epoch": 0.9632867132867133,
+      "grad_norm": 0.0010042464127764106,
+      "learning_rate": 3.671328671328671e-05,
+      "loss": 0.0041,
+      "step": 1653
+    },
+    {
+      "epoch": 0.9638694638694638,
+      "grad_norm": 0.0009029952925629914,
+      "learning_rate": 3.6130536130536126e-05,
+      "loss": 0.0032,
+      "step": 1654
+    },
+    {
+      "epoch": 0.9644522144522144,
+      "grad_norm": 0.0010356158018112183,
+      "learning_rate": 3.554778554778554e-05,
+      "loss": 0.0031,
+      "step": 1655
+    },
+    {
+      "epoch": 0.965034965034965,
+      "grad_norm": 0.0010094497120007873,
+      "learning_rate": 3.4965034965034965e-05,
+      "loss": 0.0043,
+      "step": 1656
+    },
+    {
+      "epoch": 0.9656177156177156,
+      "grad_norm": 0.0008370497962459922,
+      "learning_rate": 3.438228438228439e-05,
+      "loss": 0.0035,
+      "step": 1657
+    },
+    {
+      "epoch": 0.9662004662004662,
+      "grad_norm": 0.000803111121058464,
+      "learning_rate": 3.3799533799533804e-05,
+      "loss": 0.0029,
+      "step": 1658
+    },
+    {
+      "epoch": 0.9667832167832168,
+      "grad_norm": 0.0011143162846565247,
+      "learning_rate": 3.321678321678322e-05,
+      "loss": 0.0035,
+      "step": 1659
+    },
+    {
+      "epoch": 0.9673659673659674,
+      "grad_norm": 0.0008031773613765836,
+      "learning_rate": 3.2634032634032635e-05,
+      "loss": 0.0031,
+      "step": 1660
+    },
+    {
+      "epoch": 0.967948717948718,
+      "grad_norm": 0.0011737227905541658,
+      "learning_rate": 3.205128205128205e-05,
+      "loss": 0.004,
+      "step": 1661
+    },
+    {
+      "epoch": 0.9685314685314685,
+      "grad_norm": 0.001068048644810915,
+      "learning_rate": 3.1468531468531474e-05,
+      "loss": 0.0038,
+      "step": 1662
+    },
+    {
+      "epoch": 0.9691142191142191,
+      "grad_norm": 0.0008520625997334719,
+      "learning_rate": 3.088578088578088e-05,
+      "loss": 0.0032,
+      "step": 1663
+    },
+    {
+      "epoch": 0.9696969696969697,
+      "grad_norm": 0.0006241014925763011,
+      "learning_rate": 3.0303030303030306e-05,
+      "loss": 0.0023,
+      "step": 1664
+    },
+    {
+      "epoch": 0.9702797202797203,
+      "grad_norm": 0.0013019571779295802,
+      "learning_rate": 2.972027972027972e-05,
+      "loss": 0.0048,
+      "step": 1665
+    },
+    {
+      "epoch": 0.9708624708624709,
+      "grad_norm": 0.0011066205333918333,
+      "learning_rate": 2.9137529137529138e-05,
+      "loss": 0.0031,
+      "step": 1666
+    },
+    {
+      "epoch": 0.9714452214452215,
+      "grad_norm": 0.0010444342624396086,
+      "learning_rate": 2.8554778554778557e-05,
+      "loss": 0.0033,
+      "step": 1667
+    },
+    {
+      "epoch": 0.972027972027972,
+      "grad_norm": 0.0007983744144439697,
+      "learning_rate": 2.7972027972027973e-05,
+      "loss": 0.0032,
+      "step": 1668
+    },
+    {
+      "epoch": 0.9726107226107226,
+      "grad_norm": 0.0008884937269613147,
+      "learning_rate": 2.738927738927739e-05,
+      "loss": 0.0037,
+      "step": 1669
+    },
+    {
+      "epoch": 0.9731934731934732,
+      "grad_norm": 0.0012803805293515325,
+      "learning_rate": 2.6806526806526808e-05,
+      "loss": 0.0034,
+      "step": 1670
+    },
+    {
+      "epoch": 0.9737762237762237,
+      "grad_norm": 0.0011096763191744685,
+      "learning_rate": 2.6223776223776224e-05,
+      "loss": 0.0035,
+      "step": 1671
+    },
+    {
+      "epoch": 0.9743589743589743,
+      "grad_norm": 0.0011874607298523188,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 0.0043,
+      "step": 1672
+    },
+    {
+      "epoch": 0.9749417249417249,
+      "grad_norm": 0.0009078698931261897,
+      "learning_rate": 2.505827505827506e-05,
+      "loss": 0.0027,
+      "step": 1673
+    },
+    {
+      "epoch": 0.9755244755244755,
+      "grad_norm": 0.0009188731200993061,
+      "learning_rate": 2.4475524475524475e-05,
+      "loss": 0.0046,
+      "step": 1674
+    },
+    {
+      "epoch": 0.9761072261072261,
+      "grad_norm": 0.0009996923618018627,
+      "learning_rate": 2.3892773892773894e-05,
+      "loss": 0.006,
+      "step": 1675
+    },
+    {
+      "epoch": 0.9766899766899767,
+      "grad_norm": 0.0008249058737419546,
+      "learning_rate": 2.3310023310023313e-05,
+      "loss": 0.0033,
+      "step": 1676
+    },
+    {
+      "epoch": 0.9772727272727273,
+      "grad_norm": 0.0008003967232070863,
+      "learning_rate": 2.272727272727273e-05,
+      "loss": 0.003,
+      "step": 1677
+    },
+    {
+      "epoch": 0.9778554778554779,
+      "grad_norm": 0.0014063924318179488,
+      "learning_rate": 2.2144522144522145e-05,
+      "loss": 0.0036,
+      "step": 1678
+    },
+    {
+      "epoch": 0.9784382284382285,
+      "grad_norm": 0.0008004964329302311,
+      "learning_rate": 2.156177156177156e-05,
+      "loss": 0.0028,
+      "step": 1679
+    },
+    {
+      "epoch": 0.9790209790209791,
+      "grad_norm": 0.0009626666433177888,
+      "learning_rate": 2.097902097902098e-05,
+      "loss": 0.0027,
+      "step": 1680
+    },
+    {
+      "epoch": 0.9796037296037297,
+      "grad_norm": 0.0008628361392766237,
+      "learning_rate": 2.0396270396270396e-05,
+      "loss": 0.0027,
+      "step": 1681
+    },
+    {
+      "epoch": 0.9801864801864801,
+      "grad_norm": 0.0008874722989276052,
+      "learning_rate": 1.9813519813519812e-05,
+      "loss": 0.0042,
+      "step": 1682
+    },
+    {
+      "epoch": 0.9807692307692307,
+      "grad_norm": 0.0015157037414610386,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.0052,
+      "step": 1683
+    },
+    {
+      "epoch": 0.9813519813519813,
+      "grad_norm": 0.0011951492633670568,
+      "learning_rate": 1.8648018648018647e-05,
+      "loss": 0.0049,
+      "step": 1684
+    },
+    {
+      "epoch": 0.9819347319347319,
+      "grad_norm": 0.0009483549511060119,
+      "learning_rate": 1.8065268065268063e-05,
+      "loss": 0.0026,
+      "step": 1685
+    },
+    {
+      "epoch": 0.9825174825174825,
+      "grad_norm": 0.000737398280762136,
+      "learning_rate": 1.7482517482517483e-05,
+      "loss": 0.0027,
+      "step": 1686
+    },
+    {
+      "epoch": 0.9831002331002331,
+      "grad_norm": 0.001031695050187409,
+      "learning_rate": 1.6899766899766902e-05,
+      "loss": 0.0025,
+      "step": 1687
+    },
+    {
+      "epoch": 0.9836829836829837,
+      "grad_norm": 0.0009539015591144562,
+      "learning_rate": 1.6317016317016318e-05,
+      "loss": 0.0027,
+      "step": 1688
+    },
+    {
+      "epoch": 0.9842657342657343,
+      "grad_norm": 0.0007205713191069663,
+      "learning_rate": 1.5734265734265737e-05,
+      "loss": 0.0026,
+      "step": 1689
+    },
+    {
+      "epoch": 0.9848484848484849,
+      "grad_norm": 0.0009316445211879909,
+      "learning_rate": 1.5151515151515153e-05,
+      "loss": 0.0032,
+      "step": 1690
+    },
+    {
+      "epoch": 0.9854312354312355,
+      "grad_norm": 0.0010426414664834738,
+      "learning_rate": 1.4568764568764569e-05,
+      "loss": 0.0041,
+      "step": 1691
+    },
+    {
+      "epoch": 0.986013986013986,
+      "grad_norm": 0.0006400300771929324,
+      "learning_rate": 1.3986013986013986e-05,
+      "loss": 0.0024,
+      "step": 1692
+    },
+    {
+      "epoch": 0.9865967365967366,
+      "grad_norm": 0.0009383864235132933,
+      "learning_rate": 1.3403263403263404e-05,
+      "loss": 0.0029,
+      "step": 1693
+    },
+    {
+      "epoch": 0.9871794871794872,
+      "grad_norm": 0.0008284033392556012,
+      "learning_rate": 1.282051282051282e-05,
+      "loss": 0.0029,
+      "step": 1694
+    },
+    {
+      "epoch": 0.9877622377622378,
+      "grad_norm": 0.0010577579960227013,
+      "learning_rate": 1.2237762237762237e-05,
+      "loss": 0.0052,
+      "step": 1695
+    },
+    {
+      "epoch": 0.9883449883449883,
+      "grad_norm": 0.0009795171208679676,
+      "learning_rate": 1.1655011655011657e-05,
+      "loss": 0.0046,
+      "step": 1696
+    },
+    {
+      "epoch": 0.9889277389277389,
+      "grad_norm": 0.0007197922095656395,
+      "learning_rate": 1.1072261072261073e-05,
+      "loss": 0.0031,
+      "step": 1697
+    },
+    {
+      "epoch": 0.9895104895104895,
+      "grad_norm": 0.0010326344054192305,
+      "learning_rate": 1.048951048951049e-05,
+      "loss": 0.0028,
+      "step": 1698
+    },
+    {
+      "epoch": 0.9900932400932401,
+      "grad_norm": 0.0008666233043186367,
+      "learning_rate": 9.906759906759906e-06,
+      "loss": 0.003,
+      "step": 1699
+    },
+    {
+      "epoch": 0.9906759906759907,
+      "grad_norm": 0.0008774434681981802,
+      "learning_rate": 9.324009324009324e-06,
+      "loss": 0.003,
+      "step": 1700
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.109695330572042e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null