Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

latest +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
trainer_state.json +971 -3

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11200~~


1	+ global_step12000

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26e2d02abd2945dca4a601867e9efb3e52a57105c0b5a43e4977147a4745ad31
 size 4944210912

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f2f922cbafd08d7c3c9709c63870639b4fe5a77197b1aed02013fa0a46d37ab
 size 4944210912

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a300bb006217ced006739cf5cdc9607975347903d71726b8d493b43871da745
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:b990bef30e1c5b9ae4bb3b37e37b31d793cfbf6af883deeba8aafd44531998bc
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57d0e3071a24f3679a46a489024ba1323740842030b1b7d4dd348b7da0a1744f
 size 4541564920

 version https://git-lfs.github.com/spec/v1
+oid sha256:308a00b64f20b918c2170564dfd59fab520e889ef27bfcfd89fb157907315e40
 size 4541564920

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.45492625218958643,
   "eval_steps": 800,
-  "global_step": 11200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13565,6 +13565,974 @@
       "eval_samples_per_second": 16.393,
       "eval_steps_per_second": 2.737,
       "step": 11200
     }
   ],
   "logging_steps": 5,
@@ -13572,7 +14540,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 400,
-  "total_flos": 1565092777697280.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.48742098448884263,
   "eval_steps": 800,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.393,
       "eval_steps_per_second": 2.737,
       "step": 11200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.15763110831054e-06,
+      "loss": 0.6646,
+      "step": 11205
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1569946246316182e-06,
+      "loss": 0.7085,
+      "step": 11210
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.156358075738495e-06,
+      "loss": 0.6621,
+      "step": 11215
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1557214618955868e-06,
+      "loss": 0.6703,
+      "step": 11220
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1550847833673374e-06,
+      "loss": 0.7204,
+      "step": 11225
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.154448040418218e-06,
+      "loss": 0.6923,
+      "step": 11230
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1538112333127253e-06,
+      "loss": 0.6608,
+      "step": 11235
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1531743623153842e-06,
+      "loss": 0.6824,
+      "step": 11240
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1525374276907449e-06,
+      "loss": 0.7322,
+      "step": 11245
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1519004297033847e-06,
+      "loss": 0.6432,
+      "step": 11250
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1512633686179071e-06,
+      "loss": 0.6795,
+      "step": 11255
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1506262446989417e-06,
+      "loss": 0.7229,
+      "step": 11260
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.149989058211144e-06,
+      "loss": 0.6954,
+      "step": 11265
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.149351809419196e-06,
+      "loss": 0.6879,
+      "step": 11270
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.148714498587805e-06,
+      "loss": 0.6642,
+      "step": 11275
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1480771259817048e-06,
+      "loss": 0.7015,
+      "step": 11280
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.147439691865654e-06,
+      "loss": 0.6467,
+      "step": 11285
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1468021965044377e-06,
+      "loss": 0.7045,
+      "step": 11290
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1461646401628654e-06,
+      "loss": 0.6635,
+      "step": 11295
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1455270231057728e-06,
+      "loss": 0.6943,
+      "step": 11300
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.14488934559802e-06,
+      "loss": 0.6626,
+      "step": 11305
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1442516079044932e-06,
+      "loss": 0.6716,
+      "step": 11310
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1436138102901031e-06,
+      "loss": 0.6748,
+      "step": 11315
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.142975953019785e-06,
+      "loss": 0.7028,
+      "step": 11320
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1423380363584999e-06,
+      "loss": 0.6044,
+      "step": 11325
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1417000605712316e-06,
+      "loss": 0.6831,
+      "step": 11330
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1410620259229908e-06,
+      "loss": 0.6632,
+      "step": 11335
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1404239326788115e-06,
+      "loss": 0.6393,
+      "step": 11340
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1397857811037512e-06,
+      "loss": 0.6501,
+      "step": 11345
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1391475714628932e-06,
+      "loss": 0.6398,
+      "step": 11350
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.138509304021344e-06,
+      "loss": 0.6784,
+      "step": 11355
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1378709790442346e-06,
+      "loss": 0.7065,
+      "step": 11360
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1372325967967196e-06,
+      "loss": 0.6189,
+      "step": 11365
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1365941575439772e-06,
+      "loss": 0.6652,
+      "step": 11370
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1359556615512099e-06,
+      "loss": 0.6752,
+      "step": 11375
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1353171090836427e-06,
+      "loss": 0.6668,
+      "step": 11380
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.134678500406525e-06,
+      "loss": 0.6587,
+      "step": 11385
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.13403983578513e-06,
+      "loss": 0.6873,
+      "step": 11390
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1334011154847527e-06,
+      "loss": 0.6975,
+      "step": 11395
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1327623397707122e-06,
+      "loss": 0.6784,
+      "step": 11400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1321235089083502e-06,
+      "loss": 0.6643,
+      "step": 11405
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1314846231630315e-06,
+      "loss": 0.6754,
+      "step": 11410
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1308456828001441e-06,
+      "loss": 0.6689,
+      "step": 11415
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1302066880850975e-06,
+      "loss": 0.6594,
+      "step": 11420
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1295676392833253e-06,
+      "loss": 0.6416,
+      "step": 11425
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1289285366602826e-06,
+      "loss": 0.7223,
+      "step": 11430
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1282893804814468e-06,
+      "loss": 0.6944,
+      "step": 11435
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.127650171012318e-06,
+      "loss": 0.6598,
+      "step": 11440
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.1270109085184182e-06,
+      "loss": 0.7102,
+      "step": 11445
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1263715932652919e-06,
+      "loss": 0.6803,
+      "step": 11450
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1257322255185044e-06,
+      "loss": 0.65,
+      "step": 11455
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1250928055436443e-06,
+      "loss": 0.7018,
+      "step": 11460
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.12445333360632e-06,
+      "loss": 0.6409,
+      "step": 11465
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1238138099721634e-06,
+      "loss": 0.6724,
+      "step": 11470
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1231742349068271e-06,
+      "loss": 0.6854,
+      "step": 11475
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1225346086759846e-06,
+      "loss": 0.7102,
+      "step": 11480
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1218949315453314e-06,
+      "loss": 0.6584,
+      "step": 11485
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1212552037805836e-06,
+      "loss": 0.6584,
+      "step": 11490
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1206154256474786e-06,
+      "loss": 0.6846,
+      "step": 11495
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.119975597411775e-06,
+      "loss": 0.7037,
+      "step": 11500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1193357193392512e-06,
+      "loss": 0.6689,
+      "step": 11505
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1186957916957078e-06,
+      "loss": 0.6556,
+      "step": 11510
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1180558147469642e-06,
+      "loss": 0.6557,
+      "step": 11515
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1174157887588623e-06,
+      "loss": 0.6662,
+      "step": 11520
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1167757139972626e-06,
+      "loss": 0.6702,
+      "step": 11525
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.116135590728047e-06,
+      "loss": 0.6682,
+      "step": 11530
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.115495419217117e-06,
+      "loss": 0.6855,
+      "step": 11535
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.114855199730394e-06,
+      "loss": 0.6796,
+      "step": 11540
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1142149325338199e-06,
+      "loss": 0.6481,
+      "step": 11545
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1135746178933563e-06,
+      "loss": 0.7167,
+      "step": 11550
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.112934256074984e-06,
+      "loss": 0.6602,
+      "step": 11555
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1122938473447038e-06,
+      "loss": 0.6848,
+      "step": 11560
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1116533919685361e-06,
+      "loss": 0.6628,
+      "step": 11565
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1110128902125201e-06,
+      "loss": 0.6826,
+      "step": 11570
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1103723423427153e-06,
+      "loss": 0.6527,
+      "step": 11575
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1097317486251992e-06,
+      "loss": 0.6737,
+      "step": 11580
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.109091109326069e-06,
+      "loss": 0.6854,
+      "step": 11585
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1084504247114406e-06,
+      "loss": 0.7145,
+      "step": 11590
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.107809695047449e-06,
+      "loss": 0.6756,
+      "step": 11595
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1071689206002474e-06,
+      "loss": 0.6725,
+      "step": 11600
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1065281016360083e-06,
+      "loss": 0.7145,
+      "step": 11605
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1058872384209224e-06,
+      "loss": 0.6899,
+      "step": 11610
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1052463312211983e-06,
+      "loss": 0.6344,
+      "step": 11615
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1046053803030637e-06,
+      "loss": 0.654,
+      "step": 11620
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1039643859327635e-06,
+      "loss": 0.6741,
+      "step": 11625
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1033233483765615e-06,
+      "loss": 0.6814,
+      "step": 11630
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1026822679007395e-06,
+      "loss": 0.6565,
+      "step": 11635
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1020411447715961e-06,
+      "loss": 0.6916,
+      "step": 11640
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1013999792554486e-06,
+      "loss": 0.6894,
+      "step": 11645
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1007587716186317e-06,
+      "loss": 0.6698,
+      "step": 11650
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.1001175221274968e-06,
+      "loss": 0.7096,
+      "step": 11655
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.0994762310484142e-06,
+      "loss": 0.6887,
+      "step": 11660
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.0988348986477705e-06,
+      "loss": 0.671,
+      "step": 11665
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.0981935251919693e-06,
+      "loss": 0.6727,
+      "step": 11670
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.0975521109474318e-06,
+      "loss": 0.6777,
+      "step": 11675
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.0969106561805952e-06,
+      "loss": 0.6661,
+      "step": 11680
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.0962691611579154e-06,
+      "loss": 0.6576,
+      "step": 11685
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.0956276261458629e-06,
+      "loss": 0.6415,
+      "step": 11690
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0949860514109264e-06,
+      "loss": 0.6485,
+      "step": 11695
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.09434443721961e-06,
+      "loss": 0.6966,
+      "step": 11700
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0937027838384345e-06,
+      "loss": 0.6746,
+      "step": 11705
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.093061091533938e-06,
+      "loss": 0.6565,
+      "step": 11710
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0924193605726733e-06,
+      "loss": 0.7127,
+      "step": 11715
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0917775912212099e-06,
+      "loss": 0.6738,
+      "step": 11720
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0911357837461332e-06,
+      "loss": 0.6712,
+      "step": 11725
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0904939384140445e-06,
+      "loss": 0.6617,
+      "step": 11730
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0898520554915607e-06,
+      "loss": 0.6919,
+      "step": 11735
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0892101352453142e-06,
+      "loss": 0.6731,
+      "step": 11740
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0885681779419537e-06,
+      "loss": 0.6931,
+      "step": 11745
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0879261838481426e-06,
+      "loss": 0.631,
+      "step": 11750
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0872841532305587e-06,
+      "loss": 0.6515,
+      "step": 11755
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0866420863558969e-06,
+      "loss": 0.6674,
+      "step": 11760
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0859999834908657e-06,
+      "loss": 0.6514,
+      "step": 11765
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0853578449021896e-06,
+      "loss": 0.6393,
+      "step": 11770
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.084715670856607e-06,
+      "loss": 0.6941,
+      "step": 11775
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0840734616208712e-06,
+      "loss": 0.664,
+      "step": 11780
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0834312174617508e-06,
+      "loss": 0.6636,
+      "step": 11785
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0827889386460281e-06,
+      "loss": 0.6756,
+      "step": 11790
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0821466254405004e-06,
+      "loss": 0.7116,
+      "step": 11795
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0815042781119788e-06,
+      "loss": 0.6647,
+      "step": 11800
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0808618969272888e-06,
+      "loss": 0.6404,
+      "step": 11805
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0802194821532702e-06,
+      "loss": 0.6711,
+      "step": 11810
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.079577034056776e-06,
+      "loss": 0.6717,
+      "step": 11815
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.078934552904674e-06,
+      "loss": 0.6705,
+      "step": 11820
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0782920389638452e-06,
+      "loss": 0.6713,
+      "step": 11825
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0776494925011846e-06,
+      "loss": 0.6474,
+      "step": 11830
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0770069137836e-06,
+      "loss": 0.6745,
+      "step": 11835
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0763643030780126e-06,
+      "loss": 0.6773,
+      "step": 11840
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.075721660651358e-06,
+      "loss": 0.6767,
+      "step": 11845
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0750789867705843e-06,
+      "loss": 0.6758,
+      "step": 11850
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0744362817026524e-06,
+      "loss": 0.686,
+      "step": 11855
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0737935457145364e-06,
+      "loss": 0.6736,
+      "step": 11860
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.073150779073223e-06,
+      "loss": 0.668,
+      "step": 11865
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0725079820457123e-06,
+      "loss": 0.7003,
+      "step": 11870
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0718651548990163e-06,
+      "loss": 0.682,
+      "step": 11875
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0712222979001602e-06,
+      "loss": 0.6445,
+      "step": 11880
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0705794113161808e-06,
+      "loss": 0.6872,
+      "step": 11885
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0699364954141276e-06,
+      "loss": 0.6936,
+      "step": 11890
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0692935504610625e-06,
+      "loss": 0.6195,
+      "step": 11895
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.068650576724059e-06,
+      "loss": 0.6658,
+      "step": 11900
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0680075744702034e-06,
+      "loss": 0.6799,
+      "step": 11905
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0673645439665925e-06,
+      "loss": 0.6823,
+      "step": 11910
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0667214854803357e-06,
+      "loss": 0.6677,
+      "step": 11915
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0660783992785541e-06,
+      "loss": 0.6648,
+      "step": 11920
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.06543528562838e-06,
+      "loss": 0.6313,
+      "step": 11925
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0647921447969577e-06,
+      "loss": 0.667,
+      "step": 11930
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0641489770514418e-06,
+      "loss": 0.6567,
+      "step": 11935
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.0635057826589987e-06,
+      "loss": 0.6727,
+      "step": 11940
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0628625618868056e-06,
+      "loss": 0.6835,
+      "step": 11945
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.062219315002051e-06,
+      "loss": 0.6329,
+      "step": 11950
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.061576042271934e-06,
+      "loss": 0.6823,
+      "step": 11955
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0609327439636647e-06,
+      "loss": 0.6514,
+      "step": 11960
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0602894203444633e-06,
+      "loss": 0.716,
+      "step": 11965
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0596460716815612e-06,
+      "loss": 0.6778,
+      "step": 11970
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.059002698242199e-06,
+      "loss": 0.6671,
+      "step": 11975
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0583593002936298e-06,
+      "loss": 0.6936,
+      "step": 11980
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0577158781031147e-06,
+      "loss": 0.7211,
+      "step": 11985
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0570724319379254e-06,
+      "loss": 0.6667,
+      "step": 11990
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0564289620653446e-06,
+      "loss": 0.7181,
+      "step": 11995
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.0557854687526632e-06,
+      "loss": 0.6431,
+      "step": 12000
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.6379530429840088,
+      "eval_runtime": 144.8913,
+      "eval_samples_per_second": 16.329,
+      "eval_steps_per_second": 2.726,
+      "step": 12000
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 400,
+  "total_flos": 1676879253282816.0,
   "trial_name": null,
   "trial_params": null
 }