Model save

Browse files

Files changed (5) hide show

README.md +2 -2
all_results.json +6 -2
runs/Apr04_11-37-03_ab9c0969efb8/events.out.tfevents.1712233586.ab9c0969efb8.34.1 +2 -2
test_results.json +6 -2
trainer_state.json +396 -231

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MCG-NJU/videomae-base-finetuned-ssv2](https://huggingface.co/MCG-NJU/videomae-base-finetuned-ssv2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 3.8114
-- Accuracy: 0.375
 ## Model description

 This model is a fine-tuned version of [MCG-NJU/videomae-base-finetuned-ssv2](https://huggingface.co/MCG-NJU/videomae-base-finetuned-ssv2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 3.1259
+- Accuracy: 0.41
 ## Model description

all_results.json CHANGED Viewed

@@ -1,4 +1,8 @@
 {
-    "eval_accuracy": 1.0,
-    "eval_loss": 0.026988975703716278
 }

 {
+    "epoch": 7.12,
+    "eval_accuracy": 0.375,
+    "eval_loss": 3.811370849609375,
+    "eval_runtime": 14.4555,
+    "eval_samples_per_second": 1.107,
+    "eval_steps_per_second": 0.553
 }

runs/Apr04_11-37-03_ab9c0969efb8/events.out.tfevents.1712233586.ab9c0969efb8.34.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46e943c72a6b4fe5b7dcf14506d3fb35afd7cfeb836edd0d51131ec190430162
-size 411

 version https://git-lfs.github.com/spec/v1
+oid sha256:39ab275d0def41e8a2ce80e3c3037ca98ef5be9fe1d94c3b26fc0dfe97a66bf6
+size 1057

test_results.json CHANGED Viewed

@@ -1,4 +1,8 @@
 {
-    "eval_accuracy": 1.0,
-    "eval_loss": 0.026988975703716278
 }

 {
+    "epoch": 7.12,
+    "eval_accuracy": 0.375,
+    "eval_loss": 3.811370849609375,
+    "eval_runtime": 14.4555,
+    "eval_samples_per_second": 1.107,
+    "eval_steps_per_second": 0.553
 }

trainer_state.json CHANGED Viewed

@@ -1,374 +1,539 @@
 {
-  "best_metric": 1.0,
-  "best_model_checkpoint": "videomae-base-finetuned-ssv2-finetuned-traffic-dataset-mae/checkpoint-168",
-  "epoch": 7.011160714285714,
   "eval_steps": 500,
-  "global_step": 397,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02,
-      "grad_norm": 14.671374320983887,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.7193,
       "step": 10
     },
     {
-      "epoch": 0.04,
-      "grad_norm": 7.1641387939453125,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.5298,
       "step": 20
     },
     {
-      "epoch": 0.07,
-      "grad_norm": 3.540851354598999,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.3106,
       "step": 30
     },
     {
-      "epoch": 0.09,
-      "grad_norm": 1.9156169891357422,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.8657,
       "step": 40
     },
     {
-      "epoch": 0.11,
-      "grad_norm": 2.8788669109344482,
-      "learning_rate": 4.937965260545906e-05,
-      "loss": 0.6144,
       "step": 50
     },
     {
-      "epoch": 0.12,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.27961549162864685,
-      "eval_runtime": 24.2905,
-      "eval_samples_per_second": 0.576,
-      "eval_steps_per_second": 0.288,
-      "step": 56
-    },
-    {
-      "epoch": 1.01,
-      "grad_norm": 16.718944549560547,
-      "learning_rate": 4.8138957816377175e-05,
-      "loss": 0.4883,
       "step": 60
     },
     {
-      "epoch": 1.03,
-      "grad_norm": 0.7438091039657593,
-      "learning_rate": 4.689826302729529e-05,
-      "loss": 0.236,
       "step": 70
     },
     {
-      "epoch": 1.05,
-      "grad_norm": 1.806220293045044,
-      "learning_rate": 4.56575682382134e-05,
-      "loss": 0.4257,
       "step": 80
     },
     {
-      "epoch": 1.08,
-      "grad_norm": 4.333924293518066,
-      "learning_rate": 4.441687344913151e-05,
-      "loss": 0.169,
       "step": 90
     },
     {
-      "epoch": 1.1,
-      "grad_norm": 3.9030086994171143,
-      "learning_rate": 4.317617866004963e-05,
-      "loss": 0.313,
       "step": 100
     },
     {
-      "epoch": 1.12,
-      "grad_norm": 0.010061407461762428,
-      "learning_rate": 4.1935483870967746e-05,
-      "loss": 0.0637,
       "step": 110
     },
     {
-      "epoch": 1.12,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.11744929850101471,
-      "eval_runtime": 24.0323,
-      "eval_samples_per_second": 0.583,
-      "eval_steps_per_second": 0.291,
-      "step": 112
-    },
-    {
-      "epoch": 2.02,
-      "grad_norm": 0.009479613974690437,
-      "learning_rate": 4.069478908188586e-05,
-      "loss": 0.2538,
       "step": 120
     },
     {
-      "epoch": 2.04,
-      "grad_norm": 0.21475882828235626,
-      "learning_rate": 3.945409429280397e-05,
-      "loss": 0.1613,
       "step": 130
     },
     {
-      "epoch": 2.06,
-      "grad_norm": 0.05664811283349991,
-      "learning_rate": 3.8213399503722084e-05,
-      "loss": 0.5442,
       "step": 140
     },
     {
-      "epoch": 2.08,
-      "grad_norm": 1.2033185958862305,
-      "learning_rate": 3.69727047146402e-05,
-      "loss": 0.737,
       "step": 150
     },
     {
-      "epoch": 2.11,
-      "grad_norm": 0.01298306230455637,
-      "learning_rate": 3.573200992555831e-05,
-      "loss": 0.4911,
       "step": 160
     },
     {
       "epoch": 2.12,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028704656288027763,
-      "eval_runtime": 20.2796,
-      "eval_samples_per_second": 0.69,
-      "eval_steps_per_second": 0.345,
-      "step": 168
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.12567199766635895,
-      "learning_rate": 3.449131513647643e-05,
-      "loss": 0.267,
-      "step": 170
     },
     {
-      "epoch": 3.03,
-      "grad_norm": 0.3274080753326416,
-      "learning_rate": 3.325062034739454e-05,
-      "loss": 0.2982,
-      "step": 180
     },
     {
       "epoch": 3.05,
-      "grad_norm": 5.183434963226318,
-      "learning_rate": 3.200992555831266e-05,
-      "loss": 0.2744,
-      "step": 190
     },
     {
       "epoch": 3.07,
-      "grad_norm": 0.20806659758090973,
-      "learning_rate": 3.0769230769230774e-05,
-      "loss": 0.0124,
-      "step": 200
     },
     {
       "epoch": 3.09,
-      "grad_norm": 0.04709279537200928,
-      "learning_rate": 2.9528535980148887e-05,
-      "loss": 0.0025,
-      "step": 210
     },
     {
       "epoch": 3.12,
-      "grad_norm": 0.0054036942310631275,
-      "learning_rate": 2.8287841191067e-05,
-      "loss": 0.3625,
-      "step": 220
     },
     {
       "epoch": 3.12,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.08213090896606445,
-      "eval_runtime": 24.8422,
-      "eval_samples_per_second": 0.564,
-      "eval_steps_per_second": 0.282,
-      "step": 224
     },
     {
       "epoch": 4.01,
-      "grad_norm": 0.09801805019378662,
-      "learning_rate": 2.7047146401985113e-05,
-      "loss": 0.0082,
-      "step": 230
     },
     {
       "epoch": 4.04,
-      "grad_norm": 0.009371934458613396,
-      "learning_rate": 2.5806451612903226e-05,
-      "loss": 0.2331,
-      "step": 240
     },
     {
       "epoch": 4.06,
-      "grad_norm": 0.33655962347984314,
-      "learning_rate": 2.4565756823821338e-05,
-      "loss": 0.1461,
-      "step": 250
     },
     {
       "epoch": 4.08,
-      "grad_norm": 0.009524806402623653,
-      "learning_rate": 2.3325062034739454e-05,
-      "loss": 0.3265,
-      "step": 260
     },
     {
-      "epoch": 4.1,
-      "grad_norm": 0.0037162320222705603,
-      "learning_rate": 2.208436724565757e-05,
-      "loss": 0.001,
-      "step": 270
     },
     {
       "epoch": 4.12,
-      "grad_norm": 0.005654833745211363,
-      "learning_rate": 2.0843672456575683e-05,
-      "loss": 0.1472,
-      "step": 280
     },
     {
       "epoch": 4.12,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.27267220616340637,
-      "eval_runtime": 24.1835,
-      "eval_samples_per_second": 0.579,
-      "eval_steps_per_second": 0.289,
-      "step": 280
     },
     {
       "epoch": 5.02,
-      "grad_norm": 1.0853424072265625,
-      "learning_rate": 1.9602977667493796e-05,
-      "loss": 0.0061,
-      "step": 290
     },
     {
-      "epoch": 5.04,
-      "grad_norm": 0.10893365740776062,
-      "learning_rate": 1.8362282878411912e-05,
-      "loss": 0.0329,
-      "step": 300
     },
     {
       "epoch": 5.07,
-      "grad_norm": 0.003927825018763542,
-      "learning_rate": 1.7121588089330025e-05,
-      "loss": 0.0124,
-      "step": 310
     },
     {
-      "epoch": 5.09,
-      "grad_norm": 0.03731616213917732,
-      "learning_rate": 1.588089330024814e-05,
-      "loss": 0.1577,
-      "step": 320
     },
     {
-      "epoch": 5.11,
-      "grad_norm": 0.027107276022434235,
-      "learning_rate": 1.4640198511166252e-05,
-      "loss": 0.0068,
-      "step": 330
     },
     {
       "epoch": 5.12,
-      "eval_accuracy": 0.7142857142857143,
-      "eval_loss": 1.524235486984253,
-      "eval_runtime": 22.5747,
-      "eval_samples_per_second": 0.62,
-      "eval_steps_per_second": 0.31,
-      "step": 336
     },
     {
       "epoch": 6.01,
-      "grad_norm": 0.015361560508608818,
-      "learning_rate": 1.3399503722084367e-05,
-      "loss": 0.0155,
-      "step": 340
     },
     {
-      "epoch": 6.03,
-      "grad_norm": 0.009546751156449318,
-      "learning_rate": 1.2158808933002481e-05,
-      "loss": 0.2251,
-      "step": 350
     },
     {
-      "epoch": 6.05,
-      "grad_norm": 0.00286727212369442,
-      "learning_rate": 1.0918114143920596e-05,
-      "loss": 0.0003,
-      "step": 360
     },
     {
-      "epoch": 6.08,
-      "grad_norm": 0.006020919419825077,
-      "learning_rate": 9.67741935483871e-06,
-      "loss": 0.0016,
-      "step": 370
     },
     {
-      "epoch": 6.1,
-      "grad_norm": 0.0052633825689554214,
-      "learning_rate": 8.436724565756825e-06,
-      "loss": 0.2976,
-      "step": 380
     },
     {
       "epoch": 6.12,
-      "grad_norm": 0.006017320789396763,
-      "learning_rate": 7.1960297766749385e-06,
-      "loss": 0.0009,
-      "step": 390
     },
     {
       "epoch": 6.12,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.7878251671791077,
-      "eval_runtime": 24.9105,
-      "eval_samples_per_second": 0.562,
-      "eval_steps_per_second": 0.281,
-      "step": 392
     },
     {
       "epoch": 7.01,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.026988975703716278,
-      "eval_runtime": 5.8255,
-      "eval_samples_per_second": 0.687,
-      "eval_steps_per_second": 0.343,
-      "step": 397
     },
     {
-      "epoch": 7.01,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.026988975703716278,
-      "eval_runtime": 5.8152,
-      "eval_samples_per_second": 0.688,
-      "eval_steps_per_second": 0.344,
-      "step": 397
     }
   ],
   "logging_steps": 10,
-  "max_steps": 448,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
-  "total_flos": 9.769146381458473e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.927536231884058,
+  "best_model_checkpoint": "videomae-base-finetuned-ssv2-finetuned-traffic-dataset-mae/checkpoint-456",
+  "epoch": 7.125,
   "eval_steps": 500,
+  "global_step": 608,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02,
+      "grad_norm": 10.86192798614502,
+      "learning_rate": 8.196721311475409e-06,
+      "loss": 0.6065,
       "step": 10
     },
     {
+      "epoch": 0.03,
+      "grad_norm": 5.969607830047607,
+      "learning_rate": 1.6393442622950818e-05,
+      "loss": 0.5224,
       "step": 20
     },
     {
+      "epoch": 0.05,
+      "grad_norm": 7.2913336753845215,
+      "learning_rate": 2.459016393442623e-05,
+      "loss": 0.5223,
       "step": 30
     },
     {
+      "epoch": 0.07,
+      "grad_norm": 1.6693388223648071,
+      "learning_rate": 3.2786885245901635e-05,
+      "loss": 0.1888,
       "step": 40
     },
     {
+      "epoch": 0.08,
+      "grad_norm": 1.9622797966003418,
+      "learning_rate": 4.098360655737705e-05,
+      "loss": 0.2521,
       "step": 50
     },
     {
+      "epoch": 0.1,
+      "grad_norm": 1.1212589740753174,
+      "learning_rate": 4.918032786885246e-05,
+      "loss": 0.0138,
       "step": 60
     },
     {
+      "epoch": 0.12,
+      "grad_norm": 0.07918030023574829,
+      "learning_rate": 4.917733089579525e-05,
+      "loss": 0.0309,
       "step": 70
     },
     {
+      "epoch": 0.12,
+      "eval_accuracy": 0.9130434782608695,
+      "eval_loss": 0.30077555775642395,
+      "eval_runtime": 121.2516,
+      "eval_samples_per_second": 0.569,
+      "eval_steps_per_second": 0.289,
+      "step": 76
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 0.09372598677873611,
+      "learning_rate": 4.826325411334552e-05,
+      "loss": 0.0042,
       "step": 80
     },
     {
+      "epoch": 1.02,
+      "grad_norm": 0.016796614974737167,
+      "learning_rate": 4.73491773308958e-05,
+      "loss": 0.0007,
       "step": 90
     },
     {
+      "epoch": 1.04,
+      "grad_norm": 0.020755194127559662,
+      "learning_rate": 4.643510054844607e-05,
+      "loss": 0.3019,
       "step": 100
     },
     {
+      "epoch": 1.06,
+      "grad_norm": 0.011669596657156944,
+      "learning_rate": 4.5521023765996346e-05,
+      "loss": 0.0003,
       "step": 110
     },
     {
+      "epoch": 1.07,
+      "grad_norm": 0.003766011679545045,
+      "learning_rate": 4.460694698354662e-05,
+      "loss": 0.0002,
       "step": 120
     },
     {
+      "epoch": 1.09,
+      "grad_norm": 0.08908724784851074,
+      "learning_rate": 4.369287020109689e-05,
+      "loss": 0.0002,
       "step": 130
     },
     {
+      "epoch": 1.11,
+      "grad_norm": 0.005499520804733038,
+      "learning_rate": 4.2778793418647164e-05,
+      "loss": 0.0002,
       "step": 140
     },
     {
+      "epoch": 1.12,
+      "grad_norm": 0.005470686126500368,
+      "learning_rate": 4.1864716636197444e-05,
+      "loss": 0.0002,
       "step": 150
     },
     {
+      "epoch": 1.12,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_loss": 2.1030023097991943,
+      "eval_runtime": 100.6515,
+      "eval_samples_per_second": 0.686,
+      "eval_steps_per_second": 0.348,
+      "step": 152
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 0.0026209524367004633,
+      "learning_rate": 4.095063985374772e-05,
+      "loss": 0.0001,
       "step": 160
     },
+    {
+      "epoch": 2.03,
+      "grad_norm": 0.009242965839803219,
+      "learning_rate": 4.003656307129799e-05,
+      "loss": 0.0001,
+      "step": 170
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 0.0026453358586877584,
+      "learning_rate": 3.912248628884826e-05,
+      "loss": 0.0001,
+      "step": 180
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 0.0033517158590257168,
+      "learning_rate": 3.820840950639854e-05,
+      "loss": 0.0001,
+      "step": 190
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.003627925645560026,
+      "learning_rate": 3.7294332723948815e-05,
+      "loss": 0.0001,
+      "step": 200
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 0.002879067324101925,
+      "learning_rate": 3.638025594149909e-05,
+      "loss": 0.0001,
+      "step": 210
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 0.0036734691821038723,
+      "learning_rate": 3.546617915904936e-05,
+      "loss": 0.0001,
+      "step": 220
+    },
     {
       "epoch": 2.12,
+      "eval_accuracy": 0.7101449275362319,
+      "eval_loss": 1.84578275680542,
+      "eval_runtime": 105.6436,
+      "eval_samples_per_second": 0.653,
+      "eval_steps_per_second": 0.331,
+      "step": 228
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.0011968453181907535,
+      "learning_rate": 3.455210237659964e-05,
+      "loss": 0.0001,
+      "step": 230
     },
     {
+      "epoch": 3.02,
+      "grad_norm": 0.0024677019100636244,
+      "learning_rate": 3.3638025594149906e-05,
+      "loss": 0.0001,
+      "step": 240
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 0.0011525729205459356,
+      "learning_rate": 3.2723948811700186e-05,
+      "loss": 0.0001,
+      "step": 250
     },
     {
       "epoch": 3.05,
+      "grad_norm": 0.003028567647561431,
+      "learning_rate": 3.180987202925046e-05,
+      "loss": 0.0001,
+      "step": 260
     },
     {
       "epoch": 3.07,
+      "grad_norm": 0.0027707908302545547,
+      "learning_rate": 3.089579524680074e-05,
+      "loss": 0.0001,
+      "step": 270
     },
     {
       "epoch": 3.09,
+      "grad_norm": 0.0017000396037474275,
+      "learning_rate": 2.9981718464351004e-05,
+      "loss": 0.0001,
+      "step": 280
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 0.002608270151540637,
+      "learning_rate": 2.906764168190128e-05,
+      "loss": 0.0001,
+      "step": 290
     },
     {
       "epoch": 3.12,
+      "grad_norm": 0.0012394236400723457,
+      "learning_rate": 2.8153564899451557e-05,
+      "loss": 0.0,
+      "step": 300
     },
     {
       "epoch": 3.12,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 1.5200165510177612,
+      "eval_runtime": 117.7366,
+      "eval_samples_per_second": 0.586,
+      "eval_steps_per_second": 0.297,
+      "step": 304
     },
     {
       "epoch": 4.01,
+      "grad_norm": 0.00229161255992949,
+      "learning_rate": 2.7239488117001826e-05,
+      "loss": 0.0001,
+      "step": 310
+    },
+    {
+      "epoch": 4.03,
+      "grad_norm": 0.0013108043931424618,
+      "learning_rate": 2.6325411334552102e-05,
+      "loss": 0.0001,
+      "step": 320
     },
     {
       "epoch": 4.04,
+      "grad_norm": 0.0012365940492600203,
+      "learning_rate": 2.541133455210238e-05,
+      "loss": 0.0,
+      "step": 330
     },
     {
       "epoch": 4.06,
+      "grad_norm": 0.002082814695313573,
+      "learning_rate": 2.449725776965265e-05,
+      "loss": 0.0001,
+      "step": 340
     },
     {
       "epoch": 4.08,
+      "grad_norm": 0.0035416895989328623,
+      "learning_rate": 2.3583180987202927e-05,
+      "loss": 0.0001,
+      "step": 350
     },
     {
+      "epoch": 4.09,
+      "grad_norm": 0.0009142422350123525,
+      "learning_rate": 2.26691042047532e-05,
+      "loss": 0.0001,
+      "step": 360
+    },
+    {
+      "epoch": 4.11,
+      "grad_norm": 0.0014322904171422124,
+      "learning_rate": 2.1755027422303476e-05,
+      "loss": 0.0001,
+      "step": 370
     },
     {
       "epoch": 4.12,
+      "grad_norm": 0.0017242878675460815,
+      "learning_rate": 2.084095063985375e-05,
+      "loss": 0.0001,
+      "step": 380
     },
     {
       "epoch": 4.12,
+      "eval_accuracy": 0.7536231884057971,
+      "eval_loss": 1.4568772315979004,
+      "eval_runtime": 106.8623,
+      "eval_samples_per_second": 0.646,
+      "eval_steps_per_second": 0.328,
+      "step": 380
     },
     {
       "epoch": 5.02,
+      "grad_norm": 0.0011396174086257815,
+      "learning_rate": 1.9926873857404025e-05,
+      "loss": 0.0001,
+      "step": 390
     },
     {
+      "epoch": 5.03,
+      "grad_norm": 0.0009178342879749835,
+      "learning_rate": 1.90127970749543e-05,
+      "loss": 0.0,
+      "step": 400
+    },
+    {
+      "epoch": 5.05,
+      "grad_norm": 0.0034428227227181196,
+      "learning_rate": 1.809872029250457e-05,
+      "loss": 0.0,
+      "step": 410
     },
     {
       "epoch": 5.07,
+      "grad_norm": 0.0011987154139205813,
+      "learning_rate": 1.7184643510054847e-05,
+      "loss": 0.0,
+      "step": 420
     },
     {
+      "epoch": 5.08,
+      "grad_norm": 0.000779572525061667,
+      "learning_rate": 1.627056672760512e-05,
+      "loss": 0.0,
+      "step": 430
     },
     {
+      "epoch": 5.1,
+      "grad_norm": 0.0013000366743654013,
+      "learning_rate": 1.5356489945155393e-05,
+      "loss": 0.0003,
+      "step": 440
+    },
+    {
+      "epoch": 5.12,
+      "grad_norm": 0.0019034247379750013,
+      "learning_rate": 1.4442413162705667e-05,
+      "loss": 0.0,
+      "step": 450
     },
     {
       "epoch": 5.12,
+      "eval_accuracy": 0.927536231884058,
+      "eval_loss": 0.39408108592033386,
+      "eval_runtime": 103.5083,
+      "eval_samples_per_second": 0.667,
+      "eval_steps_per_second": 0.338,
+      "step": 456
     },
     {
       "epoch": 6.01,
+      "grad_norm": 0.0016774114919826388,
+      "learning_rate": 1.3528336380255944e-05,
+      "loss": 0.0005,
+      "step": 460
     },
     {
+      "epoch": 6.02,
+      "grad_norm": 0.0013074069283902645,
+      "learning_rate": 1.2614259597806216e-05,
+      "loss": 0.0001,
+      "step": 470
     },
     {
+      "epoch": 6.04,
+      "grad_norm": 0.0015878825215622783,
+      "learning_rate": 1.1700182815356491e-05,
+      "loss": 0.0001,
+      "step": 480
     },
     {
+      "epoch": 6.06,
+      "grad_norm": 0.0008045001304708421,
+      "learning_rate": 1.0786106032906766e-05,
+      "loss": 0.0001,
+      "step": 490
     },
     {
+      "epoch": 6.07,
+      "grad_norm": 0.0012260900111868978,
+      "learning_rate": 9.872029250457038e-06,
+      "loss": 0.0002,
+      "step": 500
+    },
+    {
+      "epoch": 6.09,
+      "grad_norm": 0.001507502980530262,
+      "learning_rate": 8.957952468007313e-06,
+      "loss": 0.0001,
+      "step": 510
+    },
+    {
+      "epoch": 6.11,
+      "grad_norm": 0.001074848580174148,
+      "learning_rate": 8.043875685557587e-06,
+      "loss": 0.0001,
+      "step": 520
     },
     {
       "epoch": 6.12,
+      "grad_norm": 0.0012807522434741259,
+      "learning_rate": 7.129798903107861e-06,
+      "loss": 0.0001,
+      "step": 530
     },
     {
       "epoch": 6.12,
+      "eval_accuracy": 0.8695652173913043,
+      "eval_loss": 0.9657596945762634,
+      "eval_runtime": 105.1521,
+      "eval_samples_per_second": 0.656,
+      "eval_steps_per_second": 0.333,
+      "step": 532
     },
     {
       "epoch": 7.01,
+      "grad_norm": 0.0008385140681639314,
+      "learning_rate": 6.2157221206581355e-06,
+      "loss": 0.0,
+      "step": 540
     },
     {
+      "epoch": 7.03,
+      "grad_norm": 0.001427665469236672,
+      "learning_rate": 5.301645338208409e-06,
+      "loss": 0.0,
+      "step": 550
+    },
+    {
+      "epoch": 7.05,
+      "grad_norm": 0.001054079388268292,
+      "learning_rate": 4.387568555758684e-06,
+      "loss": 0.0001,
+      "step": 560
+    },
+    {
+      "epoch": 7.06,
+      "grad_norm": 0.0016839707968756557,
+      "learning_rate": 3.4734917733089582e-06,
+      "loss": 0.0001,
+      "step": 570
+    },
+    {
+      "epoch": 7.08,
+      "grad_norm": 0.0011065697763115168,
+      "learning_rate": 2.5594149908592323e-06,
+      "loss": 0.0,
+      "step": 580
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 0.0027244570665061474,
+      "learning_rate": 1.6453382084095064e-06,
+      "loss": 0.0,
+      "step": 590
+    },
+    {
+      "epoch": 7.11,
+      "grad_norm": 0.002320781582966447,
+      "learning_rate": 7.312614259597807e-07,
+      "loss": 0.0001,
+      "step": 600
+    },
+    {
+      "epoch": 7.12,
+      "eval_accuracy": 0.8405797101449275,
+      "eval_loss": 0.983595609664917,
+      "eval_runtime": 105.1841,
+      "eval_samples_per_second": 0.656,
+      "eval_steps_per_second": 0.333,
+      "step": 608
+    },
+    {
+      "epoch": 7.12,
+      "step": 608,
+      "total_flos": 1.5152145407976407e+18,
+      "train_loss": 0.040272084387700156,
+      "train_runtime": 2933.2373,
+      "train_samples_per_second": 0.415,
+      "train_steps_per_second": 0.207
+    },
+    {
+      "epoch": 7.12,
+      "eval_accuracy": 0.375,
+      "eval_loss": 3.811370849609375,
+      "eval_runtime": 15.0567,
+      "eval_samples_per_second": 1.063,
+      "eval_steps_per_second": 0.531,
+      "step": 608
+    },
+    {
+      "epoch": 7.12,
+      "eval_accuracy": 0.375,
+      "eval_loss": 3.811370849609375,
+      "eval_runtime": 14.4555,
+      "eval_samples_per_second": 1.107,
+      "eval_steps_per_second": 0.553,
+      "step": 608
     }
   ],
   "logging_steps": 10,
+  "max_steps": 608,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
+  "total_flos": 1.5152145407976407e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null