🍻 cheers

Browse files

Files changed (6) hide show

README.md +4 -3
all_results.json +11 -11
eval_results.json +6 -6
runs/Oct01_12-13-49_a59caee1d103/events.out.tfevents.1727788202.a59caee1d103.4704.13 +3 -0
train_results.json +6 -6
trainer_state.json +215 -551

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -16,10 +17,10 @@ should probably proofread and complete it, then remove this comment. -->
 # finetuned-fake-food
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3455
-- Accuracy: 0.8541
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # finetuned-fake-food
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the indian_food_images dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3199
+- Accuracy: 0.8720
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.6164383561643836,
-    "eval_loss": 0.6574238538742065,
-    "eval_runtime": 6.2004,
-    "eval_samples_per_second": 23.547,
-    "eval_steps_per_second": 3.064,
-    "total_flos": 6.400838342165299e+17,
-    "train_loss": 0.6831480086282725,
-    "train_runtime": 1157.4221,
-    "train_samples_per_second": 7.137,
-    "train_steps_per_second": 3.568
 }

 {
+    "epoch": 2.5284450063211126,
+    "eval_accuracy": 0.8719785138764548,
+    "eval_loss": 0.3198860287666321,
+    "eval_runtime": 79.7356,
+    "eval_samples_per_second": 14.009,
+    "eval_steps_per_second": 1.756,
+    "total_flos": 1.2397168498542428e+18,
+    "train_loss": 0.49920871353149415,
+    "train_runtime": 3192.0436,
+    "train_samples_per_second": 5.012,
+    "train_steps_per_second": 0.627
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.6164383561643836,
-    "eval_loss": 0.6574238538742065,
-    "eval_runtime": 6.2004,
-    "eval_samples_per_second": 23.547,
-    "eval_steps_per_second": 3.064
 }

 {
+    "epoch": 2.5284450063211126,
+    "eval_accuracy": 0.8719785138764548,
+    "eval_loss": 0.3198860287666321,
+    "eval_runtime": 79.7356,
+    "eval_samples_per_second": 14.009,
+    "eval_steps_per_second": 1.756
 }

runs/Oct01_12-13-49_a59caee1d103/events.out.tfevents.1727788202.a59caee1d103.4704.13 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1be6c5de00393ad2a2b627973c4c86df3c1d4e27dc2028aff98dfeb9a620f001
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "total_flos": 6.400838342165299e+17,
-    "train_loss": 0.6831480086282725,
-    "train_runtime": 1157.4221,
-    "train_samples_per_second": 7.137,
-    "train_steps_per_second": 3.568
 }

 {
+    "epoch": 2.5284450063211126,
+    "total_flos": 1.2397168498542428e+18,
+    "train_loss": 0.49920871353149415,
+    "train_runtime": 3192.0436,
+    "train_samples_per_second": 5.012,
+    "train_steps_per_second": 0.627
 }

trainer_state.json CHANGED Viewed

@@ -1,683 +1,347 @@
 {
-  "best_metric": 0.6574238538742065,
-  "best_model_checkpoint": "finetuned-fake-food/checkpoint-4000",
-  "epoch": 10.0,
   "eval_steps": 100,
-  "global_step": 4130,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.24213075060532688,
-      "grad_norm": 0.15737777948379517,
-      "learning_rate": 0.00019515738498789345,
-      "loss": 0.6977,
       "step": 100
     },
     {
-      "epoch": 0.24213075060532688,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6804767847061157,
-      "eval_runtime": 5.525,
-      "eval_samples_per_second": 26.425,
-      "eval_steps_per_second": 3.439,
       "step": 100
     },
     {
-      "epoch": 0.48426150121065376,
-      "grad_norm": 0.03558634594082832,
-      "learning_rate": 0.00019031476997578695,
-      "loss": 0.6956,
       "step": 200
     },
     {
-      "epoch": 0.48426150121065376,
-      "eval_accuracy": 0.4178082191780822,
-      "eval_loss": 0.6935968399047852,
-      "eval_runtime": 5.2465,
-      "eval_samples_per_second": 27.828,
-      "eval_steps_per_second": 3.621,
       "step": 200
     },
     {
-      "epoch": 0.7263922518159807,
-      "grad_norm": 1.5009288787841797,
-      "learning_rate": 0.0001854721549636804,
-      "loss": 0.6795,
       "step": 300
     },
     {
-      "epoch": 0.7263922518159807,
-      "eval_accuracy": 0.6506849315068494,
-      "eval_loss": 0.6734184622764587,
-      "eval_runtime": 5.9372,
-      "eval_samples_per_second": 24.591,
-      "eval_steps_per_second": 3.2,
       "step": 300
     },
     {
-      "epoch": 0.9685230024213075,
-      "grad_norm": 0.23967677354812622,
-      "learning_rate": 0.00018062953995157384,
-      "loss": 0.7061,
       "step": 400
     },
     {
-      "epoch": 0.9685230024213075,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6760488152503967,
-      "eval_runtime": 5.7531,
-      "eval_samples_per_second": 25.378,
-      "eval_steps_per_second": 3.303,
       "step": 400
     },
     {
-      "epoch": 1.2106537530266344,
-      "grad_norm": 2.081388235092163,
-      "learning_rate": 0.00017578692493946732,
-      "loss": 0.6941,
       "step": 500
     },
     {
-      "epoch": 1.2106537530266344,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6746240854263306,
-      "eval_runtime": 5.812,
-      "eval_samples_per_second": 25.121,
-      "eval_steps_per_second": 3.269,
       "step": 500
     },
     {
-      "epoch": 1.4527845036319613,
-      "grad_norm": 0.4285804331302643,
-      "learning_rate": 0.0001709443099273608,
-      "loss": 0.6898,
       "step": 600
     },
     {
-      "epoch": 1.4527845036319613,
-      "eval_accuracy": 0.6027397260273972,
-      "eval_loss": 0.6674954891204834,
-      "eval_runtime": 6.1547,
-      "eval_samples_per_second": 23.722,
-      "eval_steps_per_second": 3.087,
       "step": 600
     },
     {
-      "epoch": 1.694915254237288,
-      "grad_norm": 0.12052281200885773,
-      "learning_rate": 0.00016610169491525423,
-      "loss": 0.6956,
       "step": 700
     },
     {
-      "epoch": 1.694915254237288,
-      "eval_accuracy": 0.5753424657534246,
-      "eval_loss": 0.684603750705719,
-      "eval_runtime": 6.0144,
-      "eval_samples_per_second": 24.275,
-      "eval_steps_per_second": 3.159,
       "step": 700
     },
     {
-      "epoch": 1.937046004842615,
-      "grad_norm": 0.3585425913333893,
-      "learning_rate": 0.0001612590799031477,
-      "loss": 0.6847,
       "step": 800
     },
     {
-      "epoch": 1.937046004842615,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6745873093605042,
-      "eval_runtime": 5.8427,
-      "eval_samples_per_second": 24.988,
-      "eval_steps_per_second": 3.252,
       "step": 800
     },
     {
-      "epoch": 2.179176755447942,
-      "grad_norm": 1.2445541620254517,
-      "learning_rate": 0.00015641646489104115,
-      "loss": 0.6949,
       "step": 900
     },
     {
-      "epoch": 2.179176755447942,
-      "eval_accuracy": 0.589041095890411,
-      "eval_loss": 0.6779718399047852,
-      "eval_runtime": 4.8307,
-      "eval_samples_per_second": 30.223,
-      "eval_steps_per_second": 3.933,
       "step": 900
     },
     {
-      "epoch": 2.4213075060532687,
-      "grad_norm": 1.429865837097168,
-      "learning_rate": 0.00015157384987893465,
-      "loss": 0.703,
       "step": 1000
     },
     {
-      "epoch": 2.4213075060532687,
-      "eval_accuracy": 0.5753424657534246,
-      "eval_loss": 0.6894732117652893,
-      "eval_runtime": 5.0834,
-      "eval_samples_per_second": 28.721,
-      "eval_steps_per_second": 3.738,
       "step": 1000
     },
     {
-      "epoch": 2.663438256658596,
-      "grad_norm": 1.2485073804855347,
-      "learning_rate": 0.0001467312348668281,
-      "loss": 0.6851,
       "step": 1100
     },
     {
-      "epoch": 2.663438256658596,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6741558909416199,
-      "eval_runtime": 6.0858,
-      "eval_samples_per_second": 23.99,
-      "eval_steps_per_second": 3.122,
       "step": 1100
     },
     {
-      "epoch": 2.9055690072639226,
-      "grad_norm": 0.1997382789850235,
-      "learning_rate": 0.00014188861985472154,
-      "loss": 0.6878,
       "step": 1200
     },
     {
-      "epoch": 2.9055690072639226,
-      "eval_accuracy": 0.6301369863013698,
-      "eval_loss": 0.674239456653595,
-      "eval_runtime": 6.1499,
-      "eval_samples_per_second": 23.74,
-      "eval_steps_per_second": 3.089,
       "step": 1200
     },
     {
-      "epoch": 3.1476997578692494,
-      "grad_norm": 0.4324168860912323,
-      "learning_rate": 0.00013704600484261504,
-      "loss": 0.68,
       "step": 1300
     },
     {
-      "epoch": 3.1476997578692494,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6712663173675537,
-      "eval_runtime": 6.0266,
-      "eval_samples_per_second": 24.226,
-      "eval_steps_per_second": 3.153,
       "step": 1300
     },
     {
-      "epoch": 3.389830508474576,
-      "grad_norm": 0.9948041439056396,
-      "learning_rate": 0.00013220338983050849,
-      "loss": 0.6728,
       "step": 1400
     },
     {
-      "epoch": 3.389830508474576,
-      "eval_accuracy": 0.5958904109589042,
-      "eval_loss": 0.6838211417198181,
-      "eval_runtime": 6.1631,
-      "eval_samples_per_second": 23.689,
-      "eval_steps_per_second": 3.083,
       "step": 1400
     },
     {
-      "epoch": 3.6319612590799033,
-      "grad_norm": 1.2490299940109253,
-      "learning_rate": 0.00012736077481840193,
-      "loss": 0.698,
       "step": 1500
     },
     {
-      "epoch": 3.6319612590799033,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6774668097496033,
-      "eval_runtime": 6.0857,
-      "eval_samples_per_second": 23.991,
-      "eval_steps_per_second": 3.122,
       "step": 1500
     },
     {
-      "epoch": 3.87409200968523,
-      "grad_norm": 0.2908919155597687,
-      "learning_rate": 0.0001225181598062954,
-      "loss": 0.7033,
       "step": 1600
     },
     {
-      "epoch": 3.87409200968523,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6734635829925537,
-      "eval_runtime": 5.783,
-      "eval_samples_per_second": 25.247,
-      "eval_steps_per_second": 3.286,
       "step": 1600
     },
     {
-      "epoch": 4.116222760290557,
-      "grad_norm": 0.21098549664020538,
-      "learning_rate": 0.00011767554479418887,
-      "loss": 0.6973,
       "step": 1700
     },
     {
-      "epoch": 4.116222760290557,
-      "eval_accuracy": 0.6232876712328768,
-      "eval_loss": 0.6803831458091736,
-      "eval_runtime": 4.6265,
-      "eval_samples_per_second": 31.557,
-      "eval_steps_per_second": 4.107,
       "step": 1700
     },
     {
-      "epoch": 4.358353510895884,
-      "grad_norm": 0.03869936615228653,
-      "learning_rate": 0.00011283292978208233,
-      "loss": 0.6822,
       "step": 1800
     },
     {
-      "epoch": 4.358353510895884,
-      "eval_accuracy": 0.6027397260273972,
-      "eval_loss": 0.6847726702690125,
-      "eval_runtime": 4.6717,
-      "eval_samples_per_second": 31.252,
-      "eval_steps_per_second": 4.067,
       "step": 1800
     },
     {
-      "epoch": 4.600484261501211,
-      "grad_norm": 0.13196176290512085,
-      "learning_rate": 0.00010799031476997579,
-      "loss": 0.6896,
       "step": 1900
     },
     {
-      "epoch": 4.600484261501211,
-      "eval_accuracy": 0.541095890410959,
-      "eval_loss": 0.6835151314735413,
-      "eval_runtime": 5.191,
-      "eval_samples_per_second": 28.126,
-      "eval_steps_per_second": 3.66,
       "step": 1900
     },
     {
-      "epoch": 4.842615012106537,
-      "grad_norm": 0.5055987238883972,
-      "learning_rate": 0.00010314769975786926,
-      "loss": 0.6772,
       "step": 2000
     },
     {
-      "epoch": 4.842615012106537,
-      "eval_accuracy": 0.6095890410958904,
-      "eval_loss": 0.6753013134002686,
-      "eval_runtime": 6.1231,
-      "eval_samples_per_second": 23.844,
-      "eval_steps_per_second": 3.103,
       "step": 2000
     },
     {
-      "epoch": 5.084745762711864,
-      "grad_norm": 0.4209335148334503,
-      "learning_rate": 9.835351089588378e-05,
-      "loss": 0.6843,
-      "step": 2100
-    },
-    {
-      "epoch": 5.084745762711864,
-      "eval_accuracy": 0.589041095890411,
-      "eval_loss": 0.6667279601097107,
-      "eval_runtime": 4.6413,
-      "eval_samples_per_second": 31.457,
-      "eval_steps_per_second": 4.094,
-      "step": 2100
-    },
-    {
-      "epoch": 5.326876513317191,
-      "grad_norm": 1.4965670108795166,
-      "learning_rate": 9.351089588377724e-05,
-      "loss": 0.6898,
-      "step": 2200
-    },
-    {
-      "epoch": 5.326876513317191,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6725605726242065,
-      "eval_runtime": 6.034,
-      "eval_samples_per_second": 24.196,
-      "eval_steps_per_second": 3.149,
-      "step": 2200
-    },
-    {
-      "epoch": 5.5690072639225185,
-      "grad_norm": 0.4163062572479248,
-      "learning_rate": 8.86682808716707e-05,
-      "loss": 0.6868,
-      "step": 2300
-    },
-    {
-      "epoch": 5.5690072639225185,
-      "eval_accuracy": 0.5616438356164384,
-      "eval_loss": 0.6784049272537231,
-      "eval_runtime": 6.0533,
-      "eval_samples_per_second": 24.119,
-      "eval_steps_per_second": 3.139,
-      "step": 2300
-    },
-    {
-      "epoch": 5.811138014527845,
-      "grad_norm": 1.2287280559539795,
-      "learning_rate": 8.382566585956417e-05,
-      "loss": 0.6636,
-      "step": 2400
-    },
-    {
-      "epoch": 5.811138014527845,
-      "eval_accuracy": 0.6301369863013698,
-      "eval_loss": 0.6639688611030579,
-      "eval_runtime": 5.3104,
-      "eval_samples_per_second": 27.493,
-      "eval_steps_per_second": 3.578,
-      "step": 2400
-    },
-    {
-      "epoch": 6.053268765133172,
-      "grad_norm": 0.8932170867919922,
-      "learning_rate": 7.898305084745763e-05,
-      "loss": 0.6833,
-      "step": 2500
-    },
-    {
-      "epoch": 6.053268765133172,
-      "eval_accuracy": 0.5136986301369864,
-      "eval_loss": 0.676824688911438,
-      "eval_runtime": 4.6631,
-      "eval_samples_per_second": 31.309,
-      "eval_steps_per_second": 4.074,
-      "step": 2500
-    },
-    {
-      "epoch": 6.295399515738499,
-      "grad_norm": 1.1837154626846313,
-      "learning_rate": 7.414043583535109e-05,
-      "loss": 0.678,
-      "step": 2600
-    },
-    {
-      "epoch": 6.295399515738499,
-      "eval_accuracy": 0.6232876712328768,
-      "eval_loss": 0.6652230024337769,
-      "eval_runtime": 4.933,
-      "eval_samples_per_second": 29.597,
-      "eval_steps_per_second": 3.852,
-      "step": 2600
-    },
-    {
-      "epoch": 6.5375302663438255,
-      "grad_norm": 1.4030615091323853,
-      "learning_rate": 6.929782082324455e-05,
-      "loss": 0.6672,
-      "step": 2700
-    },
-    {
-      "epoch": 6.5375302663438255,
-      "eval_accuracy": 0.547945205479452,
-      "eval_loss": 0.6735221147537231,
-      "eval_runtime": 6.0106,
-      "eval_samples_per_second": 24.29,
-      "eval_steps_per_second": 3.161,
-      "step": 2700
-    },
-    {
-      "epoch": 6.779661016949152,
-      "grad_norm": 0.6782599687576294,
-      "learning_rate": 6.445520581113802e-05,
-      "loss": 0.6975,
-      "step": 2800
-    },
-    {
-      "epoch": 6.779661016949152,
-      "eval_accuracy": 0.589041095890411,
-      "eval_loss": 0.6686810851097107,
-      "eval_runtime": 4.7582,
-      "eval_samples_per_second": 30.684,
-      "eval_steps_per_second": 3.993,
-      "step": 2800
-    },
-    {
-      "epoch": 7.021791767554479,
-      "grad_norm": 0.4288092255592346,
-      "learning_rate": 5.961259079903147e-05,
-      "loss": 0.6858,
-      "step": 2900
-    },
-    {
-      "epoch": 7.021791767554479,
-      "eval_accuracy": 0.6027397260273972,
-      "eval_loss": 0.6672346591949463,
-      "eval_runtime": 4.7612,
-      "eval_samples_per_second": 30.665,
-      "eval_steps_per_second": 3.991,
-      "step": 2900
-    },
-    {
-      "epoch": 7.263922518159807,
-      "grad_norm": 1.373633861541748,
-      "learning_rate": 5.4769975786924946e-05,
-      "loss": 0.6687,
-      "step": 3000
-    },
-    {
-      "epoch": 7.263922518159807,
-      "eval_accuracy": 0.5753424657534246,
-      "eval_loss": 0.6647915840148926,
-      "eval_runtime": 4.681,
-      "eval_samples_per_second": 31.19,
-      "eval_steps_per_second": 4.059,
-      "step": 3000
-    },
-    {
-      "epoch": 7.506053268765133,
-      "grad_norm": 0.4883480668067932,
-      "learning_rate": 4.9927360774818404e-05,
-      "loss": 0.6636,
-      "step": 3100
-    },
-    {
-      "epoch": 7.506053268765133,
-      "eval_accuracy": 0.5684931506849316,
-      "eval_loss": 0.6673935055732727,
-      "eval_runtime": 4.6832,
-      "eval_samples_per_second": 31.175,
-      "eval_steps_per_second": 4.057,
-      "step": 3100
-    },
-    {
-      "epoch": 7.74818401937046,
-      "grad_norm": 0.2553524672985077,
-      "learning_rate": 4.508474576271187e-05,
-      "loss": 0.6904,
-      "step": 3200
-    },
-    {
-      "epoch": 7.74818401937046,
-      "eval_accuracy": 0.5342465753424658,
-      "eval_loss": 0.6751775741577148,
-      "eval_runtime": 4.7128,
-      "eval_samples_per_second": 30.979,
-      "eval_steps_per_second": 4.032,
-      "step": 3200
-    },
-    {
-      "epoch": 7.990314769975787,
-      "grad_norm": 0.5203524827957153,
-      "learning_rate": 4.024213075060533e-05,
-      "loss": 0.6585,
-      "step": 3300
-    },
-    {
-      "epoch": 7.990314769975787,
-      "eval_accuracy": 0.5958904109589042,
-      "eval_loss": 0.7023173570632935,
-      "eval_runtime": 5.9291,
-      "eval_samples_per_second": 24.624,
-      "eval_steps_per_second": 3.205,
-      "step": 3300
-    },
-    {
-      "epoch": 8.232445520581114,
-      "grad_norm": 1.3221914768218994,
-      "learning_rate": 3.539951573849879e-05,
-      "loss": 0.6874,
-      "step": 3400
-    },
-    {
-      "epoch": 8.232445520581114,
-      "eval_accuracy": 0.5753424657534246,
-      "eval_loss": 0.6615224480628967,
-      "eval_runtime": 5.9877,
-      "eval_samples_per_second": 24.383,
-      "eval_steps_per_second": 3.173,
-      "step": 3400
-    },
-    {
-      "epoch": 8.474576271186441,
-      "grad_norm": 0.6332941651344299,
-      "learning_rate": 3.055690072639225e-05,
-      "loss": 0.6444,
-      "step": 3500
-    },
-    {
-      "epoch": 8.474576271186441,
-      "eval_accuracy": 0.5205479452054794,
-      "eval_loss": 0.772119402885437,
-      "eval_runtime": 5.8976,
-      "eval_samples_per_second": 24.756,
-      "eval_steps_per_second": 3.222,
-      "step": 3500
-    },
-    {
-      "epoch": 8.716707021791768,
-      "grad_norm": 1.8709771633148193,
-      "learning_rate": 2.5714285714285714e-05,
-      "loss": 0.6803,
-      "step": 3600
-    },
-    {
-      "epoch": 8.716707021791768,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6808822751045227,
-      "eval_runtime": 4.743,
-      "eval_samples_per_second": 30.782,
-      "eval_steps_per_second": 4.006,
-      "step": 3600
-    },
-    {
-      "epoch": 8.958837772397095,
-      "grad_norm": 1.1251460313796997,
-      "learning_rate": 2.0871670702179177e-05,
-      "loss": 0.6782,
-      "step": 3700
-    },
-    {
-      "epoch": 8.958837772397095,
-      "eval_accuracy": 0.5821917808219178,
-      "eval_loss": 0.6638409495353699,
-      "eval_runtime": 5.3184,
-      "eval_samples_per_second": 27.452,
-      "eval_steps_per_second": 3.573,
-      "step": 3700
-    },
-    {
-      "epoch": 9.200968523002421,
-      "grad_norm": 0.5918538570404053,
-      "learning_rate": 1.602905569007264e-05,
-      "loss": 0.6536,
-      "step": 3800
-    },
-    {
-      "epoch": 9.200968523002421,
-      "eval_accuracy": 0.6232876712328768,
-      "eval_loss": 0.6606671214103699,
-      "eval_runtime": 4.6821,
-      "eval_samples_per_second": 31.183,
-      "eval_steps_per_second": 4.058,
-      "step": 3800
-    },
-    {
-      "epoch": 9.443099273607748,
-      "grad_norm": 1.1931524276733398,
-      "learning_rate": 1.1186440677966102e-05,
-      "loss": 0.6188,
-      "step": 3900
-    },
-    {
-      "epoch": 9.443099273607748,
-      "eval_accuracy": 0.5684931506849316,
-      "eval_loss": 0.7090215682983398,
-      "eval_runtime": 4.6915,
-      "eval_samples_per_second": 31.12,
-      "eval_steps_per_second": 4.05,
-      "step": 3900
-    },
-    {
-      "epoch": 9.685230024213075,
-      "grad_norm": 2.177264928817749,
-      "learning_rate": 6.3438256658595635e-06,
-      "loss": 0.7026,
-      "step": 4000
-    },
-    {
-      "epoch": 9.685230024213075,
-      "eval_accuracy": 0.6164383561643836,
-      "eval_loss": 0.6574238538742065,
-      "eval_runtime": 4.7502,
-      "eval_samples_per_second": 30.736,
-      "eval_steps_per_second": 4.0,
-      "step": 4000
-    },
-    {
-      "epoch": 9.927360774818402,
-      "grad_norm": 0.5541784167289734,
-      "learning_rate": 1.549636803874092e-06,
-      "loss": 0.7008,
-      "step": 4100
-    },
-    {
-      "epoch": 9.927360774818402,
-      "eval_accuracy": 0.6095890410958904,
-      "eval_loss": 0.6576805710792542,
-      "eval_runtime": 4.7337,
-      "eval_samples_per_second": 30.843,
-      "eval_steps_per_second": 4.014,
-      "step": 4100
-    },
-    {
-      "epoch": 10.0,
-      "step": 4130,
-      "total_flos": 6.400838342165299e+17,
-      "train_loss": 0.6831480086282725,
-      "train_runtime": 1157.4221,
-      "train_samples_per_second": 7.137,
-      "train_steps_per_second": 3.568
     }
   ],
   "logging_steps": 100,
-  "max_steps": 4130,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -691,8 +355,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.400838342165299e+17,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.3198860287666321,
+  "best_model_checkpoint": "finetuned-fake-food/checkpoint-1800",
+  "epoch": 2.5284450063211126,
   "eval_steps": 100,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.1264222503160556,
+      "grad_norm": 5.020864009857178,
+      "learning_rate": 0.00019,
+      "loss": 0.5416,
       "step": 100
     },
     {
+      "epoch": 0.1264222503160556,
+      "eval_accuracy": 0.7081468218442256,
+      "eval_loss": 0.5592844486236572,
+      "eval_runtime": 75.3793,
+      "eval_samples_per_second": 14.818,
+      "eval_steps_per_second": 1.857,
       "step": 100
     },
     {
+      "epoch": 0.2528445006321112,
+      "grad_norm": 3.241377115249634,
+      "learning_rate": 0.00018,
+      "loss": 0.5299,
       "step": 200
     },
     {
+      "epoch": 0.2528445006321112,
+      "eval_accuracy": 0.7421665174574754,
+      "eval_loss": 0.5342246294021606,
+      "eval_runtime": 75.6464,
+      "eval_samples_per_second": 14.766,
+      "eval_steps_per_second": 1.851,
       "step": 200
     },
     {
+      "epoch": 0.37926675094816686,
+      "grad_norm": 3.0553033351898193,
+      "learning_rate": 0.00017,
+      "loss": 0.5503,
       "step": 300
     },
     {
+      "epoch": 0.37926675094816686,
+      "eval_accuracy": 0.7717099373321397,
+      "eval_loss": 0.48751309514045715,
+      "eval_runtime": 75.98,
+      "eval_samples_per_second": 14.701,
+      "eval_steps_per_second": 1.843,
       "step": 300
     },
     {
+      "epoch": 0.5056890012642224,
+      "grad_norm": 2.0104384422302246,
+      "learning_rate": 0.00016,
+      "loss": 0.5561,
       "step": 400
     },
     {
+      "epoch": 0.5056890012642224,
+      "eval_accuracy": 0.7940913160250671,
+      "eval_loss": 0.4621775448322296,
+      "eval_runtime": 76.6055,
+      "eval_samples_per_second": 14.581,
+      "eval_steps_per_second": 1.828,
       "step": 400
     },
     {
+      "epoch": 0.6321112515802781,
+      "grad_norm": 3.4203433990478516,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.5581,
       "step": 500
     },
     {
+      "epoch": 0.6321112515802781,
+      "eval_accuracy": 0.7457475380483438,
+      "eval_loss": 0.5501323342323303,
+      "eval_runtime": 75.3664,
+      "eval_samples_per_second": 14.821,
+      "eval_steps_per_second": 1.858,
       "step": 500
     },
     {
+      "epoch": 0.7585335018963337,
+      "grad_norm": 1.4952611923217773,
+      "learning_rate": 0.00014,
+      "loss": 0.5845,
       "step": 600
     },
     {
+      "epoch": 0.7585335018963337,
+      "eval_accuracy": 0.747538048343778,
+      "eval_loss": 0.5088097453117371,
+      "eval_runtime": 76.5056,
+      "eval_samples_per_second": 14.6,
+      "eval_steps_per_second": 1.83,
       "step": 600
     },
     {
+      "epoch": 0.8849557522123894,
+      "grad_norm": 1.8074195384979248,
+      "learning_rate": 0.00013000000000000002,
+      "loss": 0.5695,
       "step": 700
     },
     {
+      "epoch": 0.8849557522123894,
+      "eval_accuracy": 0.7860340196956133,
+      "eval_loss": 0.4740249812602997,
+      "eval_runtime": 76.9715,
+      "eval_samples_per_second": 14.512,
+      "eval_steps_per_second": 1.819,
       "step": 700
     },
     {
+      "epoch": 1.011378002528445,
+      "grad_norm": 1.2785142660140991,
+      "learning_rate": 0.00012,
+      "loss": 0.5406,
       "step": 800
     },
     {
+      "epoch": 1.011378002528445,
+      "eval_accuracy": 0.7815577439570277,
+      "eval_loss": 0.4855746030807495,
+      "eval_runtime": 76.7685,
+      "eval_samples_per_second": 14.55,
+      "eval_steps_per_second": 1.824,
       "step": 800
     },
     {
+      "epoch": 1.1378002528445006,
+      "grad_norm": 1.3373093605041504,
+      "learning_rate": 0.00011000000000000002,
+      "loss": 0.5353,
       "step": 900
     },
     {
+      "epoch": 1.1378002528445006,
+      "eval_accuracy": 0.8155774395702775,
+      "eval_loss": 0.4251798987388611,
+      "eval_runtime": 75.415,
+      "eval_samples_per_second": 14.811,
+      "eval_steps_per_second": 1.856,
       "step": 900
     },
     {
+      "epoch": 1.2642225031605563,
+      "grad_norm": 2.4060959815979004,
+      "learning_rate": 0.0001,
+      "loss": 0.5345,
       "step": 1000
     },
     {
+      "epoch": 1.2642225031605563,
+      "eval_accuracy": 0.7761862130707251,
+      "eval_loss": 0.50136399269104,
+      "eval_runtime": 75.9241,
+      "eval_samples_per_second": 14.712,
+      "eval_steps_per_second": 1.844,
       "step": 1000
     },
     {
+      "epoch": 1.3906447534766118,
+      "grad_norm": 1.6286314725875854,
+      "learning_rate": 9e-05,
+      "loss": 0.5105,
       "step": 1100
     },
     {
+      "epoch": 1.3906447534766118,
+      "eval_accuracy": 0.7860340196956133,
+      "eval_loss": 0.48000478744506836,
+      "eval_runtime": 75.3515,
+      "eval_samples_per_second": 14.824,
+      "eval_steps_per_second": 1.858,
       "step": 1100
     },
     {
+      "epoch": 1.5170670037926675,
+      "grad_norm": 2.462752103805542,
+      "learning_rate": 8e-05,
+      "loss": 0.5266,
       "step": 1200
     },
     {
+      "epoch": 1.5170670037926675,
+      "eval_accuracy": 0.7958818263205013,
+      "eval_loss": 0.4617547392845154,
+      "eval_runtime": 75.1188,
+      "eval_samples_per_second": 14.87,
+      "eval_steps_per_second": 1.864,
       "step": 1200
     },
     {
+      "epoch": 1.6434892541087232,
+      "grad_norm": 2.6984634399414062,
+      "learning_rate": 7e-05,
+      "loss": 0.4709,
       "step": 1300
     },
     {
+      "epoch": 1.6434892541087232,
+      "eval_accuracy": 0.8281110116383169,
+      "eval_loss": 0.39056020975112915,
+      "eval_runtime": 74.801,
+      "eval_samples_per_second": 14.933,
+      "eval_steps_per_second": 1.872,
       "step": 1300
     },
     {
+      "epoch": 1.7699115044247788,
+      "grad_norm": 2.939568281173706,
+      "learning_rate": 6e-05,
+      "loss": 0.4624,
       "step": 1400
     },
     {
+      "epoch": 1.7699115044247788,
+      "eval_accuracy": 0.8128916741271263,
+      "eval_loss": 0.4208226203918457,
+      "eval_runtime": 77.4109,
+      "eval_samples_per_second": 14.429,
+      "eval_steps_per_second": 1.809,
       "step": 1400
     },
     {
+      "epoch": 1.8963337547408345,
+      "grad_norm": 1.791272759437561,
+      "learning_rate": 5e-05,
+      "loss": 0.4677,
       "step": 1500
     },
     {
+      "epoch": 1.8963337547408345,
+      "eval_accuracy": 0.8173679498657117,
+      "eval_loss": 0.4207296073436737,
+      "eval_runtime": 76.4178,
+      "eval_samples_per_second": 14.617,
+      "eval_steps_per_second": 1.832,
       "step": 1500
     },
     {
+      "epoch": 2.02275600505689,
+      "grad_norm": 1.7240327596664429,
+      "learning_rate": 4e-05,
+      "loss": 0.4478,
       "step": 1600
     },
     {
+      "epoch": 2.02275600505689,
+      "eval_accuracy": 0.8478066248880931,
+      "eval_loss": 0.35574597120285034,
+      "eval_runtime": 75.4802,
+      "eval_samples_per_second": 14.799,
+      "eval_steps_per_second": 1.855,
       "step": 1600
     },
     {
+      "epoch": 2.1491782553729455,
+      "grad_norm": 3.029090642929077,
+      "learning_rate": 3e-05,
+      "loss": 0.4451,
       "step": 1700
     },
     {
+      "epoch": 2.1491782553729455,
+      "eval_accuracy": 0.8442256042972247,
+      "eval_loss": 0.3545984923839569,
+      "eval_runtime": 75.7957,
+      "eval_samples_per_second": 14.737,
+      "eval_steps_per_second": 1.847,
       "step": 1700
     },
     {
+      "epoch": 2.275600505689001,
+      "grad_norm": 2.259213447570801,
+      "learning_rate": 2e-05,
+      "loss": 0.3796,
       "step": 1800
     },
     {
+      "epoch": 2.275600505689001,
+      "eval_accuracy": 0.8719785138764548,
+      "eval_loss": 0.3198860287666321,
+      "eval_runtime": 74.5384,
+      "eval_samples_per_second": 14.986,
+      "eval_steps_per_second": 1.878,
       "step": 1800
     },
     {
+      "epoch": 2.402022756005057,
+      "grad_norm": 2.9328560829162598,
+      "learning_rate": 1e-05,
+      "loss": 0.4358,
       "step": 1900
     },
     {
+      "epoch": 2.402022756005057,
+      "eval_accuracy": 0.8603401969561325,
+      "eval_loss": 0.33084791898727417,
+      "eval_runtime": 76.0815,
+      "eval_samples_per_second": 14.682,
+      "eval_steps_per_second": 1.84,
       "step": 1900
     },
     {
+      "epoch": 2.5284450063211126,
+      "grad_norm": 1.4755433797836304,
+      "learning_rate": 0.0,
+      "loss": 0.3373,
       "step": 2000
     },
     {
+      "epoch": 2.5284450063211126,
+      "eval_accuracy": 0.8540734109221128,
+      "eval_loss": 0.34551766514778137,
+      "eval_runtime": 75.3964,
+      "eval_samples_per_second": 14.815,
+      "eval_steps_per_second": 1.857,
       "step": 2000
     },
     {
+      "epoch": 2.5284450063211126,
+      "step": 2000,
+      "total_flos": 1.2397168498542428e+18,
+      "train_loss": 0.49920871353149415,
+      "train_runtime": 3192.0436,
+      "train_samples_per_second": 5.012,
+      "train_steps_per_second": 0.627
     }
   ],
   "logging_steps": 100,
+  "max_steps": 2000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2397168498542428e+18,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }