Upload 8 files

Browse files

Files changed (8) hide show

all_results.json +13 -0
config.json +58 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +36 -0
train_results.json +8 -0
trainer_state.json +1594 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 96.20253164556962,
+    "eval_accuracy": 0.8746031746031746,
+    "eval_loss": 0.5267017483711243,
+    "eval_runtime": 10.7929,
+    "eval_samples_per_second": 116.743,
+    "eval_steps_per_second": 0.927,
+    "total_flos": 7.515490775048022e+19,
+    "train_loss": 0.33647052476280614,
+    "train_runtime": 20573.1873,
+    "train_samples_per_second": 48.996,
+    "train_steps_per_second": 0.092
+}

config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "sitting",
+    "1": "using_laptop",
+    "2": "hugging",
+    "3": "sleeping",
+    "4": "drinking",
+    "5": "clapping",
+    "6": "dancing",
+    "7": "cycling",
+    "8": "calling",
+    "9": "laughing",
+    "10": "eating",
+    "11": "fighting",
+    "12": "listening_to_music",
+    "13": "running",
+    "14": "texting"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "calling": 8,
+    "clapping": 5,
+    "cycling": 7,
+    "dancing": 6,
+    "drinking": 4,
+    "eating": 10,
+    "fighting": 11,
+    "hugging": 2,
+    "laughing": 9,
+    "listening_to_music": 12,
+    "running": 13,
+    "sitting": 0,
+    "sleeping": 3,
+    "texting": 14,
+    "using_laptop": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 96.20253164556962,
+    "eval_accuracy": 0.8746031746031746,
+    "eval_loss": 0.5267017483711243,
+    "eval_runtime": 10.7929,
+    "eval_samples_per_second": 116.743,
+    "eval_steps_per_second": 0.927
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff64402a55469a315d1e1c5a2136d2f36fa2972e9e72b454371736d9368e64da
+size 343263964

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_valid_processor_keys": [
+    "images",
+    "do_resize",
+    "size",
+    "resample",
+    "do_rescale",
+    "rescale_factor",
+    "do_normalize",
+    "image_mean",
+    "image_std",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 96.20253164556962,
+    "total_flos": 7.515490775048022e+19,
+    "train_loss": 0.33647052476280614,
+    "train_runtime": 20573.1873,
+    "train_samples_per_second": 48.996,
+    "train_steps_per_second": 0.092
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1594 @@

+{
+  "best_metric": 0.8746031746031746,
+  "best_model_checkpoint": "CP2_HAR_vit-base-patch16-224/checkpoint-1382",
+  "epoch": 96.20253164556962,
+  "eval_steps": 500,
+  "global_step": 1900,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9620253164556962,
+      "grad_norm": 2.8217339515686035,
+      "learning_rate": 5e-06,
+      "loss": 2.8429,
+      "step": 19
+    },
+    {
+      "epoch": 0.9620253164556962,
+      "eval_accuracy": 0.16904761904761906,
+      "eval_loss": 2.6474363803863525,
+      "eval_runtime": 10.7675,
+      "eval_samples_per_second": 117.018,
+      "eval_steps_per_second": 0.929,
+      "step": 19
+    },
+    {
+      "epoch": 1.9746835443037973,
+      "grad_norm": 2.534130334854126,
+      "learning_rate": 1.0263157894736843e-05,
+      "loss": 2.5152,
+      "step": 39
+    },
+    {
+      "epoch": 1.9746835443037973,
+      "eval_accuracy": 0.31587301587301586,
+      "eval_loss": 2.342618227005005,
+      "eval_runtime": 10.7708,
+      "eval_samples_per_second": 116.983,
+      "eval_steps_per_second": 0.928,
+      "step": 39
+    },
+    {
+      "epoch": 2.9873417721518987,
+      "grad_norm": 2.3139591217041016,
+      "learning_rate": 1.5526315789473686e-05,
+      "loss": 2.1548,
+      "step": 59
+    },
+    {
+      "epoch": 2.9873417721518987,
+      "eval_accuracy": 0.5626984126984127,
+      "eval_loss": 1.8545457124710083,
+      "eval_runtime": 10.8474,
+      "eval_samples_per_second": 116.157,
+      "eval_steps_per_second": 0.922,
+      "step": 59
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.9620369672775269,
+      "learning_rate": 2.078947368421053e-05,
+      "loss": 1.6569,
+      "step": 79
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7261904761904762,
+      "eval_loss": 1.2644377946853638,
+      "eval_runtime": 10.7977,
+      "eval_samples_per_second": 116.692,
+      "eval_steps_per_second": 0.926,
+      "step": 79
+    },
+    {
+      "epoch": 4.962025316455696,
+      "grad_norm": 1.4392253160476685,
+      "learning_rate": 2.578947368421053e-05,
+      "loss": 1.2393,
+      "step": 98
+    },
+    {
+      "epoch": 4.962025316455696,
+      "eval_accuracy": 0.7714285714285715,
+      "eval_loss": 0.8716472387313843,
+      "eval_runtime": 10.7696,
+      "eval_samples_per_second": 116.996,
+      "eval_steps_per_second": 0.929,
+      "step": 98
+    },
+    {
+      "epoch": 5.974683544303797,
+      "grad_norm": 1.3771088123321533,
+      "learning_rate": 3.105263157894737e-05,
+      "loss": 0.8982,
+      "step": 118
+    },
+    {
+      "epoch": 5.974683544303797,
+      "eval_accuracy": 0.8150793650793651,
+      "eval_loss": 0.6652108430862427,
+      "eval_runtime": 10.7233,
+      "eval_samples_per_second": 117.501,
+      "eval_steps_per_second": 0.933,
+      "step": 118
+    },
+    {
+      "epoch": 6.987341772151899,
+      "grad_norm": 1.6404207944869995,
+      "learning_rate": 3.6315789473684214e-05,
+      "loss": 0.7694,
+      "step": 138
+    },
+    {
+      "epoch": 6.987341772151899,
+      "eval_accuracy": 0.830952380952381,
+      "eval_loss": 0.596939206123352,
+      "eval_runtime": 10.7687,
+      "eval_samples_per_second": 117.006,
+      "eval_steps_per_second": 0.929,
+      "step": 138
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.4968894720077515,
+      "learning_rate": 4.157894736842106e-05,
+      "loss": 0.6819,
+      "step": 158
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8396825396825397,
+      "eval_loss": 0.5484516620635986,
+      "eval_runtime": 10.8135,
+      "eval_samples_per_second": 116.521,
+      "eval_steps_per_second": 0.925,
+      "step": 158
+    },
+    {
+      "epoch": 8.962025316455696,
+      "grad_norm": 1.414362907409668,
+      "learning_rate": 4.657894736842106e-05,
+      "loss": 0.6628,
+      "step": 177
+    },
+    {
+      "epoch": 8.962025316455696,
+      "eval_accuracy": 0.8476190476190476,
+      "eval_loss": 0.5053515434265137,
+      "eval_runtime": 10.7521,
+      "eval_samples_per_second": 117.186,
+      "eval_steps_per_second": 0.93,
+      "step": 177
+    },
+    {
+      "epoch": 9.974683544303797,
+      "grad_norm": 1.5052249431610107,
+      "learning_rate": 4.97953216374269e-05,
+      "loss": 0.5759,
+      "step": 197
+    },
+    {
+      "epoch": 9.974683544303797,
+      "eval_accuracy": 0.8476190476190476,
+      "eval_loss": 0.5064724683761597,
+      "eval_runtime": 10.8275,
+      "eval_samples_per_second": 116.37,
+      "eval_steps_per_second": 0.924,
+      "step": 197
+    },
+    {
+      "epoch": 10.987341772151899,
+      "grad_norm": 1.4250831604003906,
+      "learning_rate": 4.921052631578947e-05,
+      "loss": 0.5385,
+      "step": 217
+    },
+    {
+      "epoch": 10.987341772151899,
+      "eval_accuracy": 0.8420634920634921,
+      "eval_loss": 0.4821438789367676,
+      "eval_runtime": 10.8099,
+      "eval_samples_per_second": 116.56,
+      "eval_steps_per_second": 0.925,
+      "step": 217
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.3822650909423828,
+      "learning_rate": 4.8625730994152046e-05,
+      "loss": 0.5022,
+      "step": 237
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8507936507936508,
+      "eval_loss": 0.47235107421875,
+      "eval_runtime": 10.7944,
+      "eval_samples_per_second": 116.727,
+      "eval_steps_per_second": 0.926,
+      "step": 237
+    },
+    {
+      "epoch": 12.962025316455696,
+      "grad_norm": 1.543864369392395,
+      "learning_rate": 4.807017543859649e-05,
+      "loss": 0.4841,
+      "step": 256
+    },
+    {
+      "epoch": 12.962025316455696,
+      "eval_accuracy": 0.8587301587301587,
+      "eval_loss": 0.48088887333869934,
+      "eval_runtime": 10.7741,
+      "eval_samples_per_second": 116.947,
+      "eval_steps_per_second": 0.928,
+      "step": 256
+    },
+    {
+      "epoch": 13.974683544303797,
+      "grad_norm": 1.4722260236740112,
+      "learning_rate": 4.7485380116959065e-05,
+      "loss": 0.4543,
+      "step": 276
+    },
+    {
+      "epoch": 13.974683544303797,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.4476229250431061,
+      "eval_runtime": 10.73,
+      "eval_samples_per_second": 117.428,
+      "eval_steps_per_second": 0.932,
+      "step": 276
+    },
+    {
+      "epoch": 14.987341772151899,
+      "grad_norm": 1.5065507888793945,
+      "learning_rate": 4.690058479532164e-05,
+      "loss": 0.4356,
+      "step": 296
+    },
+    {
+      "epoch": 14.987341772151899,
+      "eval_accuracy": 0.8579365079365079,
+      "eval_loss": 0.47357481718063354,
+      "eval_runtime": 10.7482,
+      "eval_samples_per_second": 117.229,
+      "eval_steps_per_second": 0.93,
+      "step": 296
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 1.6331088542938232,
+      "learning_rate": 4.6315789473684214e-05,
+      "loss": 0.4021,
+      "step": 316
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8587301587301587,
+      "eval_loss": 0.46398431062698364,
+      "eval_runtime": 10.7745,
+      "eval_samples_per_second": 116.943,
+      "eval_steps_per_second": 0.928,
+      "step": 316
+    },
+    {
+      "epoch": 16.962025316455698,
+      "grad_norm": 1.7429494857788086,
+      "learning_rate": 4.576023391812866e-05,
+      "loss": 0.4073,
+      "step": 335
+    },
+    {
+      "epoch": 16.962025316455698,
+      "eval_accuracy": 0.8579365079365079,
+      "eval_loss": 0.4629625976085663,
+      "eval_runtime": 10.7423,
+      "eval_samples_per_second": 117.293,
+      "eval_steps_per_second": 0.931,
+      "step": 335
+    },
+    {
+      "epoch": 17.974683544303797,
+      "grad_norm": 1.3264607191085815,
+      "learning_rate": 4.517543859649123e-05,
+      "loss": 0.3782,
+      "step": 355
+    },
+    {
+      "epoch": 17.974683544303797,
+      "eval_accuracy": 0.8595238095238096,
+      "eval_loss": 0.4655977785587311,
+      "eval_runtime": 10.8299,
+      "eval_samples_per_second": 116.344,
+      "eval_steps_per_second": 0.923,
+      "step": 355
+    },
+    {
+      "epoch": 18.9873417721519,
+      "grad_norm": 1.481920599937439,
+      "learning_rate": 4.4590643274853806e-05,
+      "loss": 0.3617,
+      "step": 375
+    },
+    {
+      "epoch": 18.9873417721519,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.4484713077545166,
+      "eval_runtime": 10.749,
+      "eval_samples_per_second": 117.221,
+      "eval_steps_per_second": 0.93,
+      "step": 375
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 1.3743647336959839,
+      "learning_rate": 4.400584795321638e-05,
+      "loss": 0.3448,
+      "step": 395
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.4735279381275177,
+      "eval_runtime": 10.7186,
+      "eval_samples_per_second": 117.553,
+      "eval_steps_per_second": 0.933,
+      "step": 395
+    },
+    {
+      "epoch": 20.962025316455698,
+      "grad_norm": 1.3664813041687012,
+      "learning_rate": 4.345029239766082e-05,
+      "loss": 0.3549,
+      "step": 414
+    },
+    {
+      "epoch": 20.962025316455698,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.4780659079551697,
+      "eval_runtime": 10.7555,
+      "eval_samples_per_second": 117.149,
+      "eval_steps_per_second": 0.93,
+      "step": 414
+    },
+    {
+      "epoch": 21.974683544303797,
+      "grad_norm": 1.4020764827728271,
+      "learning_rate": 4.286549707602339e-05,
+      "loss": 0.3195,
+      "step": 434
+    },
+    {
+      "epoch": 21.974683544303797,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.4818320572376251,
+      "eval_runtime": 10.6974,
+      "eval_samples_per_second": 117.785,
+      "eval_steps_per_second": 0.935,
+      "step": 434
+    },
+    {
+      "epoch": 22.9873417721519,
+      "grad_norm": 1.2878130674362183,
+      "learning_rate": 4.228070175438597e-05,
+      "loss": 0.3219,
+      "step": 454
+    },
+    {
+      "epoch": 22.9873417721519,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.47401970624923706,
+      "eval_runtime": 10.7479,
+      "eval_samples_per_second": 117.232,
+      "eval_steps_per_second": 0.93,
+      "step": 454
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 1.5816872119903564,
+      "learning_rate": 4.169590643274854e-05,
+      "loss": 0.2966,
+      "step": 474
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.4857538044452667,
+      "eval_runtime": 10.884,
+      "eval_samples_per_second": 115.766,
+      "eval_steps_per_second": 0.919,
+      "step": 474
+    },
+    {
+      "epoch": 24.962025316455698,
+      "grad_norm": 1.4161866903305054,
+      "learning_rate": 4.1140350877192985e-05,
+      "loss": 0.322,
+      "step": 493
+    },
+    {
+      "epoch": 24.962025316455698,
+      "eval_accuracy": 0.8579365079365079,
+      "eval_loss": 0.4993390738964081,
+      "eval_runtime": 10.7563,
+      "eval_samples_per_second": 117.141,
+      "eval_steps_per_second": 0.93,
+      "step": 493
+    },
+    {
+      "epoch": 25.974683544303797,
+      "grad_norm": 8.147224426269531,
+      "learning_rate": 4.055555555555556e-05,
+      "loss": 0.2806,
+      "step": 513
+    },
+    {
+      "epoch": 25.974683544303797,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.4862901568412781,
+      "eval_runtime": 10.7246,
+      "eval_samples_per_second": 117.487,
+      "eval_steps_per_second": 0.932,
+      "step": 513
+    },
+    {
+      "epoch": 26.9873417721519,
+      "grad_norm": 1.3954640626907349,
+      "learning_rate": 3.9970760233918134e-05,
+      "loss": 0.2696,
+      "step": 533
+    },
+    {
+      "epoch": 26.9873417721519,
+      "eval_accuracy": 0.8595238095238096,
+      "eval_loss": 0.5064178705215454,
+      "eval_runtime": 10.7667,
+      "eval_samples_per_second": 117.027,
+      "eval_steps_per_second": 0.929,
+      "step": 533
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 1.5532612800598145,
+      "learning_rate": 3.93859649122807e-05,
+      "loss": 0.2709,
+      "step": 553
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8674603174603175,
+      "eval_loss": 0.4656953811645508,
+      "eval_runtime": 10.8334,
+      "eval_samples_per_second": 116.307,
+      "eval_steps_per_second": 0.923,
+      "step": 553
+    },
+    {
+      "epoch": 28.962025316455698,
+      "grad_norm": 1.5748584270477295,
+      "learning_rate": 3.883040935672515e-05,
+      "loss": 0.2702,
+      "step": 572
+    },
+    {
+      "epoch": 28.962025316455698,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.4933919310569763,
+      "eval_runtime": 10.7751,
+      "eval_samples_per_second": 116.936,
+      "eval_steps_per_second": 0.928,
+      "step": 572
+    },
+    {
+      "epoch": 29.974683544303797,
+      "grad_norm": 1.3018436431884766,
+      "learning_rate": 3.824561403508773e-05,
+      "loss": 0.2628,
+      "step": 592
+    },
+    {
+      "epoch": 29.974683544303797,
+      "eval_accuracy": 0.8555555555555555,
+      "eval_loss": 0.4940374493598938,
+      "eval_runtime": 10.7573,
+      "eval_samples_per_second": 117.13,
+      "eval_steps_per_second": 0.93,
+      "step": 592
+    },
+    {
+      "epoch": 30.9873417721519,
+      "grad_norm": 1.811011791229248,
+      "learning_rate": 3.7660818713450294e-05,
+      "loss": 0.2543,
+      "step": 612
+    },
+    {
+      "epoch": 30.9873417721519,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.48308396339416504,
+      "eval_runtime": 10.8262,
+      "eval_samples_per_second": 116.384,
+      "eval_steps_per_second": 0.924,
+      "step": 612
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 1.4332562685012817,
+      "learning_rate": 3.707602339181287e-05,
+      "loss": 0.2427,
+      "step": 632
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.4981466233730316,
+      "eval_runtime": 10.8291,
+      "eval_samples_per_second": 116.353,
+      "eval_steps_per_second": 0.923,
+      "step": 632
+    },
+    {
+      "epoch": 32.962025316455694,
+      "grad_norm": 1.5480865240097046,
+      "learning_rate": 3.652046783625731e-05,
+      "loss": 0.2659,
+      "step": 651
+    },
+    {
+      "epoch": 32.962025316455694,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.5094291567802429,
+      "eval_runtime": 10.7442,
+      "eval_samples_per_second": 117.272,
+      "eval_steps_per_second": 0.931,
+      "step": 651
+    },
+    {
+      "epoch": 33.9746835443038,
+      "grad_norm": 1.3587052822113037,
+      "learning_rate": 3.593567251461988e-05,
+      "loss": 0.2398,
+      "step": 671
+    },
+    {
+      "epoch": 33.9746835443038,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5013704895973206,
+      "eval_runtime": 10.759,
+      "eval_samples_per_second": 117.112,
+      "eval_steps_per_second": 0.929,
+      "step": 671
+    },
+    {
+      "epoch": 34.9873417721519,
+      "grad_norm": 1.3286776542663574,
+      "learning_rate": 3.5350877192982455e-05,
+      "loss": 0.227,
+      "step": 691
+    },
+    {
+      "epoch": 34.9873417721519,
+      "eval_accuracy": 0.8634920634920635,
+      "eval_loss": 0.5037477612495422,
+      "eval_runtime": 10.7589,
+      "eval_samples_per_second": 117.112,
+      "eval_steps_per_second": 0.929,
+      "step": 691
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 1.6547776460647583,
+      "learning_rate": 3.476608187134503e-05,
+      "loss": 0.2308,
+      "step": 711
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5068167448043823,
+      "eval_runtime": 10.7754,
+      "eval_samples_per_second": 116.933,
+      "eval_steps_per_second": 0.928,
+      "step": 711
+    },
+    {
+      "epoch": 36.962025316455694,
+      "grad_norm": 1.3685321807861328,
+      "learning_rate": 3.421052631578947e-05,
+      "loss": 0.2326,
+      "step": 730
+    },
+    {
+      "epoch": 36.962025316455694,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.4980192184448242,
+      "eval_runtime": 10.761,
+      "eval_samples_per_second": 117.09,
+      "eval_steps_per_second": 0.929,
+      "step": 730
+    },
+    {
+      "epoch": 37.9746835443038,
+      "grad_norm": 1.2418972253799438,
+      "learning_rate": 3.362573099415205e-05,
+      "loss": 0.2242,
+      "step": 750
+    },
+    {
+      "epoch": 37.9746835443038,
+      "eval_accuracy": 0.8587301587301587,
+      "eval_loss": 0.4938106834888458,
+      "eval_runtime": 11.0548,
+      "eval_samples_per_second": 113.978,
+      "eval_steps_per_second": 0.905,
+      "step": 750
+    },
+    {
+      "epoch": 38.9873417721519,
+      "grad_norm": 1.3450112342834473,
+      "learning_rate": 3.304093567251462e-05,
+      "loss": 0.2152,
+      "step": 770
+    },
+    {
+      "epoch": 38.9873417721519,
+      "eval_accuracy": 0.8626984126984127,
+      "eval_loss": 0.49911221861839294,
+      "eval_runtime": 10.8459,
+      "eval_samples_per_second": 116.173,
+      "eval_steps_per_second": 0.922,
+      "step": 770
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 1.3505226373672485,
+      "learning_rate": 3.24561403508772e-05,
+      "loss": 0.2205,
+      "step": 790
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.5294431447982788,
+      "eval_runtime": 11.024,
+      "eval_samples_per_second": 114.296,
+      "eval_steps_per_second": 0.907,
+      "step": 790
+    },
+    {
+      "epoch": 40.962025316455694,
+      "grad_norm": 1.1549227237701416,
+      "learning_rate": 3.1900584795321634e-05,
+      "loss": 0.2299,
+      "step": 809
+    },
+    {
+      "epoch": 40.962025316455694,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5079935789108276,
+      "eval_runtime": 10.8051,
+      "eval_samples_per_second": 116.612,
+      "eval_steps_per_second": 0.925,
+      "step": 809
+    },
+    {
+      "epoch": 41.9746835443038,
+      "grad_norm": 1.252756118774414,
+      "learning_rate": 3.131578947368421e-05,
+      "loss": 0.1978,
+      "step": 829
+    },
+    {
+      "epoch": 41.9746835443038,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.5043396949768066,
+      "eval_runtime": 11.0945,
+      "eval_samples_per_second": 113.57,
+      "eval_steps_per_second": 0.901,
+      "step": 829
+    },
+    {
+      "epoch": 42.9873417721519,
+      "grad_norm": 1.20892333984375,
+      "learning_rate": 3.073099415204678e-05,
+      "loss": 0.2081,
+      "step": 849
+    },
+    {
+      "epoch": 42.9873417721519,
+      "eval_accuracy": 0.8634920634920635,
+      "eval_loss": 0.5008840560913086,
+      "eval_runtime": 10.8249,
+      "eval_samples_per_second": 116.398,
+      "eval_steps_per_second": 0.924,
+      "step": 849
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 0.9471483826637268,
+      "learning_rate": 3.0146198830409357e-05,
+      "loss": 0.1893,
+      "step": 869
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.5212369561195374,
+      "eval_runtime": 10.7573,
+      "eval_samples_per_second": 117.13,
+      "eval_steps_per_second": 0.93,
+      "step": 869
+    },
+    {
+      "epoch": 44.962025316455694,
+      "grad_norm": 1.4700783491134644,
+      "learning_rate": 2.95906432748538e-05,
+      "loss": 0.1988,
+      "step": 888
+    },
+    {
+      "epoch": 44.962025316455694,
+      "eval_accuracy": 0.8626984126984127,
+      "eval_loss": 0.4991550147533417,
+      "eval_runtime": 10.8133,
+      "eval_samples_per_second": 116.523,
+      "eval_steps_per_second": 0.925,
+      "step": 888
+    },
+    {
+      "epoch": 45.9746835443038,
+      "grad_norm": 1.0916502475738525,
+      "learning_rate": 2.9005847953216375e-05,
+      "loss": 0.1911,
+      "step": 908
+    },
+    {
+      "epoch": 45.9746835443038,
+      "eval_accuracy": 0.8674603174603175,
+      "eval_loss": 0.5237799882888794,
+      "eval_runtime": 10.7538,
+      "eval_samples_per_second": 117.168,
+      "eval_steps_per_second": 0.93,
+      "step": 908
+    },
+    {
+      "epoch": 46.9873417721519,
+      "grad_norm": 1.2590000629425049,
+      "learning_rate": 2.842105263157895e-05,
+      "loss": 0.1877,
+      "step": 928
+    },
+    {
+      "epoch": 46.9873417721519,
+      "eval_accuracy": 0.8674603174603175,
+      "eval_loss": 0.5184463262557983,
+      "eval_runtime": 10.8005,
+      "eval_samples_per_second": 116.662,
+      "eval_steps_per_second": 0.926,
+      "step": 928
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 1.417845606803894,
+      "learning_rate": 2.783625730994152e-05,
+      "loss": 0.1957,
+      "step": 948
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.5155279040336609,
+      "eval_runtime": 10.7518,
+      "eval_samples_per_second": 117.19,
+      "eval_steps_per_second": 0.93,
+      "step": 948
+    },
+    {
+      "epoch": 48.962025316455694,
+      "grad_norm": 1.304579496383667,
+      "learning_rate": 2.7280701754385968e-05,
+      "loss": 0.185,
+      "step": 967
+    },
+    {
+      "epoch": 48.962025316455694,
+      "eval_accuracy": 0.8674603174603175,
+      "eval_loss": 0.5028470158576965,
+      "eval_runtime": 10.7385,
+      "eval_samples_per_second": 117.335,
+      "eval_steps_per_second": 0.931,
+      "step": 967
+    },
+    {
+      "epoch": 49.9746835443038,
+      "grad_norm": 1.1883121728897095,
+      "learning_rate": 2.669590643274854e-05,
+      "loss": 0.1821,
+      "step": 987
+    },
+    {
+      "epoch": 49.9746835443038,
+      "eval_accuracy": 0.8626984126984127,
+      "eval_loss": 0.5118417739868164,
+      "eval_runtime": 10.7974,
+      "eval_samples_per_second": 116.694,
+      "eval_steps_per_second": 0.926,
+      "step": 987
+    },
+    {
+      "epoch": 50.9873417721519,
+      "grad_norm": 0.9844208359718323,
+      "learning_rate": 2.6111111111111114e-05,
+      "loss": 0.1843,
+      "step": 1007
+    },
+    {
+      "epoch": 50.9873417721519,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5006617903709412,
+      "eval_runtime": 10.7816,
+      "eval_samples_per_second": 116.866,
+      "eval_steps_per_second": 0.928,
+      "step": 1007
+    },
+    {
+      "epoch": 52.0,
+      "grad_norm": 1.392893671989441,
+      "learning_rate": 2.5526315789473688e-05,
+      "loss": 0.1711,
+      "step": 1027
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.511702299118042,
+      "eval_runtime": 10.8792,
+      "eval_samples_per_second": 115.817,
+      "eval_steps_per_second": 0.919,
+      "step": 1027
+    },
+    {
+      "epoch": 52.962025316455694,
+      "grad_norm": 1.6035434007644653,
+      "learning_rate": 2.4970760233918132e-05,
+      "loss": 0.1903,
+      "step": 1046
+    },
+    {
+      "epoch": 52.962025316455694,
+      "eval_accuracy": 0.8587301587301587,
+      "eval_loss": 0.507360577583313,
+      "eval_runtime": 10.9028,
+      "eval_samples_per_second": 115.567,
+      "eval_steps_per_second": 0.917,
+      "step": 1046
+    },
+    {
+      "epoch": 53.9746835443038,
+      "grad_norm": 1.0503844022750854,
+      "learning_rate": 2.4385964912280703e-05,
+      "loss": 0.1713,
+      "step": 1066
+    },
+    {
+      "epoch": 53.9746835443038,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5167327523231506,
+      "eval_runtime": 10.8055,
+      "eval_samples_per_second": 116.608,
+      "eval_steps_per_second": 0.925,
+      "step": 1066
+    },
+    {
+      "epoch": 54.9873417721519,
+      "grad_norm": 1.0421777963638306,
+      "learning_rate": 2.3801169590643278e-05,
+      "loss": 0.1677,
+      "step": 1086
+    },
+    {
+      "epoch": 54.9873417721519,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.5178954601287842,
+      "eval_runtime": 10.802,
+      "eval_samples_per_second": 116.645,
+      "eval_steps_per_second": 0.926,
+      "step": 1086
+    },
+    {
+      "epoch": 56.0,
+      "grad_norm": 1.283031940460205,
+      "learning_rate": 2.321637426900585e-05,
+      "loss": 0.16,
+      "step": 1106
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5145161747932434,
+      "eval_runtime": 10.7346,
+      "eval_samples_per_second": 117.377,
+      "eval_steps_per_second": 0.932,
+      "step": 1106
+    },
+    {
+      "epoch": 56.962025316455694,
+      "grad_norm": 2.3518636226654053,
+      "learning_rate": 2.2660818713450292e-05,
+      "loss": 0.1818,
+      "step": 1125
+    },
+    {
+      "epoch": 56.962025316455694,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5295758247375488,
+      "eval_runtime": 10.7992,
+      "eval_samples_per_second": 116.676,
+      "eval_steps_per_second": 0.926,
+      "step": 1125
+    },
+    {
+      "epoch": 57.9746835443038,
+      "grad_norm": 1.4039283990859985,
+      "learning_rate": 2.2076023391812867e-05,
+      "loss": 0.1725,
+      "step": 1145
+    },
+    {
+      "epoch": 57.9746835443038,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.531140923500061,
+      "eval_runtime": 10.7624,
+      "eval_samples_per_second": 117.075,
+      "eval_steps_per_second": 0.929,
+      "step": 1145
+    },
+    {
+      "epoch": 58.9873417721519,
+      "grad_norm": 1.1663118600845337,
+      "learning_rate": 2.149122807017544e-05,
+      "loss": 0.1642,
+      "step": 1165
+    },
+    {
+      "epoch": 58.9873417721519,
+      "eval_accuracy": 0.8626984126984127,
+      "eval_loss": 0.5316585302352905,
+      "eval_runtime": 10.7932,
+      "eval_samples_per_second": 116.74,
+      "eval_steps_per_second": 0.927,
+      "step": 1165
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 1.2489556074142456,
+      "learning_rate": 2.0906432748538013e-05,
+      "loss": 0.1626,
+      "step": 1185
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.5282865166664124,
+      "eval_runtime": 10.7244,
+      "eval_samples_per_second": 117.49,
+      "eval_steps_per_second": 0.932,
+      "step": 1185
+    },
+    {
+      "epoch": 60.962025316455694,
+      "grad_norm": 1.4613455533981323,
+      "learning_rate": 2.0350877192982456e-05,
+      "loss": 0.1621,
+      "step": 1204
+    },
+    {
+      "epoch": 60.962025316455694,
+      "eval_accuracy": 0.8603174603174604,
+      "eval_loss": 0.5266717076301575,
+      "eval_runtime": 10.8467,
+      "eval_samples_per_second": 116.164,
+      "eval_steps_per_second": 0.922,
+      "step": 1204
+    },
+    {
+      "epoch": 61.9746835443038,
+      "grad_norm": 1.4865529537200928,
+      "learning_rate": 1.976608187134503e-05,
+      "loss": 0.1503,
+      "step": 1224
+    },
+    {
+      "epoch": 61.9746835443038,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.5389307141304016,
+      "eval_runtime": 10.7859,
+      "eval_samples_per_second": 116.819,
+      "eval_steps_per_second": 0.927,
+      "step": 1224
+    },
+    {
+      "epoch": 62.9873417721519,
+      "grad_norm": 1.0126421451568604,
+      "learning_rate": 1.9181286549707602e-05,
+      "loss": 0.162,
+      "step": 1244
+    },
+    {
+      "epoch": 62.9873417721519,
+      "eval_accuracy": 0.8626984126984127,
+      "eval_loss": 0.540341317653656,
+      "eval_runtime": 10.7503,
+      "eval_samples_per_second": 117.206,
+      "eval_steps_per_second": 0.93,
+      "step": 1244
+    },
+    {
+      "epoch": 64.0,
+      "grad_norm": 1.3681743144989014,
+      "learning_rate": 1.8596491228070176e-05,
+      "loss": 0.154,
+      "step": 1264
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5240360498428345,
+      "eval_runtime": 10.6902,
+      "eval_samples_per_second": 117.865,
+      "eval_steps_per_second": 0.935,
+      "step": 1264
+    },
+    {
+      "epoch": 64.9620253164557,
+      "grad_norm": 1.1314650774002075,
+      "learning_rate": 1.804093567251462e-05,
+      "loss": 0.1525,
+      "step": 1283
+    },
+    {
+      "epoch": 64.9620253164557,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5337327718734741,
+      "eval_runtime": 10.5876,
+      "eval_samples_per_second": 119.007,
+      "eval_steps_per_second": 0.945,
+      "step": 1283
+    },
+    {
+      "epoch": 65.9746835443038,
+      "grad_norm": 1.1210103034973145,
+      "learning_rate": 1.745614035087719e-05,
+      "loss": 0.1529,
+      "step": 1303
+    },
+    {
+      "epoch": 65.9746835443038,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.5457757115364075,
+      "eval_runtime": 10.8103,
+      "eval_samples_per_second": 116.555,
+      "eval_steps_per_second": 0.925,
+      "step": 1303
+    },
+    {
+      "epoch": 66.9873417721519,
+      "grad_norm": 1.2637122869491577,
+      "learning_rate": 1.6871345029239766e-05,
+      "loss": 0.1548,
+      "step": 1323
+    },
+    {
+      "epoch": 66.9873417721519,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5383771061897278,
+      "eval_runtime": 10.877,
+      "eval_samples_per_second": 115.84,
+      "eval_steps_per_second": 0.919,
+      "step": 1323
+    },
+    {
+      "epoch": 68.0,
+      "grad_norm": 1.1812046766281128,
+      "learning_rate": 1.628654970760234e-05,
+      "loss": 0.1556,
+      "step": 1343
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.8626984126984127,
+      "eval_loss": 0.5395429134368896,
+      "eval_runtime": 10.829,
+      "eval_samples_per_second": 116.354,
+      "eval_steps_per_second": 0.923,
+      "step": 1343
+    },
+    {
+      "epoch": 68.9620253164557,
+      "grad_norm": 1.21077299118042,
+      "learning_rate": 1.5730994152046784e-05,
+      "loss": 0.1629,
+      "step": 1362
+    },
+    {
+      "epoch": 68.9620253164557,
+      "eval_accuracy": 0.8634920634920635,
+      "eval_loss": 0.5454122424125671,
+      "eval_runtime": 10.6544,
+      "eval_samples_per_second": 118.261,
+      "eval_steps_per_second": 0.939,
+      "step": 1362
+    },
+    {
+      "epoch": 69.9746835443038,
+      "grad_norm": 1.3317054510116577,
+      "learning_rate": 1.5146198830409358e-05,
+      "loss": 0.1387,
+      "step": 1382
+    },
+    {
+      "epoch": 69.9746835443038,
+      "eval_accuracy": 0.8746031746031746,
+      "eval_loss": 0.5267017483711243,
+      "eval_runtime": 10.8484,
+      "eval_samples_per_second": 116.147,
+      "eval_steps_per_second": 0.922,
+      "step": 1382
+    },
+    {
+      "epoch": 70.9873417721519,
+      "grad_norm": 1.2003090381622314,
+      "learning_rate": 1.4561403508771931e-05,
+      "loss": 0.1495,
+      "step": 1402
+    },
+    {
+      "epoch": 70.9873417721519,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5427414774894714,
+      "eval_runtime": 10.7136,
+      "eval_samples_per_second": 117.608,
+      "eval_steps_per_second": 0.933,
+      "step": 1402
+    },
+    {
+      "epoch": 72.0,
+      "grad_norm": 1.2609037160873413,
+      "learning_rate": 1.3976608187134504e-05,
+      "loss": 0.1465,
+      "step": 1422
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.8690476190476191,
+      "eval_loss": 0.559054434299469,
+      "eval_runtime": 10.7661,
+      "eval_samples_per_second": 117.034,
+      "eval_steps_per_second": 0.929,
+      "step": 1422
+    },
+    {
+      "epoch": 72.9620253164557,
+      "grad_norm": 1.456437587738037,
+      "learning_rate": 1.3421052631578948e-05,
+      "loss": 0.1478,
+      "step": 1441
+    },
+    {
+      "epoch": 72.9620253164557,
+      "eval_accuracy": 0.8722222222222222,
+      "eval_loss": 0.532349705696106,
+      "eval_runtime": 10.7627,
+      "eval_samples_per_second": 117.071,
+      "eval_steps_per_second": 0.929,
+      "step": 1441
+    },
+    {
+      "epoch": 73.9746835443038,
+      "grad_norm": 1.404703140258789,
+      "learning_rate": 1.283625730994152e-05,
+      "loss": 0.1447,
+      "step": 1461
+    },
+    {
+      "epoch": 73.9746835443038,
+      "eval_accuracy": 0.8690476190476191,
+      "eval_loss": 0.5560940504074097,
+      "eval_runtime": 10.7443,
+      "eval_samples_per_second": 117.271,
+      "eval_steps_per_second": 0.931,
+      "step": 1461
+    },
+    {
+      "epoch": 74.9873417721519,
+      "grad_norm": 1.3342186212539673,
+      "learning_rate": 1.2251461988304095e-05,
+      "loss": 0.1435,
+      "step": 1481
+    },
+    {
+      "epoch": 74.9873417721519,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5346001982688904,
+      "eval_runtime": 10.8529,
+      "eval_samples_per_second": 116.098,
+      "eval_steps_per_second": 0.921,
+      "step": 1481
+    },
+    {
+      "epoch": 76.0,
+      "grad_norm": 1.2481029033660889,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.1459,
+      "step": 1501
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5466868281364441,
+      "eval_runtime": 11.0795,
+      "eval_samples_per_second": 113.723,
+      "eval_steps_per_second": 0.903,
+      "step": 1501
+    },
+    {
+      "epoch": 76.9620253164557,
+      "grad_norm": 1.2153362035751343,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.1474,
+      "step": 1520
+    },
+    {
+      "epoch": 76.9620253164557,
+      "eval_accuracy": 0.8690476190476191,
+      "eval_loss": 0.5463184118270874,
+      "eval_runtime": 10.7937,
+      "eval_samples_per_second": 116.735,
+      "eval_steps_per_second": 0.926,
+      "step": 1520
+    },
+    {
+      "epoch": 77.9746835443038,
+      "grad_norm": 1.2351834774017334,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.1352,
+      "step": 1540
+    },
+    {
+      "epoch": 77.9746835443038,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5412562489509583,
+      "eval_runtime": 11.1033,
+      "eval_samples_per_second": 113.48,
+      "eval_steps_per_second": 0.901,
+      "step": 1540
+    },
+    {
+      "epoch": 78.9873417721519,
+      "grad_norm": 1.3961732387542725,
+      "learning_rate": 9.941520467836257e-06,
+      "loss": 0.1337,
+      "step": 1560
+    },
+    {
+      "epoch": 78.9873417721519,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5488775372505188,
+      "eval_runtime": 10.7671,
+      "eval_samples_per_second": 117.023,
+      "eval_steps_per_second": 0.929,
+      "step": 1560
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 1.8050953149795532,
+      "learning_rate": 9.35672514619883e-06,
+      "loss": 0.1374,
+      "step": 1580
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.8587301587301587,
+      "eval_loss": 0.5454345941543579,
+      "eval_runtime": 10.8299,
+      "eval_samples_per_second": 116.345,
+      "eval_steps_per_second": 0.923,
+      "step": 1580
+    },
+    {
+      "epoch": 80.9620253164557,
+      "grad_norm": 1.2362314462661743,
+      "learning_rate": 8.801169590643275e-06,
+      "loss": 0.1383,
+      "step": 1599
+    },
+    {
+      "epoch": 80.9620253164557,
+      "eval_accuracy": 0.8626984126984127,
+      "eval_loss": 0.5432500243186951,
+      "eval_runtime": 10.8767,
+      "eval_samples_per_second": 115.844,
+      "eval_steps_per_second": 0.919,
+      "step": 1599
+    },
+    {
+      "epoch": 81.9746835443038,
+      "grad_norm": 1.1372051239013672,
+      "learning_rate": 8.216374269005848e-06,
+      "loss": 0.1408,
+      "step": 1619
+    },
+    {
+      "epoch": 81.9746835443038,
+      "eval_accuracy": 0.8682539682539683,
+      "eval_loss": 0.5383033156394958,
+      "eval_runtime": 10.9264,
+      "eval_samples_per_second": 115.317,
+      "eval_steps_per_second": 0.915,
+      "step": 1619
+    },
+    {
+      "epoch": 82.9873417721519,
+      "grad_norm": 1.6927990913391113,
+      "learning_rate": 7.631578947368421e-06,
+      "loss": 0.134,
+      "step": 1639
+    },
+    {
+      "epoch": 82.9873417721519,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.5522441267967224,
+      "eval_runtime": 10.7932,
+      "eval_samples_per_second": 116.74,
+      "eval_steps_per_second": 0.927,
+      "step": 1639
+    },
+    {
+      "epoch": 84.0,
+      "grad_norm": 1.1734745502471924,
+      "learning_rate": 7.046783625730995e-06,
+      "loss": 0.1353,
+      "step": 1659
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.8579365079365079,
+      "eval_loss": 0.5485585331916809,
+      "eval_runtime": 10.8452,
+      "eval_samples_per_second": 116.181,
+      "eval_steps_per_second": 0.922,
+      "step": 1659
+    },
+    {
+      "epoch": 84.9620253164557,
+      "grad_norm": 1.3662621974945068,
+      "learning_rate": 6.4912280701754385e-06,
+      "loss": 0.1435,
+      "step": 1678
+    },
+    {
+      "epoch": 84.9620253164557,
+      "eval_accuracy": 0.8595238095238096,
+      "eval_loss": 0.5582545399665833,
+      "eval_runtime": 10.7527,
+      "eval_samples_per_second": 117.18,
+      "eval_steps_per_second": 0.93,
+      "step": 1678
+    },
+    {
+      "epoch": 85.9746835443038,
+      "grad_norm": 1.3297693729400635,
+      "learning_rate": 5.906432748538012e-06,
+      "loss": 0.1324,
+      "step": 1698
+    },
+    {
+      "epoch": 85.9746835443038,
+      "eval_accuracy": 0.861904761904762,
+      "eval_loss": 0.5551320910453796,
+      "eval_runtime": 10.8253,
+      "eval_samples_per_second": 116.394,
+      "eval_steps_per_second": 0.924,
+      "step": 1698
+    },
+    {
+      "epoch": 86.9873417721519,
+      "grad_norm": 1.2304210662841797,
+      "learning_rate": 5.321637426900585e-06,
+      "loss": 0.1306,
+      "step": 1718
+    },
+    {
+      "epoch": 86.9873417721519,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.553473949432373,
+      "eval_runtime": 10.7756,
+      "eval_samples_per_second": 116.931,
+      "eval_steps_per_second": 0.928,
+      "step": 1718
+    },
+    {
+      "epoch": 88.0,
+      "grad_norm": 1.323527216911316,
+      "learning_rate": 4.736842105263159e-06,
+      "loss": 0.1348,
+      "step": 1738
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.5498299598693848,
+      "eval_runtime": 10.7878,
+      "eval_samples_per_second": 116.799,
+      "eval_steps_per_second": 0.927,
+      "step": 1738
+    },
+    {
+      "epoch": 88.9620253164557,
+      "grad_norm": 1.0867611169815063,
+      "learning_rate": 4.181286549707602e-06,
+      "loss": 0.1334,
+      "step": 1757
+    },
+    {
+      "epoch": 88.9620253164557,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5582374930381775,
+      "eval_runtime": 10.7756,
+      "eval_samples_per_second": 116.931,
+      "eval_steps_per_second": 0.928,
+      "step": 1757
+    },
+    {
+      "epoch": 89.9746835443038,
+      "grad_norm": 1.0990999937057495,
+      "learning_rate": 3.5964912280701756e-06,
+      "loss": 0.1343,
+      "step": 1777
+    },
+    {
+      "epoch": 89.9746835443038,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5526331067085266,
+      "eval_runtime": 10.8124,
+      "eval_samples_per_second": 116.533,
+      "eval_steps_per_second": 0.925,
+      "step": 1777
+    },
+    {
+      "epoch": 90.9873417721519,
+      "grad_norm": 1.3471728563308716,
+      "learning_rate": 3.011695906432749e-06,
+      "loss": 0.1275,
+      "step": 1797
+    },
+    {
+      "epoch": 90.9873417721519,
+      "eval_accuracy": 0.8650793650793651,
+      "eval_loss": 0.5543471574783325,
+      "eval_runtime": 10.7534,
+      "eval_samples_per_second": 117.172,
+      "eval_steps_per_second": 0.93,
+      "step": 1797
+    },
+    {
+      "epoch": 92.0,
+      "grad_norm": 1.3125709295272827,
+      "learning_rate": 2.426900584795322e-06,
+      "loss": 0.1285,
+      "step": 1817
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.8674603174603175,
+      "eval_loss": 0.551249086856842,
+      "eval_runtime": 10.7174,
+      "eval_samples_per_second": 117.566,
+      "eval_steps_per_second": 0.933,
+      "step": 1817
+    },
+    {
+      "epoch": 92.9620253164557,
+      "grad_norm": 1.069954752922058,
+      "learning_rate": 1.8713450292397662e-06,
+      "loss": 0.127,
+      "step": 1836
+    },
+    {
+      "epoch": 92.9620253164557,
+      "eval_accuracy": 0.8634920634920635,
+      "eval_loss": 0.5507932305335999,
+      "eval_runtime": 10.7352,
+      "eval_samples_per_second": 117.371,
+      "eval_steps_per_second": 0.932,
+      "step": 1836
+    },
+    {
+      "epoch": 93.9746835443038,
+      "grad_norm": 1.1107105016708374,
+      "learning_rate": 1.2865497076023394e-06,
+      "loss": 0.1258,
+      "step": 1856
+    },
+    {
+      "epoch": 93.9746835443038,
+      "eval_accuracy": 0.8642857142857143,
+      "eval_loss": 0.5506840944290161,
+      "eval_runtime": 10.5904,
+      "eval_samples_per_second": 118.975,
+      "eval_steps_per_second": 0.944,
+      "step": 1856
+    },
+    {
+      "epoch": 94.9873417721519,
+      "grad_norm": 1.1726576089859009,
+      "learning_rate": 7.017543859649123e-07,
+      "loss": 0.1119,
+      "step": 1876
+    },
+    {
+      "epoch": 94.9873417721519,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.5506576299667358,
+      "eval_runtime": 10.8474,
+      "eval_samples_per_second": 116.157,
+      "eval_steps_per_second": 0.922,
+      "step": 1876
+    },
+    {
+      "epoch": 96.0,
+      "grad_norm": 1.4846915006637573,
+      "learning_rate": 1.1695906432748539e-07,
+      "loss": 0.1322,
+      "step": 1896
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5504564046859741,
+      "eval_runtime": 11.0992,
+      "eval_samples_per_second": 113.522,
+      "eval_steps_per_second": 0.901,
+      "step": 1896
+    },
+    {
+      "epoch": 96.20253164556962,
+      "grad_norm": 1.0216985940933228,
+      "learning_rate": 0.0,
+      "loss": 0.1315,
+      "step": 1900
+    },
+    {
+      "epoch": 96.20253164556962,
+      "eval_accuracy": 0.8658730158730159,
+      "eval_loss": 0.5504307150840759,
+      "eval_runtime": 10.802,
+      "eval_samples_per_second": 116.645,
+      "eval_steps_per_second": 0.926,
+      "step": 1900
+    },
+    {
+      "epoch": 96.20253164556962,
+      "step": 1900,
+      "total_flos": 7.515490775048022e+19,
+      "train_loss": 0.33647052476280614,
+      "train_runtime": 20573.1873,
+      "train_samples_per_second": 48.996,
+      "train_steps_per_second": 0.092
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1900,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.515490775048022e+19,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a1c0f33a3024e6ec45ce8978209c580f91e2084ba0bf40c70af9b63aea9815a
+size 5112