yay

Browse files

Files changed (11) hide show

README.md +78 -0
all_results.json +13 -0
config.json +42 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +36 -0
runs/Jun17_09-47-11_d38a0241bb1c/events.out.tfevents.1718617637.d38a0241bb1c.6107.0 +3 -0
runs/Jun17_09-47-11_d38a0241bb1c/events.out.tfevents.1718618209.d38a0241bb1c.6107.1 +3 -0
train_results.json +8 -0
trainer_state.json +1406 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+license: apache-2.0
+base_model: google/vit-base-patch16-224-in21k
+tags:
+- image-classification
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: vit-base-beans
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# vit-base-beans
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the ahishamm/HAM_db_enhanced_balanced_reduced_50_20_20_50 dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5305
+- Accuracy: 0.8451
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 16
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 4
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy |
+|:-------------:|:------:|:----:|:---------------:|:--------:|
+| 1.0791        | 0.2304 | 100  | 1.0348          | 0.6335   |
+| 0.9415        | 0.4608 | 200  | 0.9576          | 0.6449   |
+| 0.7839        | 0.6912 | 300  | 0.8963          | 0.6662   |
+| 0.7181        | 0.9217 | 400  | 0.8479          | 0.6963   |
+| 0.3995        | 1.1521 | 500  | 0.7821          | 0.7170   |
+| 0.5025        | 1.3825 | 600  | 0.6300          | 0.7837   |
+| 0.4985        | 1.6129 | 700  | 0.7059          | 0.7490   |
+| 0.4388        | 1.8433 | 800  | 0.5893          | 0.7857   |
+| 0.2389        | 2.0737 | 900  | 0.5929          | 0.8077   |
+| 0.2767        | 2.3041 | 1000 | 0.5795          | 0.8091   |
+| 0.2387        | 2.5346 | 1100 | 0.6100          | 0.8091   |
+| 0.1691        | 2.7650 | 1200 | 0.6175          | 0.8071   |
+| 0.1738        | 2.9954 | 1300 | 0.5877          | 0.8198   |
+| 0.0397        | 3.2258 | 1400 | 0.5766          | 0.8358   |
+| 0.03          | 3.4562 | 1500 | 0.5681          | 0.8371   |
+| 0.092         | 3.6866 | 1600 | 0.5305          | 0.8451   |
+| 0.0416        | 3.9171 | 1700 | 0.5443          | 0.8471   |
+### Framework versions
+- Transformers 4.41.2
+- Pytorch 2.3.0+cu121
+- Datasets 2.20.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.8451268357810414,
+    "eval_loss": 0.5304816365242004,
+    "eval_runtime": 12.1921,
+    "eval_samples_per_second": 122.867,
+    "eval_steps_per_second": 15.42,
+    "total_flos": 2.1525139607212524e+18,
+    "train_loss": 0.4232822818690181,
+    "train_runtime": 559.5799,
+    "train_samples_per_second": 49.637,
+    "train_steps_per_second": 3.102
+}

config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224-in21k",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "akiec",
+    "1": "bcc",
+    "2": "bkl",
+    "3": "df",
+    "4": "mel",
+    "5": "nv",
+    "6": "vasc"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "akiec": "0",
+    "bcc": "1",
+    "bkl": "2",
+    "df": "3",
+    "mel": "4",
+    "nv": "5",
+    "vasc": "6"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.8451268357810414,
+    "eval_loss": 0.5304816365242004,
+    "eval_runtime": 12.1921,
+    "eval_samples_per_second": 122.867,
+    "eval_steps_per_second": 15.42
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c50d54887b112813f65a3f6a29d4f8ab8283e6ebdc2346ae5bfd8a698f082669
+size 343239356

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_valid_processor_keys": [
+    "images",
+    "do_resize",
+    "size",
+    "resample",
+    "do_rescale",
+    "rescale_factor",
+    "do_normalize",
+    "image_mean",
+    "image_std",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

runs/Jun17_09-47-11_d38a0241bb1c/events.out.tfevents.1718617637.d38a0241bb1c.6107.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3fd03c2aa467f2e20416689acc759f9b9af78d90fc73186bca8b1771f738345
+size 47243

runs/Jun17_09-47-11_d38a0241bb1c/events.out.tfevents.1718618209.d38a0241bb1c.6107.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4eb402f867490e011e329ea5ab7a2503a8cbf8bb69eea1d1b36ccb71c38e540b
+size 734

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.0,
+    "total_flos": 2.1525139607212524e+18,
+    "train_loss": 0.4232822818690181,
+    "train_runtime": 559.5799,
+    "train_samples_per_second": 49.637,
+    "train_steps_per_second": 3.102
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1406 @@

+{
+  "best_metric": 0.5304816365242004,
+  "best_model_checkpoint": "./vit-base-beans/checkpoint-1600",
+  "epoch": 4.0,
+  "eval_steps": 100,
+  "global_step": 1736,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02304147465437788,
+      "grad_norm": 2.396202564239502,
+      "learning_rate": 0.00019884792626728113,
+      "loss": 1.8485,
+      "step": 10
+    },
+    {
+      "epoch": 0.04608294930875576,
+      "grad_norm": 1.289166808128357,
+      "learning_rate": 0.00019769585253456222,
+      "loss": 1.5911,
+      "step": 20
+    },
+    {
+      "epoch": 0.06912442396313365,
+      "grad_norm": 2.512033462524414,
+      "learning_rate": 0.00019654377880184333,
+      "loss": 1.4806,
+      "step": 30
+    },
+    {
+      "epoch": 0.09216589861751152,
+      "grad_norm": 2.6234657764434814,
+      "learning_rate": 0.00019539170506912442,
+      "loss": 1.3684,
+      "step": 40
+    },
+    {
+      "epoch": 0.1152073732718894,
+      "grad_norm": 2.335149049758911,
+      "learning_rate": 0.00019423963133640554,
+      "loss": 1.4012,
+      "step": 50
+    },
+    {
+      "epoch": 0.1382488479262673,
+      "grad_norm": 3.386568546295166,
+      "learning_rate": 0.00019308755760368663,
+      "loss": 1.2248,
+      "step": 60
+    },
+    {
+      "epoch": 0.16129032258064516,
+      "grad_norm": 1.9273797273635864,
+      "learning_rate": 0.00019193548387096775,
+      "loss": 1.144,
+      "step": 70
+    },
+    {
+      "epoch": 0.18433179723502305,
+      "grad_norm": 2.2117414474487305,
+      "learning_rate": 0.00019078341013824886,
+      "loss": 1.0101,
+      "step": 80
+    },
+    {
+      "epoch": 0.2073732718894009,
+      "grad_norm": 3.1132171154022217,
+      "learning_rate": 0.00018963133640552998,
+      "loss": 1.1411,
+      "step": 90
+    },
+    {
+      "epoch": 0.2304147465437788,
+      "grad_norm": 3.0585570335388184,
+      "learning_rate": 0.00018847926267281107,
+      "loss": 1.0791,
+      "step": 100
+    },
+    {
+      "epoch": 0.2304147465437788,
+      "eval_accuracy": 0.6335113484646195,
+      "eval_loss": 1.0347875356674194,
+      "eval_runtime": 11.9052,
+      "eval_samples_per_second": 125.828,
+      "eval_steps_per_second": 15.791,
+      "step": 100
+    },
+    {
+      "epoch": 0.2534562211981567,
+      "grad_norm": 2.400747299194336,
+      "learning_rate": 0.00018732718894009219,
+      "loss": 1.04,
+      "step": 110
+    },
+    {
+      "epoch": 0.2764976958525346,
+      "grad_norm": 2.432607412338257,
+      "learning_rate": 0.00018617511520737328,
+      "loss": 1.0396,
+      "step": 120
+    },
+    {
+      "epoch": 0.2995391705069124,
+      "grad_norm": 2.5169568061828613,
+      "learning_rate": 0.0001850230414746544,
+      "loss": 0.9925,
+      "step": 130
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 2.450554847717285,
+      "learning_rate": 0.00018387096774193548,
+      "loss": 1.0361,
+      "step": 140
+    },
+    {
+      "epoch": 0.3456221198156682,
+      "grad_norm": 1.5931885242462158,
+      "learning_rate": 0.0001827188940092166,
+      "loss": 0.9851,
+      "step": 150
+    },
+    {
+      "epoch": 0.3686635944700461,
+      "grad_norm": 1.8019052743911743,
+      "learning_rate": 0.0001815668202764977,
+      "loss": 0.8847,
+      "step": 160
+    },
+    {
+      "epoch": 0.391705069124424,
+      "grad_norm": 2.283034086227417,
+      "learning_rate": 0.0001804147465437788,
+      "loss": 0.8507,
+      "step": 170
+    },
+    {
+      "epoch": 0.4147465437788018,
+      "grad_norm": 2.5878796577453613,
+      "learning_rate": 0.0001792626728110599,
+      "loss": 0.9579,
+      "step": 180
+    },
+    {
+      "epoch": 0.4377880184331797,
+      "grad_norm": 3.469618558883667,
+      "learning_rate": 0.000178110599078341,
+      "loss": 0.9453,
+      "step": 190
+    },
+    {
+      "epoch": 0.4608294930875576,
+      "grad_norm": 1.9743025302886963,
+      "learning_rate": 0.00017695852534562213,
+      "loss": 0.9415,
+      "step": 200
+    },
+    {
+      "epoch": 0.4608294930875576,
+      "eval_accuracy": 0.6448598130841121,
+      "eval_loss": 0.9576324820518494,
+      "eval_runtime": 11.862,
+      "eval_samples_per_second": 126.285,
+      "eval_steps_per_second": 15.849,
+      "step": 200
+    },
+    {
+      "epoch": 0.4838709677419355,
+      "grad_norm": 3.031723976135254,
+      "learning_rate": 0.00017580645161290325,
+      "loss": 0.7819,
+      "step": 210
+    },
+    {
+      "epoch": 0.5069124423963134,
+      "grad_norm": 2.2470805644989014,
+      "learning_rate": 0.00017465437788018436,
+      "loss": 0.8163,
+      "step": 220
+    },
+    {
+      "epoch": 0.5299539170506913,
+      "grad_norm": 1.723471760749817,
+      "learning_rate": 0.00017350230414746545,
+      "loss": 0.6728,
+      "step": 230
+    },
+    {
+      "epoch": 0.5529953917050692,
+      "grad_norm": 3.93212628364563,
+      "learning_rate": 0.00017235023041474657,
+      "loss": 0.684,
+      "step": 240
+    },
+    {
+      "epoch": 0.576036866359447,
+      "grad_norm": 1.4867981672286987,
+      "learning_rate": 0.00017119815668202766,
+      "loss": 0.8527,
+      "step": 250
+    },
+    {
+      "epoch": 0.5990783410138248,
+      "grad_norm": 2.4340641498565674,
+      "learning_rate": 0.00017004608294930878,
+      "loss": 1.0102,
+      "step": 260
+    },
+    {
+      "epoch": 0.6221198156682027,
+      "grad_norm": 2.8441660404205322,
+      "learning_rate": 0.00016889400921658987,
+      "loss": 0.7739,
+      "step": 270
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 1.6598294973373413,
+      "learning_rate": 0.00016774193548387098,
+      "loss": 0.7442,
+      "step": 280
+    },
+    {
+      "epoch": 0.6682027649769585,
+      "grad_norm": 3.455202102661133,
+      "learning_rate": 0.00016658986175115207,
+      "loss": 0.7643,
+      "step": 290
+    },
+    {
+      "epoch": 0.6912442396313364,
+      "grad_norm": 2.480116367340088,
+      "learning_rate": 0.0001654377880184332,
+      "loss": 0.7839,
+      "step": 300
+    },
+    {
+      "epoch": 0.6912442396313364,
+      "eval_accuracy": 0.6662216288384513,
+      "eval_loss": 0.89629727602005,
+      "eval_runtime": 11.7103,
+      "eval_samples_per_second": 127.921,
+      "eval_steps_per_second": 16.054,
+      "step": 300
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 3.3055620193481445,
+      "learning_rate": 0.00016428571428571428,
+      "loss": 0.639,
+      "step": 310
+    },
+    {
+      "epoch": 0.7373271889400922,
+      "grad_norm": 1.8542070388793945,
+      "learning_rate": 0.0001631336405529954,
+      "loss": 0.8931,
+      "step": 320
+    },
+    {
+      "epoch": 0.7603686635944701,
+      "grad_norm": 1.6089766025543213,
+      "learning_rate": 0.00016198156682027649,
+      "loss": 0.9023,
+      "step": 330
+    },
+    {
+      "epoch": 0.783410138248848,
+      "grad_norm": 1.5780836343765259,
+      "learning_rate": 0.0001608294930875576,
+      "loss": 0.7285,
+      "step": 340
+    },
+    {
+      "epoch": 0.8064516129032258,
+      "grad_norm": 3.153092384338379,
+      "learning_rate": 0.00015967741935483872,
+      "loss": 0.8702,
+      "step": 350
+    },
+    {
+      "epoch": 0.8294930875576036,
+      "grad_norm": 2.3161656856536865,
+      "learning_rate": 0.00015852534562211984,
+      "loss": 0.7343,
+      "step": 360
+    },
+    {
+      "epoch": 0.8525345622119815,
+      "grad_norm": 1.7923251390457153,
+      "learning_rate": 0.00015737327188940093,
+      "loss": 0.7986,
+      "step": 370
+    },
+    {
+      "epoch": 0.8755760368663594,
+      "grad_norm": 2.7093405723571777,
+      "learning_rate": 0.00015622119815668204,
+      "loss": 0.6377,
+      "step": 380
+    },
+    {
+      "epoch": 0.8986175115207373,
+      "grad_norm": 4.7555251121521,
+      "learning_rate": 0.00015506912442396313,
+      "loss": 0.8223,
+      "step": 390
+    },
+    {
+      "epoch": 0.9216589861751152,
+      "grad_norm": 2.78916072845459,
+      "learning_rate": 0.00015391705069124425,
+      "loss": 0.7181,
+      "step": 400
+    },
+    {
+      "epoch": 0.9216589861751152,
+      "eval_accuracy": 0.6962616822429907,
+      "eval_loss": 0.8479276299476624,
+      "eval_runtime": 11.6609,
+      "eval_samples_per_second": 128.464,
+      "eval_steps_per_second": 16.122,
+      "step": 400
+    },
+    {
+      "epoch": 0.9447004608294931,
+      "grad_norm": 2.4783871173858643,
+      "learning_rate": 0.00015276497695852537,
+      "loss": 0.7422,
+      "step": 410
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 2.8775382041931152,
+      "learning_rate": 0.00015161290322580646,
+      "loss": 0.6255,
+      "step": 420
+    },
+    {
+      "epoch": 0.9907834101382489,
+      "grad_norm": 2.3851194381713867,
+      "learning_rate": 0.00015046082949308757,
+      "loss": 0.7266,
+      "step": 430
+    },
+    {
+      "epoch": 1.0138248847926268,
+      "grad_norm": 5.285385608673096,
+      "learning_rate": 0.00014930875576036866,
+      "loss": 0.6283,
+      "step": 440
+    },
+    {
+      "epoch": 1.0368663594470047,
+      "grad_norm": 1.691789984703064,
+      "learning_rate": 0.00014815668202764978,
+      "loss": 0.4918,
+      "step": 450
+    },
+    {
+      "epoch": 1.0599078341013826,
+      "grad_norm": 2.8921382427215576,
+      "learning_rate": 0.00014700460829493087,
+      "loss": 0.5787,
+      "step": 460
+    },
+    {
+      "epoch": 1.0829493087557605,
+      "grad_norm": 3.1509757041931152,
+      "learning_rate": 0.00014585253456221199,
+      "loss": 0.4906,
+      "step": 470
+    },
+    {
+      "epoch": 1.1059907834101383,
+      "grad_norm": 3.2979822158813477,
+      "learning_rate": 0.0001447004608294931,
+      "loss": 0.5715,
+      "step": 480
+    },
+    {
+      "epoch": 1.129032258064516,
+      "grad_norm": 3.3389899730682373,
+      "learning_rate": 0.00014354838709677422,
+      "loss": 0.5411,
+      "step": 490
+    },
+    {
+      "epoch": 1.1520737327188941,
+      "grad_norm": 0.9589664936065674,
+      "learning_rate": 0.0001423963133640553,
+      "loss": 0.3995,
+      "step": 500
+    },
+    {
+      "epoch": 1.1520737327188941,
+      "eval_accuracy": 0.7169559412550067,
+      "eval_loss": 0.7820530533790588,
+      "eval_runtime": 11.5056,
+      "eval_samples_per_second": 130.197,
+      "eval_steps_per_second": 16.34,
+      "step": 500
+    },
+    {
+      "epoch": 1.1751152073732718,
+      "grad_norm": 2.248042106628418,
+      "learning_rate": 0.00014124423963133643,
+      "loss": 0.5057,
+      "step": 510
+    },
+    {
+      "epoch": 1.1981566820276497,
+      "grad_norm": 3.944963216781616,
+      "learning_rate": 0.00014009216589861752,
+      "loss": 0.5005,
+      "step": 520
+    },
+    {
+      "epoch": 1.2211981566820276,
+      "grad_norm": 2.7981412410736084,
+      "learning_rate": 0.00013894009216589863,
+      "loss": 0.6703,
+      "step": 530
+    },
+    {
+      "epoch": 1.2442396313364055,
+      "grad_norm": 1.683069109916687,
+      "learning_rate": 0.00013778801843317972,
+      "loss": 0.5394,
+      "step": 540
+    },
+    {
+      "epoch": 1.2672811059907834,
+      "grad_norm": 1.2122957706451416,
+      "learning_rate": 0.00013663594470046084,
+      "loss": 0.4775,
+      "step": 550
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 1.4005225896835327,
+      "learning_rate": 0.00013548387096774193,
+      "loss": 0.4467,
+      "step": 560
+    },
+    {
+      "epoch": 1.3133640552995391,
+      "grad_norm": 2.5969114303588867,
+      "learning_rate": 0.00013433179723502305,
+      "loss": 0.4289,
+      "step": 570
+    },
+    {
+      "epoch": 1.336405529953917,
+      "grad_norm": 3.344553232192993,
+      "learning_rate": 0.00013317972350230414,
+      "loss": 0.4631,
+      "step": 580
+    },
+    {
+      "epoch": 1.359447004608295,
+      "grad_norm": 1.6798585653305054,
+      "learning_rate": 0.00013202764976958525,
+      "loss": 0.4329,
+      "step": 590
+    },
+    {
+      "epoch": 1.3824884792626728,
+      "grad_norm": 1.3849396705627441,
+      "learning_rate": 0.00013087557603686637,
+      "loss": 0.5025,
+      "step": 600
+    },
+    {
+      "epoch": 1.3824884792626728,
+      "eval_accuracy": 0.7837116154873164,
+      "eval_loss": 0.6299713253974915,
+      "eval_runtime": 11.705,
+      "eval_samples_per_second": 127.979,
+      "eval_steps_per_second": 16.061,
+      "step": 600
+    },
+    {
+      "epoch": 1.4055299539170507,
+      "grad_norm": 2.550548791885376,
+      "learning_rate": 0.00012972350230414746,
+      "loss": 0.4463,
+      "step": 610
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 3.063411235809326,
+      "learning_rate": 0.00012857142857142858,
+      "loss": 0.3624,
+      "step": 620
+    },
+    {
+      "epoch": 1.4516129032258065,
+      "grad_norm": 6.676961898803711,
+      "learning_rate": 0.0001274193548387097,
+      "loss": 0.4446,
+      "step": 630
+    },
+    {
+      "epoch": 1.4746543778801844,
+      "grad_norm": 0.8720624446868896,
+      "learning_rate": 0.0001262672811059908,
+      "loss": 0.5162,
+      "step": 640
+    },
+    {
+      "epoch": 1.4976958525345623,
+      "grad_norm": 2.214848041534424,
+      "learning_rate": 0.0001251152073732719,
+      "loss": 0.2978,
+      "step": 650
+    },
+    {
+      "epoch": 1.52073732718894,
+      "grad_norm": 5.083272457122803,
+      "learning_rate": 0.00012396313364055302,
+      "loss": 0.5157,
+      "step": 660
+    },
+    {
+      "epoch": 1.543778801843318,
+      "grad_norm": 4.042588710784912,
+      "learning_rate": 0.0001228110599078341,
+      "loss": 0.5338,
+      "step": 670
+    },
+    {
+      "epoch": 1.5668202764976957,
+      "grad_norm": 3.1029160022735596,
+      "learning_rate": 0.00012165898617511522,
+      "loss": 0.4767,
+      "step": 680
+    },
+    {
+      "epoch": 1.5898617511520738,
+      "grad_norm": 1.4430710077285767,
+      "learning_rate": 0.00012050691244239631,
+      "loss": 0.5531,
+      "step": 690
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 11.178030967712402,
+      "learning_rate": 0.00011935483870967743,
+      "loss": 0.4985,
+      "step": 700
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "eval_accuracy": 0.7489986648865153,
+      "eval_loss": 0.7058817744255066,
+      "eval_runtime": 11.9139,
+      "eval_samples_per_second": 125.736,
+      "eval_steps_per_second": 15.78,
+      "step": 700
+    },
+    {
+      "epoch": 1.6359447004608296,
+      "grad_norm": 3.918297529220581,
+      "learning_rate": 0.00011820276497695852,
+      "loss": 0.5471,
+      "step": 710
+    },
+    {
+      "epoch": 1.6589861751152073,
+      "grad_norm": 2.7170467376708984,
+      "learning_rate": 0.00011705069124423964,
+      "loss": 0.4797,
+      "step": 720
+    },
+    {
+      "epoch": 1.6820276497695854,
+      "grad_norm": 1.0436949729919434,
+      "learning_rate": 0.00011589861751152074,
+      "loss": 0.427,
+      "step": 730
+    },
+    {
+      "epoch": 1.705069124423963,
+      "grad_norm": 3.6829638481140137,
+      "learning_rate": 0.00011474654377880186,
+      "loss": 0.5121,
+      "step": 740
+    },
+    {
+      "epoch": 1.728110599078341,
+      "grad_norm": 1.8748345375061035,
+      "learning_rate": 0.00011359447004608295,
+      "loss": 0.4227,
+      "step": 750
+    },
+    {
+      "epoch": 1.7511520737327189,
+      "grad_norm": 4.548758506774902,
+      "learning_rate": 0.00011244239631336406,
+      "loss": 0.3164,
+      "step": 760
+    },
+    {
+      "epoch": 1.7741935483870968,
+      "grad_norm": 3.4847280979156494,
+      "learning_rate": 0.00011129032258064515,
+      "loss": 0.5092,
+      "step": 770
+    },
+    {
+      "epoch": 1.7972350230414746,
+      "grad_norm": 1.8869714736938477,
+      "learning_rate": 0.00011013824884792627,
+      "loss": 0.4472,
+      "step": 780
+    },
+    {
+      "epoch": 1.8202764976958525,
+      "grad_norm": 3.899409770965576,
+      "learning_rate": 0.00010898617511520739,
+      "loss": 0.4708,
+      "step": 790
+    },
+    {
+      "epoch": 1.8433179723502304,
+      "grad_norm": 1.543060541152954,
+      "learning_rate": 0.00010783410138248849,
+      "loss": 0.4388,
+      "step": 800
+    },
+    {
+      "epoch": 1.8433179723502304,
+      "eval_accuracy": 0.7857142857142857,
+      "eval_loss": 0.5893343091011047,
+      "eval_runtime": 11.4174,
+      "eval_samples_per_second": 131.203,
+      "eval_steps_per_second": 16.466,
+      "step": 800
+    },
+    {
+      "epoch": 1.8663594470046083,
+      "grad_norm": 5.587724208831787,
+      "learning_rate": 0.0001066820276497696,
+      "loss": 0.4264,
+      "step": 810
+    },
+    {
+      "epoch": 1.8894009216589862,
+      "grad_norm": 7.794037342071533,
+      "learning_rate": 0.0001055299539170507,
+      "loss": 0.4513,
+      "step": 820
+    },
+    {
+      "epoch": 1.912442396313364,
+      "grad_norm": 3.597796678543091,
+      "learning_rate": 0.00010437788018433181,
+      "loss": 0.437,
+      "step": 830
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 2.825336217880249,
+      "learning_rate": 0.0001032258064516129,
+      "loss": 0.5202,
+      "step": 840
+    },
+    {
+      "epoch": 1.9585253456221197,
+      "grad_norm": 1.8002281188964844,
+      "learning_rate": 0.00010207373271889402,
+      "loss": 0.3283,
+      "step": 850
+    },
+    {
+      "epoch": 1.9815668202764978,
+      "grad_norm": 6.496976375579834,
+      "learning_rate": 0.00010092165898617512,
+      "loss": 0.2887,
+      "step": 860
+    },
+    {
+      "epoch": 2.0046082949308754,
+      "grad_norm": 2.1674392223358154,
+      "learning_rate": 9.976958525345623e-05,
+      "loss": 0.3299,
+      "step": 870
+    },
+    {
+      "epoch": 2.0276497695852536,
+      "grad_norm": 0.475057989358902,
+      "learning_rate": 9.861751152073733e-05,
+      "loss": 0.2049,
+      "step": 880
+    },
+    {
+      "epoch": 2.0506912442396312,
+      "grad_norm": 2.232353687286377,
+      "learning_rate": 9.746543778801845e-05,
+      "loss": 0.2598,
+      "step": 890
+    },
+    {
+      "epoch": 2.0737327188940093,
+      "grad_norm": 3.595874309539795,
+      "learning_rate": 9.631336405529955e-05,
+      "loss": 0.2389,
+      "step": 900
+    },
+    {
+      "epoch": 2.0737327188940093,
+      "eval_accuracy": 0.807743658210948,
+      "eval_loss": 0.5928804278373718,
+      "eval_runtime": 11.7831,
+      "eval_samples_per_second": 127.131,
+      "eval_steps_per_second": 15.955,
+      "step": 900
+    },
+    {
+      "epoch": 2.096774193548387,
+      "grad_norm": 2.4027860164642334,
+      "learning_rate": 9.516129032258065e-05,
+      "loss": 0.2023,
+      "step": 910
+    },
+    {
+      "epoch": 2.119815668202765,
+      "grad_norm": 4.1582560539245605,
+      "learning_rate": 9.400921658986176e-05,
+      "loss": 0.2389,
+      "step": 920
+    },
+    {
+      "epoch": 2.142857142857143,
+      "grad_norm": 3.8105199337005615,
+      "learning_rate": 9.285714285714286e-05,
+      "loss": 0.2054,
+      "step": 930
+    },
+    {
+      "epoch": 2.165898617511521,
+      "grad_norm": 4.042884826660156,
+      "learning_rate": 9.170506912442398e-05,
+      "loss": 0.2445,
+      "step": 940
+    },
+    {
+      "epoch": 2.1889400921658986,
+      "grad_norm": 3.3385071754455566,
+      "learning_rate": 9.055299539170508e-05,
+      "loss": 0.2578,
+      "step": 950
+    },
+    {
+      "epoch": 2.2119815668202767,
+      "grad_norm": 2.232977867126465,
+      "learning_rate": 8.940092165898618e-05,
+      "loss": 0.2168,
+      "step": 960
+    },
+    {
+      "epoch": 2.2350230414746544,
+      "grad_norm": 4.8774847984313965,
+      "learning_rate": 8.824884792626729e-05,
+      "loss": 0.1978,
+      "step": 970
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 2.6131808757781982,
+      "learning_rate": 8.709677419354839e-05,
+      "loss": 0.223,
+      "step": 980
+    },
+    {
+      "epoch": 2.28110599078341,
+      "grad_norm": 1.6126481294631958,
+      "learning_rate": 8.594470046082949e-05,
+      "loss": 0.3882,
+      "step": 990
+    },
+    {
+      "epoch": 2.3041474654377883,
+      "grad_norm": 1.6977124214172363,
+      "learning_rate": 8.479262672811061e-05,
+      "loss": 0.2767,
+      "step": 1000
+    },
+    {
+      "epoch": 2.3041474654377883,
+      "eval_accuracy": 0.8090787716955942,
+      "eval_loss": 0.5795237421989441,
+      "eval_runtime": 11.3869,
+      "eval_samples_per_second": 131.555,
+      "eval_steps_per_second": 16.51,
+      "step": 1000
+    },
+    {
+      "epoch": 2.327188940092166,
+      "grad_norm": 5.384529113769531,
+      "learning_rate": 8.364055299539171e-05,
+      "loss": 0.2478,
+      "step": 1010
+    },
+    {
+      "epoch": 2.3502304147465436,
+      "grad_norm": 7.527071952819824,
+      "learning_rate": 8.248847926267282e-05,
+      "loss": 0.1614,
+      "step": 1020
+    },
+    {
+      "epoch": 2.3732718894009217,
+      "grad_norm": 3.253967523574829,
+      "learning_rate": 8.133640552995392e-05,
+      "loss": 0.1988,
+      "step": 1030
+    },
+    {
+      "epoch": 2.3963133640552994,
+      "grad_norm": 2.3061683177948,
+      "learning_rate": 8.018433179723502e-05,
+      "loss": 0.2267,
+      "step": 1040
+    },
+    {
+      "epoch": 2.4193548387096775,
+      "grad_norm": 5.240030288696289,
+      "learning_rate": 7.903225806451613e-05,
+      "loss": 0.3522,
+      "step": 1050
+    },
+    {
+      "epoch": 2.442396313364055,
+      "grad_norm": 5.367170810699463,
+      "learning_rate": 7.788018433179723e-05,
+      "loss": 0.21,
+      "step": 1060
+    },
+    {
+      "epoch": 2.4654377880184333,
+      "grad_norm": 2.52602219581604,
+      "learning_rate": 7.672811059907835e-05,
+      "loss": 0.208,
+      "step": 1070
+    },
+    {
+      "epoch": 2.488479262672811,
+      "grad_norm": 3.110276937484741,
+      "learning_rate": 7.557603686635945e-05,
+      "loss": 0.1624,
+      "step": 1080
+    },
+    {
+      "epoch": 2.511520737327189,
+      "grad_norm": 3.7577178478240967,
+      "learning_rate": 7.442396313364057e-05,
+      "loss": 0.2187,
+      "step": 1090
+    },
+    {
+      "epoch": 2.5345622119815667,
+      "grad_norm": 0.886064887046814,
+      "learning_rate": 7.327188940092167e-05,
+      "loss": 0.2387,
+      "step": 1100
+    },
+    {
+      "epoch": 2.5345622119815667,
+      "eval_accuracy": 0.8090787716955942,
+      "eval_loss": 0.6099982857704163,
+      "eval_runtime": 11.7513,
+      "eval_samples_per_second": 127.476,
+      "eval_steps_per_second": 15.998,
+      "step": 1100
+    },
+    {
+      "epoch": 2.557603686635945,
+      "grad_norm": 0.9772585034370422,
+      "learning_rate": 7.211981566820277e-05,
+      "loss": 0.2289,
+      "step": 1110
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 5.879600524902344,
+      "learning_rate": 7.096774193548388e-05,
+      "loss": 0.2592,
+      "step": 1120
+    },
+    {
+      "epoch": 2.6036866359447006,
+      "grad_norm": 5.125580310821533,
+      "learning_rate": 6.981566820276498e-05,
+      "loss": 0.1801,
+      "step": 1130
+    },
+    {
+      "epoch": 2.6267281105990783,
+      "grad_norm": 4.4502692222595215,
+      "learning_rate": 6.86635944700461e-05,
+      "loss": 0.3577,
+      "step": 1140
+    },
+    {
+      "epoch": 2.6497695852534564,
+      "grad_norm": 0.543267548084259,
+      "learning_rate": 6.75115207373272e-05,
+      "loss": 0.1313,
+      "step": 1150
+    },
+    {
+      "epoch": 2.672811059907834,
+      "grad_norm": 1.4891630411148071,
+      "learning_rate": 6.63594470046083e-05,
+      "loss": 0.1858,
+      "step": 1160
+    },
+    {
+      "epoch": 2.6958525345622117,
+      "grad_norm": 2.359645366668701,
+      "learning_rate": 6.52073732718894e-05,
+      "loss": 0.2059,
+      "step": 1170
+    },
+    {
+      "epoch": 2.71889400921659,
+      "grad_norm": 2.5760185718536377,
+      "learning_rate": 6.405529953917051e-05,
+      "loss": 0.2378,
+      "step": 1180
+    },
+    {
+      "epoch": 2.741935483870968,
+      "grad_norm": 0.24703356623649597,
+      "learning_rate": 6.290322580645161e-05,
+      "loss": 0.1487,
+      "step": 1190
+    },
+    {
+      "epoch": 2.7649769585253456,
+      "grad_norm": 0.22307877242565155,
+      "learning_rate": 6.175115207373272e-05,
+      "loss": 0.1691,
+      "step": 1200
+    },
+    {
+      "epoch": 2.7649769585253456,
+      "eval_accuracy": 0.8070761014686249,
+      "eval_loss": 0.6174820065498352,
+      "eval_runtime": 11.265,
+      "eval_samples_per_second": 132.978,
+      "eval_steps_per_second": 16.689,
+      "step": 1200
+    },
+    {
+      "epoch": 2.7880184331797233,
+      "grad_norm": 2.50034761428833,
+      "learning_rate": 6.0599078341013825e-05,
+      "loss": 0.2148,
+      "step": 1210
+    },
+    {
+      "epoch": 2.8110599078341014,
+      "grad_norm": 0.3251860439777374,
+      "learning_rate": 5.944700460829493e-05,
+      "loss": 0.1538,
+      "step": 1220
+    },
+    {
+      "epoch": 2.8341013824884795,
+      "grad_norm": 3.687969446182251,
+      "learning_rate": 5.829493087557604e-05,
+      "loss": 0.2445,
+      "step": 1230
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 7.214417457580566,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.229,
+      "step": 1240
+    },
+    {
+      "epoch": 2.880184331797235,
+      "grad_norm": 2.587062120437622,
+      "learning_rate": 5.5990783410138245e-05,
+      "loss": 0.1999,
+      "step": 1250
+    },
+    {
+      "epoch": 2.903225806451613,
+      "grad_norm": 4.365920066833496,
+      "learning_rate": 5.4838709677419355e-05,
+      "loss": 0.1061,
+      "step": 1260
+    },
+    {
+      "epoch": 2.9262672811059907,
+      "grad_norm": 3.7295572757720947,
+      "learning_rate": 5.368663594470046e-05,
+      "loss": 0.3093,
+      "step": 1270
+    },
+    {
+      "epoch": 2.9493087557603688,
+      "grad_norm": 2.4992685317993164,
+      "learning_rate": 5.253456221198156e-05,
+      "loss": 0.1644,
+      "step": 1280
+    },
+    {
+      "epoch": 2.9723502304147464,
+      "grad_norm": 5.495995998382568,
+      "learning_rate": 5.138248847926268e-05,
+      "loss": 0.2393,
+      "step": 1290
+    },
+    {
+      "epoch": 2.9953917050691246,
+      "grad_norm": 2.1380579471588135,
+      "learning_rate": 5.023041474654379e-05,
+      "loss": 0.1738,
+      "step": 1300
+    },
+    {
+      "epoch": 2.9953917050691246,
+      "eval_accuracy": 0.8197596795727636,
+      "eval_loss": 0.5877332091331482,
+      "eval_runtime": 11.4089,
+      "eval_samples_per_second": 131.301,
+      "eval_steps_per_second": 16.478,
+      "step": 1300
+    },
+    {
+      "epoch": 3.0184331797235022,
+      "grad_norm": 6.119831085205078,
+      "learning_rate": 4.9078341013824885e-05,
+      "loss": 0.075,
+      "step": 1310
+    },
+    {
+      "epoch": 3.0414746543778803,
+      "grad_norm": 0.25446683168411255,
+      "learning_rate": 4.792626728110599e-05,
+      "loss": 0.0528,
+      "step": 1320
+    },
+    {
+      "epoch": 3.064516129032258,
+      "grad_norm": 0.32773900032043457,
+      "learning_rate": 4.67741935483871e-05,
+      "loss": 0.0551,
+      "step": 1330
+    },
+    {
+      "epoch": 3.087557603686636,
+      "grad_norm": 0.8912816643714905,
+      "learning_rate": 4.562211981566821e-05,
+      "loss": 0.0799,
+      "step": 1340
+    },
+    {
+      "epoch": 3.110599078341014,
+      "grad_norm": 0.6732431054115295,
+      "learning_rate": 4.447004608294931e-05,
+      "loss": 0.0327,
+      "step": 1350
+    },
+    {
+      "epoch": 3.133640552995392,
+      "grad_norm": 5.909882545471191,
+      "learning_rate": 4.3317972350230415e-05,
+      "loss": 0.108,
+      "step": 1360
+    },
+    {
+      "epoch": 3.1566820276497696,
+      "grad_norm": 1.3546661138534546,
+      "learning_rate": 4.2165898617511525e-05,
+      "loss": 0.1057,
+      "step": 1370
+    },
+    {
+      "epoch": 3.1797235023041477,
+      "grad_norm": 0.09205944836139679,
+      "learning_rate": 4.101382488479263e-05,
+      "loss": 0.045,
+      "step": 1380
+    },
+    {
+      "epoch": 3.2027649769585254,
+      "grad_norm": 0.12445586174726486,
+      "learning_rate": 3.986175115207373e-05,
+      "loss": 0.0391,
+      "step": 1390
+    },
+    {
+      "epoch": 3.225806451612903,
+      "grad_norm": 0.49267128109931946,
+      "learning_rate": 3.870967741935484e-05,
+      "loss": 0.0397,
+      "step": 1400
+    },
+    {
+      "epoch": 3.225806451612903,
+      "eval_accuracy": 0.835781041388518,
+      "eval_loss": 0.576629102230072,
+      "eval_runtime": 11.5658,
+      "eval_samples_per_second": 129.52,
+      "eval_steps_per_second": 16.255,
+      "step": 1400
+    },
+    {
+      "epoch": 3.248847926267281,
+      "grad_norm": 0.24710910022258759,
+      "learning_rate": 3.7557603686635945e-05,
+      "loss": 0.0982,
+      "step": 1410
+    },
+    {
+      "epoch": 3.271889400921659,
+      "grad_norm": 1.3541345596313477,
+      "learning_rate": 3.640552995391705e-05,
+      "loss": 0.1062,
+      "step": 1420
+    },
+    {
+      "epoch": 3.294930875576037,
+      "grad_norm": 0.07805185765028,
+      "learning_rate": 3.525345622119816e-05,
+      "loss": 0.0367,
+      "step": 1430
+    },
+    {
+      "epoch": 3.3179723502304146,
+      "grad_norm": 0.704824686050415,
+      "learning_rate": 3.410138248847927e-05,
+      "loss": 0.0576,
+      "step": 1440
+    },
+    {
+      "epoch": 3.3410138248847927,
+      "grad_norm": 3.216744899749756,
+      "learning_rate": 3.294930875576037e-05,
+      "loss": 0.123,
+      "step": 1450
+    },
+    {
+      "epoch": 3.3640552995391704,
+      "grad_norm": 3.2812583446502686,
+      "learning_rate": 3.1797235023041475e-05,
+      "loss": 0.0535,
+      "step": 1460
+    },
+    {
+      "epoch": 3.3870967741935485,
+      "grad_norm": 0.09345371276140213,
+      "learning_rate": 3.0645161290322585e-05,
+      "loss": 0.0363,
+      "step": 1470
+    },
+    {
+      "epoch": 3.410138248847926,
+      "grad_norm": 0.5610162019729614,
+      "learning_rate": 2.9493087557603688e-05,
+      "loss": 0.0903,
+      "step": 1480
+    },
+    {
+      "epoch": 3.4331797235023043,
+      "grad_norm": 1.413180947303772,
+      "learning_rate": 2.8341013824884795e-05,
+      "loss": 0.0792,
+      "step": 1490
+    },
+    {
+      "epoch": 3.456221198156682,
+      "grad_norm": 6.735473155975342,
+      "learning_rate": 2.7188940092165898e-05,
+      "loss": 0.03,
+      "step": 1500
+    },
+    {
+      "epoch": 3.456221198156682,
+      "eval_accuracy": 0.8371161548731643,
+      "eval_loss": 0.5680701732635498,
+      "eval_runtime": 11.6369,
+      "eval_samples_per_second": 128.728,
+      "eval_steps_per_second": 16.155,
+      "step": 1500
+    },
+    {
+      "epoch": 3.47926267281106,
+      "grad_norm": 1.4329415559768677,
+      "learning_rate": 2.6036866359447005e-05,
+      "loss": 0.0206,
+      "step": 1510
+    },
+    {
+      "epoch": 3.5023041474654377,
+      "grad_norm": 0.0513407364487648,
+      "learning_rate": 2.488479262672811e-05,
+      "loss": 0.0637,
+      "step": 1520
+    },
+    {
+      "epoch": 3.525345622119816,
+      "grad_norm": 0.09985367208719254,
+      "learning_rate": 2.3732718894009218e-05,
+      "loss": 0.0829,
+      "step": 1530
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "grad_norm": 0.0632900595664978,
+      "learning_rate": 2.258064516129032e-05,
+      "loss": 0.0329,
+      "step": 1540
+    },
+    {
+      "epoch": 3.571428571428571,
+      "grad_norm": 0.23229588568210602,
+      "learning_rate": 2.1428571428571428e-05,
+      "loss": 0.0709,
+      "step": 1550
+    },
+    {
+      "epoch": 3.5944700460829493,
+      "grad_norm": 0.15025608241558075,
+      "learning_rate": 2.0276497695852538e-05,
+      "loss": 0.1135,
+      "step": 1560
+    },
+    {
+      "epoch": 3.6175115207373274,
+      "grad_norm": 5.933778285980225,
+      "learning_rate": 1.912442396313364e-05,
+      "loss": 0.1093,
+      "step": 1570
+    },
+    {
+      "epoch": 3.640552995391705,
+      "grad_norm": 0.06949874013662338,
+      "learning_rate": 1.7972350230414748e-05,
+      "loss": 0.0498,
+      "step": 1580
+    },
+    {
+      "epoch": 3.6635944700460827,
+      "grad_norm": 0.09838402271270752,
+      "learning_rate": 1.682027649769585e-05,
+      "loss": 0.0598,
+      "step": 1590
+    },
+    {
+      "epoch": 3.686635944700461,
+      "grad_norm": 0.9366612434387207,
+      "learning_rate": 1.5668202764976958e-05,
+      "loss": 0.092,
+      "step": 1600
+    },
+    {
+      "epoch": 3.686635944700461,
+      "eval_accuracy": 0.8451268357810414,
+      "eval_loss": 0.5304816365242004,
+      "eval_runtime": 11.6024,
+      "eval_samples_per_second": 129.111,
+      "eval_steps_per_second": 16.203,
+      "step": 1600
+    },
+    {
+      "epoch": 3.709677419354839,
+      "grad_norm": 0.04733530059456825,
+      "learning_rate": 1.4516129032258066e-05,
+      "loss": 0.0276,
+      "step": 1610
+    },
+    {
+      "epoch": 3.7327188940092166,
+      "grad_norm": 0.08603022992610931,
+      "learning_rate": 1.3364055299539171e-05,
+      "loss": 0.0347,
+      "step": 1620
+    },
+    {
+      "epoch": 3.7557603686635943,
+      "grad_norm": 0.041543856263160706,
+      "learning_rate": 1.2211981566820276e-05,
+      "loss": 0.026,
+      "step": 1630
+    },
+    {
+      "epoch": 3.7788018433179724,
+      "grad_norm": 0.24026305973529816,
+      "learning_rate": 1.1059907834101383e-05,
+      "loss": 0.0496,
+      "step": 1640
+    },
+    {
+      "epoch": 3.80184331797235,
+      "grad_norm": 0.03894612938165665,
+      "learning_rate": 9.90783410138249e-06,
+      "loss": 0.0365,
+      "step": 1650
+    },
+    {
+      "epoch": 3.824884792626728,
+      "grad_norm": 4.442405700683594,
+      "learning_rate": 8.755760368663595e-06,
+      "loss": 0.0402,
+      "step": 1660
+    },
+    {
+      "epoch": 3.847926267281106,
+      "grad_norm": 0.032657474279403687,
+      "learning_rate": 7.603686635944701e-06,
+      "loss": 0.0596,
+      "step": 1670
+    },
+    {
+      "epoch": 3.870967741935484,
+      "grad_norm": 2.9635491371154785,
+      "learning_rate": 6.451612903225806e-06,
+      "loss": 0.0835,
+      "step": 1680
+    },
+    {
+      "epoch": 3.8940092165898617,
+      "grad_norm": 0.06601913273334503,
+      "learning_rate": 5.299539170506913e-06,
+      "loss": 0.0277,
+      "step": 1690
+    },
+    {
+      "epoch": 3.9170506912442398,
+      "grad_norm": 0.22990980744361877,
+      "learning_rate": 4.147465437788019e-06,
+      "loss": 0.0416,
+      "step": 1700
+    },
+    {
+      "epoch": 3.9170506912442398,
+      "eval_accuracy": 0.8471295060080107,
+      "eval_loss": 0.5442608594894409,
+      "eval_runtime": 11.486,
+      "eval_samples_per_second": 130.42,
+      "eval_steps_per_second": 16.368,
+      "step": 1700
+    },
+    {
+      "epoch": 3.9400921658986174,
+      "grad_norm": 0.06300857663154602,
+      "learning_rate": 2.9953917050691243e-06,
+      "loss": 0.0331,
+      "step": 1710
+    },
+    {
+      "epoch": 3.9631336405529956,
+      "grad_norm": 1.9846687316894531,
+      "learning_rate": 1.8433179723502305e-06,
+      "loss": 0.04,
+      "step": 1720
+    },
+    {
+      "epoch": 3.986175115207373,
+      "grad_norm": 0.4808693826198578,
+      "learning_rate": 6.912442396313364e-07,
+      "loss": 0.0494,
+      "step": 1730
+    },
+    {
+      "epoch": 4.0,
+      "step": 1736,
+      "total_flos": 2.1525139607212524e+18,
+      "train_loss": 0.4232822818690181,
+      "train_runtime": 559.5799,
+      "train_samples_per_second": 49.637,
+      "train_steps_per_second": 3.102
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1736,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.1525139607212524e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d66167632c09a446e5d3275f18d6a203e0198247882b9b893a75ae4a978e75ca
+size 5112