upload model

Browse files

Files changed (10) hide show

.gitignore +2 -0
README.md +134 -0
all_results.json +12 -0
config.json +231 -0
eval_results.json +8 -0
preprocessor_config.json +22 -0
pytorch_model.bin +3 -0
train_results.json +7 -0
trainer_state.json +1114 -0
training_args.bin +3 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ task_description.json
2	+ *.log

README.md ADDED Viewed

	@@ -0,0 +1,134 @@

+---
+tags:
+- image-classification
+- vision
+- generated_from_trainer
+datasets:
+- food101
+metrics:
+- accuracy
+model-index:
+- name: lr6e-05
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: food101
+      type: food101
+      config: default
+      split: validation
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8971089108910891
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# vit-base-patch16-224-food101
+This model is a fine-tuned version of [eslamxm/vit-base-food101](https://huggingface.co/eslamxm/vit-base-food101) on the food101 dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.3856
+- Accuracy: 0.8971
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Script
+```python
+"cmd_list": [
+        "python",
+        "run_image_classification.py",
+        "--model_name_or_path",
+        "eslamxm/vit-base-food101",
+        "--dataset_name",
+        "food101",
+        "--output_dir",
+        "<output_dir>",
+        "--overwrite_output_dir",
+        "--remove_unused_columns",
+        "False",
+        "--do_train",
+        "--do_eval",
+        "--optim",
+        "adamw_torch",
+        "--learning_rate",
+        "6e-05",
+        "--num_train_epochs",
+        "3",
+        "--dataloader_num_workers",
+        "10",
+        "--per_device_train_batch_size",
+        "64",
+        "--gradient_accumulation_steps",
+        "2",
+        "--per_device_eval_batch_size",
+        "128",
+        "--logging_strategy",
+        "steps",
+        "--logging_steps",
+        "10",
+        "--evaluation_strategy",
+        "steps",
+        "--eval_steps",
+        "500",
+        "--save_steps",
+        "500",
+        "--evaluation_strategy",
+        "epoch",
+        "--save_strategy",
+        "epoch",
+        "--load_best_model_at_end",
+        "False",
+        "--save_total_limit",
+        "1",
+        "--seed",
+        "42",
+        "--fp16"
+    ]
+```
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 6e-05
+- train_batch_size: 64
+- eval_batch_size: 128
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.3687        | 1.0   | 592  | 0.4044          | 0.8889   |
+| 0.3422        | 2.0   | 1184 | 0.3911          | 0.8953   |
+| 0.3808        | 3.0   | 1776 | 0.3856          | 0.8971   |
+### Framework versions
+- Transformers 4.27.4
+- Pytorch 1.13.1
+- Datasets 2.11.0
+- Tokenizers 0.13.3

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.8971089108910891,
+    "eval_loss": 0.38559553027153015,
+    "eval_runtime": 33.4525,
+    "eval_samples_per_second": 754.801,
+    "eval_steps_per_second": 5.919,
+    "train_loss": 0.3829323179549999,
+    "train_runtime": 916.6333,
+    "train_samples_per_second": 247.918,
+    "train_steps_per_second": 1.938
+}

config.json ADDED Viewed

	@@ -0,0 +1,231 @@

+{
+  "_name_or_path": "/mnt/sh_flex_storage/home/yujiepan/vit-base-food101",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "finetuning_task": "image-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "apple_pie",
+    "1": "baby_back_ribs",
+    "10": "bruschetta",
+    "100": "waffles",
+    "11": "caesar_salad",
+    "12": "cannoli",
+    "13": "caprese_salad",
+    "14": "carrot_cake",
+    "15": "ceviche",
+    "16": "cheesecake",
+    "17": "cheese_plate",
+    "18": "chicken_curry",
+    "19": "chicken_quesadilla",
+    "2": "baklava",
+    "20": "chicken_wings",
+    "21": "chocolate_cake",
+    "22": "chocolate_mousse",
+    "23": "churros",
+    "24": "clam_chowder",
+    "25": "club_sandwich",
+    "26": "crab_cakes",
+    "27": "creme_brulee",
+    "28": "croque_madame",
+    "29": "cup_cakes",
+    "3": "beef_carpaccio",
+    "30": "deviled_eggs",
+    "31": "donuts",
+    "32": "dumplings",
+    "33": "edamame",
+    "34": "eggs_benedict",
+    "35": "escargots",
+    "36": "falafel",
+    "37": "filet_mignon",
+    "38": "fish_and_chips",
+    "39": "foie_gras",
+    "4": "beef_tartare",
+    "40": "french_fries",
+    "41": "french_onion_soup",
+    "42": "french_toast",
+    "43": "fried_calamari",
+    "44": "fried_rice",
+    "45": "frozen_yogurt",
+    "46": "garlic_bread",
+    "47": "gnocchi",
+    "48": "greek_salad",
+    "49": "grilled_cheese_sandwich",
+    "5": "beet_salad",
+    "50": "grilled_salmon",
+    "51": "guacamole",
+    "52": "gyoza",
+    "53": "hamburger",
+    "54": "hot_and_sour_soup",
+    "55": "hot_dog",
+    "56": "huevos_rancheros",
+    "57": "hummus",
+    "58": "ice_cream",
+    "59": "lasagna",
+    "6": "beignets",
+    "60": "lobster_bisque",
+    "61": "lobster_roll_sandwich",
+    "62": "macaroni_and_cheese",
+    "63": "macarons",
+    "64": "miso_soup",
+    "65": "mussels",
+    "66": "nachos",
+    "67": "omelette",
+    "68": "onion_rings",
+    "69": "oysters",
+    "7": "bibimbap",
+    "70": "pad_thai",
+    "71": "paella",
+    "72": "pancakes",
+    "73": "panna_cotta",
+    "74": "peking_duck",
+    "75": "pho",
+    "76": "pizza",
+    "77": "pork_chop",
+    "78": "poutine",
+    "79": "prime_rib",
+    "8": "bread_pudding",
+    "80": "pulled_pork_sandwich",
+    "81": "ramen",
+    "82": "ravioli",
+    "83": "red_velvet_cake",
+    "84": "risotto",
+    "85": "samosa",
+    "86": "sashimi",
+    "87": "scallops",
+    "88": "seaweed_salad",
+    "89": "shrimp_and_grits",
+    "9": "breakfast_burrito",
+    "90": "spaghetti_bolognese",
+    "91": "spaghetti_carbonara",
+    "92": "spring_rolls",
+    "93": "steak",
+    "94": "strawberry_shortcake",
+    "95": "sushi",
+    "96": "tacos",
+    "97": "takoyaki",
+    "98": "tiramisu",
+    "99": "tuna_tartare"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "apple_pie": "0",
+    "baby_back_ribs": "1",
+    "baklava": "2",
+    "beef_carpaccio": "3",
+    "beef_tartare": "4",
+    "beet_salad": "5",
+    "beignets": "6",
+    "bibimbap": "7",
+    "bread_pudding": "8",
+    "breakfast_burrito": "9",
+    "bruschetta": "10",
+    "caesar_salad": "11",
+    "cannoli": "12",
+    "caprese_salad": "13",
+    "carrot_cake": "14",
+    "ceviche": "15",
+    "cheese_plate": "17",
+    "cheesecake": "16",
+    "chicken_curry": "18",
+    "chicken_quesadilla": "19",
+    "chicken_wings": "20",
+    "chocolate_cake": "21",
+    "chocolate_mousse": "22",
+    "churros": "23",
+    "clam_chowder": "24",
+    "club_sandwich": "25",
+    "crab_cakes": "26",
+    "creme_brulee": "27",
+    "croque_madame": "28",
+    "cup_cakes": "29",
+    "deviled_eggs": "30",
+    "donuts": "31",
+    "dumplings": "32",
+    "edamame": "33",
+    "eggs_benedict": "34",
+    "escargots": "35",
+    "falafel": "36",
+    "filet_mignon": "37",
+    "fish_and_chips": "38",
+    "foie_gras": "39",
+    "french_fries": "40",
+    "french_onion_soup": "41",
+    "french_toast": "42",
+    "fried_calamari": "43",
+    "fried_rice": "44",
+    "frozen_yogurt": "45",
+    "garlic_bread": "46",
+    "gnocchi": "47",
+    "greek_salad": "48",
+    "grilled_cheese_sandwich": "49",
+    "grilled_salmon": "50",
+    "guacamole": "51",
+    "gyoza": "52",
+    "hamburger": "53",
+    "hot_and_sour_soup": "54",
+    "hot_dog": "55",
+    "huevos_rancheros": "56",
+    "hummus": "57",
+    "ice_cream": "58",
+    "lasagna": "59",
+    "lobster_bisque": "60",
+    "lobster_roll_sandwich": "61",
+    "macaroni_and_cheese": "62",
+    "macarons": "63",
+    "miso_soup": "64",
+    "mussels": "65",
+    "nachos": "66",
+    "omelette": "67",
+    "onion_rings": "68",
+    "oysters": "69",
+    "pad_thai": "70",
+    "paella": "71",
+    "pancakes": "72",
+    "panna_cotta": "73",
+    "peking_duck": "74",
+    "pho": "75",
+    "pizza": "76",
+    "pork_chop": "77",
+    "poutine": "78",
+    "prime_rib": "79",
+    "pulled_pork_sandwich": "80",
+    "ramen": "81",
+    "ravioli": "82",
+    "red_velvet_cake": "83",
+    "risotto": "84",
+    "samosa": "85",
+    "sashimi": "86",
+    "scallops": "87",
+    "seaweed_salad": "88",
+    "shrimp_and_grits": "89",
+    "spaghetti_bolognese": "90",
+    "spaghetti_carbonara": "91",
+    "spring_rolls": "92",
+    "steak": "93",
+    "strawberry_shortcake": "94",
+    "sushi": "95",
+    "tacos": "96",
+    "takoyaki": "97",
+    "tiramisu": "98",
+    "tuna_tartare": "99",
+    "waffles": "100"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.27.4"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.8971089108910891,
+    "eval_loss": 0.38559553027153015,
+    "eval_runtime": 33.4525,
+    "eval_samples_per_second": 754.801,
+    "eval_steps_per_second": 5.919
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86a9f8e9e168929fa1bfb9ccaf6b0a3c543ccfc4345b28b7b895fb90b5e8c2a5
+size 343573229

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.3829323179549999,
+    "train_runtime": 916.6333,
+    "train_samples_per_second": 247.918,
+    "train_steps_per_second": 1.938
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1114 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "global_step": 1776,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 5.966216216216216e-05,
+      "loss": 0.426,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 5.9324324324324324e-05,
+      "loss": 0.484,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 5.8986486486486485e-05,
+      "loss": 0.4457,
+      "step": 30
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.8648648648648653e-05,
+      "loss": 0.4083,
+      "step": 40
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 5.83445945945946e-05,
+      "loss": 0.4695,
+      "step": 50
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 5.800675675675676e-05,
+      "loss": 0.5002,
+      "step": 60
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 5.766891891891892e-05,
+      "loss": 0.4436,
+      "step": 70
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 5.733108108108108e-05,
+      "loss": 0.3807,
+      "step": 80
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 5.699324324324325e-05,
+      "loss": 0.4198,
+      "step": 90
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 5.665540540540541e-05,
+      "loss": 0.4475,
+      "step": 100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 5.631756756756757e-05,
+      "loss": 0.434,
+      "step": 110
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 5.5979729729729734e-05,
+      "loss": 0.4036,
+      "step": 120
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 5.5641891891891896e-05,
+      "loss": 0.4386,
+      "step": 130
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 5.530405405405406e-05,
+      "loss": 0.399,
+      "step": 140
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 5.496621621621622e-05,
+      "loss": 0.5032,
+      "step": 150
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 5.4628378378378386e-05,
+      "loss": 0.4435,
+      "step": 160
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 5.429054054054054e-05,
+      "loss": 0.4947,
+      "step": 170
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 5.39527027027027e-05,
+      "loss": 0.4708,
+      "step": 180
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 5.361486486486486e-05,
+      "loss": 0.4644,
+      "step": 190
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 5.3277027027027024e-05,
+      "loss": 0.4833,
+      "step": 200
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 5.2939189189189186e-05,
+      "loss": 0.4115,
+      "step": 210
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 5.260135135135135e-05,
+      "loss": 0.5,
+      "step": 220
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 5.2263513513513515e-05,
+      "loss": 0.4415,
+      "step": 230
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 5.1925675675675676e-05,
+      "loss": 0.4143,
+      "step": 240
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 5.158783783783784e-05,
+      "loss": 0.4295,
+      "step": 250
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 5.125e-05,
+      "loss": 0.4441,
+      "step": 260
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 5.091216216216216e-05,
+      "loss": 0.4273,
+      "step": 270
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 5.057432432432432e-05,
+      "loss": 0.4175,
+      "step": 280
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 5.023648648648648e-05,
+      "loss": 0.4219,
+      "step": 290
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.989864864864865e-05,
+      "loss": 0.4526,
+      "step": 300
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.956081081081081e-05,
+      "loss": 0.4396,
+      "step": 310
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.922297297297297e-05,
+      "loss": 0.444,
+      "step": 320
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.8885135135135135e-05,
+      "loss": 0.4236,
+      "step": 330
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.8547297297297296e-05,
+      "loss": 0.4228,
+      "step": 340
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.820945945945946e-05,
+      "loss": 0.4055,
+      "step": 350
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.787162162162162e-05,
+      "loss": 0.3954,
+      "step": 360
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.7533783783783786e-05,
+      "loss": 0.3883,
+      "step": 370
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.719594594594595e-05,
+      "loss": 0.4181,
+      "step": 380
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 4.685810810810811e-05,
+      "loss": 0.4249,
+      "step": 390
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.652027027027027e-05,
+      "loss": 0.4619,
+      "step": 400
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.618243243243243e-05,
+      "loss": 0.4298,
+      "step": 410
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.584459459459459e-05,
+      "loss": 0.4184,
+      "step": 420
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.550675675675676e-05,
+      "loss": 0.4062,
+      "step": 430
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.516891891891892e-05,
+      "loss": 0.3768,
+      "step": 440
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.4831081081081083e-05,
+      "loss": 0.4605,
+      "step": 450
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.4493243243243245e-05,
+      "loss": 0.485,
+      "step": 460
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.4155405405405406e-05,
+      "loss": 0.4169,
+      "step": 470
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.381756756756757e-05,
+      "loss": 0.4136,
+      "step": 480
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.347972972972973e-05,
+      "loss": 0.4337,
+      "step": 490
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.31418918918919e-05,
+      "loss": 0.444,
+      "step": 500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.280405405405406e-05,
+      "loss": 0.4044,
+      "step": 510
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.246621621621622e-05,
+      "loss": 0.3761,
+      "step": 520
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.212837837837838e-05,
+      "loss": 0.3932,
+      "step": 530
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.179054054054054e-05,
+      "loss": 0.382,
+      "step": 540
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 4.14527027027027e-05,
+      "loss": 0.3858,
+      "step": 550
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.1114864864864864e-05,
+      "loss": 0.4047,
+      "step": 560
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 4.077702702702703e-05,
+      "loss": 0.4456,
+      "step": 570
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.0439189189189194e-05,
+      "loss": 0.351,
+      "step": 580
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.0101351351351355e-05,
+      "loss": 0.3687,
+      "step": 590
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8888712871287129,
+      "eval_loss": 0.4043530225753784,
+      "eval_runtime": 35.1515,
+      "eval_samples_per_second": 718.32,
+      "eval_steps_per_second": 5.633,
+      "step": 592
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3.9763513513513516e-05,
+      "loss": 0.3674,
+      "step": 600
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.942567567567568e-05,
+      "loss": 0.3655,
+      "step": 610
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 3.908783783783784e-05,
+      "loss": 0.4221,
+      "step": 620
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3.875e-05,
+      "loss": 0.3846,
+      "step": 630
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 3.841216216216217e-05,
+      "loss": 0.4122,
+      "step": 640
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.807432432432433e-05,
+      "loss": 0.4057,
+      "step": 650
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.773648648648649e-05,
+      "loss": 0.4538,
+      "step": 660
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 3.739864864864865e-05,
+      "loss": 0.3738,
+      "step": 670
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 3.706081081081081e-05,
+      "loss": 0.4286,
+      "step": 680
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 3.6722972972972974e-05,
+      "loss": 0.3568,
+      "step": 690
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.638513513513514e-05,
+      "loss": 0.3664,
+      "step": 700
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3.6047297297297304e-05,
+      "loss": 0.3662,
+      "step": 710
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 3.5709459459459465e-05,
+      "loss": 0.4049,
+      "step": 720
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3.537162162162162e-05,
+      "loss": 0.3396,
+      "step": 730
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3.503378378378378e-05,
+      "loss": 0.3986,
+      "step": 740
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 3.469594594594594e-05,
+      "loss": 0.4362,
+      "step": 750
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 3.43581081081081e-05,
+      "loss": 0.3804,
+      "step": 760
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 3.402027027027027e-05,
+      "loss": 0.3586,
+      "step": 770
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 3.368243243243243e-05,
+      "loss": 0.3433,
+      "step": 780
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 3.3344594594594594e-05,
+      "loss": 0.4387,
+      "step": 790
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.3006756756756755e-05,
+      "loss": 0.3773,
+      "step": 800
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 3.2668918918918917e-05,
+      "loss": 0.3687,
+      "step": 810
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 3.233108108108108e-05,
+      "loss": 0.3975,
+      "step": 820
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 3.199324324324324e-05,
+      "loss": 0.3489,
+      "step": 830
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 3.165540540540541e-05,
+      "loss": 0.3892,
+      "step": 840
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 3.131756756756757e-05,
+      "loss": 0.3245,
+      "step": 850
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 3.097972972972973e-05,
+      "loss": 0.3773,
+      "step": 860
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 3.064189189189189e-05,
+      "loss": 0.377,
+      "step": 870
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.0304054054054052e-05,
+      "loss": 0.3985,
+      "step": 880
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.9966216216216217e-05,
+      "loss": 0.3336,
+      "step": 890
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.9628378378378378e-05,
+      "loss": 0.3807,
+      "step": 900
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 2.929054054054054e-05,
+      "loss": 0.3827,
+      "step": 910
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.8952702702702704e-05,
+      "loss": 0.3531,
+      "step": 920
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.8614864864864865e-05,
+      "loss": 0.3814,
+      "step": 930
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 2.8277027027027027e-05,
+      "loss": 0.3634,
+      "step": 940
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.7939189189189188e-05,
+      "loss": 0.3309,
+      "step": 950
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.7601351351351353e-05,
+      "loss": 0.3763,
+      "step": 960
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 2.7263513513513514e-05,
+      "loss": 0.3521,
+      "step": 970
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 2.6925675675675675e-05,
+      "loss": 0.364,
+      "step": 980
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 2.658783783783784e-05,
+      "loss": 0.4004,
+      "step": 990
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.625e-05,
+      "loss": 0.3656,
+      "step": 1000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.5912162162162162e-05,
+      "loss": 0.3789,
+      "step": 1010
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.5574324324324324e-05,
+      "loss": 0.3441,
+      "step": 1020
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.5236486486486488e-05,
+      "loss": 0.3743,
+      "step": 1030
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 2.489864864864865e-05,
+      "loss": 0.3844,
+      "step": 1040
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 2.456081081081081e-05,
+      "loss": 0.4033,
+      "step": 1050
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 2.4222972972972976e-05,
+      "loss": 0.3749,
+      "step": 1060
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 2.3885135135135137e-05,
+      "loss": 0.3956,
+      "step": 1070
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 2.3547297297297298e-05,
+      "loss": 0.3968,
+      "step": 1080
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 2.3209459459459463e-05,
+      "loss": 0.3801,
+      "step": 1090
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 2.2871621621621624e-05,
+      "loss": 0.321,
+      "step": 1100
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.2533783783783785e-05,
+      "loss": 0.3457,
+      "step": 1110
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.2195945945945947e-05,
+      "loss": 0.3789,
+      "step": 1120
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 2.185810810810811e-05,
+      "loss": 0.3738,
+      "step": 1130
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 2.152027027027027e-05,
+      "loss": 0.3785,
+      "step": 1140
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 2.118243243243243e-05,
+      "loss": 0.329,
+      "step": 1150
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 2.0844594594594595e-05,
+      "loss": 0.3649,
+      "step": 1160
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 2.0506756756756756e-05,
+      "loss": 0.4189,
+      "step": 1170
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 2.0168918918918918e-05,
+      "loss": 0.3422,
+      "step": 1180
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8953267326732673,
+      "eval_loss": 0.3911304175853729,
+      "eval_runtime": 34.9199,
+      "eval_samples_per_second": 723.084,
+      "eval_steps_per_second": 5.67,
+      "step": 1184
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 1.983108108108108e-05,
+      "loss": 0.3691,
+      "step": 1190
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 1.9493243243243244e-05,
+      "loss": 0.3039,
+      "step": 1200
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.9155405405405405e-05,
+      "loss": 0.307,
+      "step": 1210
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 1.8817567567567566e-05,
+      "loss": 0.3207,
+      "step": 1220
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 1.847972972972973e-05,
+      "loss": 0.3473,
+      "step": 1230
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.8141891891891892e-05,
+      "loss": 0.3155,
+      "step": 1240
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 1.7804054054054053e-05,
+      "loss": 0.3217,
+      "step": 1250
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.7466216216216218e-05,
+      "loss": 0.3473,
+      "step": 1260
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 1.712837837837838e-05,
+      "loss": 0.2966,
+      "step": 1270
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 1.679054054054054e-05,
+      "loss": 0.3411,
+      "step": 1280
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 1.6452702702702702e-05,
+      "loss": 0.3876,
+      "step": 1290
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.6114864864864866e-05,
+      "loss": 0.2818,
+      "step": 1300
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.5777027027027028e-05,
+      "loss": 0.351,
+      "step": 1310
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 1.543918918918919e-05,
+      "loss": 0.3947,
+      "step": 1320
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 1.5101351351351352e-05,
+      "loss": 0.3157,
+      "step": 1330
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.4763513513513515e-05,
+      "loss": 0.4128,
+      "step": 1340
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 1.4425675675675675e-05,
+      "loss": 0.3189,
+      "step": 1350
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 1.4087837837837838e-05,
+      "loss": 0.3791,
+      "step": 1360
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 1.375e-05,
+      "loss": 0.3299,
+      "step": 1370
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 1.3412162162162162e-05,
+      "loss": 0.3351,
+      "step": 1380
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 1.3074324324324325e-05,
+      "loss": 0.3197,
+      "step": 1390
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.2736486486486486e-05,
+      "loss": 0.3191,
+      "step": 1400
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.2398648648648649e-05,
+      "loss": 0.3765,
+      "step": 1410
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.2060810810810812e-05,
+      "loss": 0.3019,
+      "step": 1420
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.1722972972972973e-05,
+      "loss": 0.3662,
+      "step": 1430
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 1.1385135135135136e-05,
+      "loss": 0.3232,
+      "step": 1440
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.1047297297297297e-05,
+      "loss": 0.3149,
+      "step": 1450
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.070945945945946e-05,
+      "loss": 0.3516,
+      "step": 1460
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.0371621621621622e-05,
+      "loss": 0.3339,
+      "step": 1470
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 1.0033783783783785e-05,
+      "loss": 0.3046,
+      "step": 1480
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 9.695945945945946e-06,
+      "loss": 0.3794,
+      "step": 1490
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 9.358108108108107e-06,
+      "loss": 0.4017,
+      "step": 1500
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 9.02027027027027e-06,
+      "loss": 0.3851,
+      "step": 1510
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 8.682432432432431e-06,
+      "loss": 0.3449,
+      "step": 1520
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 8.344594594594594e-06,
+      "loss": 0.3558,
+      "step": 1530
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 8.006756756756757e-06,
+      "loss": 0.3176,
+      "step": 1540
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 7.668918918918919e-06,
+      "loss": 0.3305,
+      "step": 1550
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 7.331081081081082e-06,
+      "loss": 0.3171,
+      "step": 1560
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.993243243243244e-06,
+      "loss": 0.332,
+      "step": 1570
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 6.655405405405406e-06,
+      "loss": 0.2867,
+      "step": 1580
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 6.317567567567567e-06,
+      "loss": 0.3478,
+      "step": 1590
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 5.979729729729729e-06,
+      "loss": 0.3609,
+      "step": 1600
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 5.6418918918918914e-06,
+      "loss": 0.3591,
+      "step": 1610
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 5.304054054054054e-06,
+      "loss": 0.3131,
+      "step": 1620
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.9662162162162165e-06,
+      "loss": 0.3224,
+      "step": 1630
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 4.628378378378379e-06,
+      "loss": 0.3849,
+      "step": 1640
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 4.290540540540541e-06,
+      "loss": 0.4212,
+      "step": 1650
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 3.952702702702702e-06,
+      "loss": 0.3889,
+      "step": 1660
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 3.614864864864865e-06,
+      "loss": 0.3444,
+      "step": 1670
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 3.277027027027027e-06,
+      "loss": 0.3445,
+      "step": 1680
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 2.9391891891891893e-06,
+      "loss": 0.3322,
+      "step": 1690
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 2.6013513513513514e-06,
+      "loss": 0.3587,
+      "step": 1700
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 2.263513513513514e-06,
+      "loss": 0.3127,
+      "step": 1710
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 1.9256756756756756e-06,
+      "loss": 0.3552,
+      "step": 1720
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 1.587837837837838e-06,
+      "loss": 0.3377,
+      "step": 1730
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.2499999999999999e-06,
+      "loss": 0.3269,
+      "step": 1740
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 9.121621621621622e-07,
+      "loss": 0.3098,
+      "step": 1750
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 5.743243243243243e-07,
+      "loss": 0.3506,
+      "step": 1760
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 2.3648648648648647e-07,
+      "loss": 0.3808,
+      "step": 1770
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8971089108910891,
+      "eval_loss": 0.38559553027153015,
+      "eval_runtime": 33.8726,
+      "eval_samples_per_second": 745.441,
+      "eval_steps_per_second": 5.845,
+      "step": 1776
+    },
+    {
+      "epoch": 3.0,
+      "step": 1776,
+      "total_flos": 1.76256801415296e+19,
+      "train_loss": 0.3829323179549999,
+      "train_runtime": 916.6333,
+      "train_samples_per_second": 247.918,
+      "train_steps_per_second": 1.938
+    }
+  ],
+  "max_steps": 1776,
+  "num_train_epochs": 3,
+  "total_flos": 1.76256801415296e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99375d127eeeb0528bc62baffa4c5e80febdd57a4666587ea2223f1d43d64cf0
+size 3771