End of training

Browse files

Files changed (11) hide show

README.md +114 -0
all_results.json +12 -0
config.json +58 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +22 -0
runs/Dec01_08-55-13_DESKTOP-SKBE9FB/events.out.tfevents.1733064915.DESKTOP-SKBE9FB.14272.0 +3 -0
runs/Dec01_08-55-13_DESKTOP-SKBE9FB/events.out.tfevents.1733065552.DESKTOP-SKBE9FB.14272.1 +3 -0
train_results.json +7 -0
trainer_state.json +483 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,114 @@

+---
+license: apache-2.0
+base_model: microsoft/swinv2-tiny-patch4-window8-256
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: swinv2-tiny-patch4-window8-256-OT
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: validation
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8225806451612904
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# swinv2-tiny-patch4-window8-256-OT
+This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6192
+- Accuracy: 0.8226
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.00015
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 40
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.91  | 5    | 8.8439          | 0.0806   |
+| 8.7922        | 2.0   | 11   | 8.0016          | 0.0806   |
+| 8.7922        | 2.91  | 16   | 6.0009          | 0.0806   |
+| 6.5264        | 4.0   | 22   | 2.7431          | 0.0806   |
+| 6.5264        | 4.91  | 27   | 1.3018          | 0.4516   |
+| 2.16          | 6.0   | 33   | 1.2696          | 0.4516   |
+| 2.16          | 6.91  | 38   | 1.2057          | 0.4516   |
+| 1.2876        | 8.0   | 44   | 1.2157          | 0.4516   |
+| 1.2876        | 8.91  | 49   | 1.2459          | 0.4516   |
+| 1.2456        | 10.0  | 55   | 1.2110          | 0.4516   |
+| 1.1901        | 10.91 | 60   | 1.1861          | 0.4516   |
+| 1.1901        | 12.0  | 66   | 1.0847          | 0.4677   |
+| 1.0665        | 12.91 | 71   | 1.0944          | 0.4677   |
+| 1.0665        | 14.0  | 77   | 1.1854          | 0.4677   |
+| 1.033         | 14.91 | 82   | 1.0252          | 0.5      |
+| 1.033         | 16.0  | 88   | 1.2164          | 0.5161   |
+| 1.0323        | 16.91 | 93   | 1.0643          | 0.5      |
+| 1.0323        | 18.0  | 99   | 0.9802          | 0.6613   |
+| 0.9329        | 18.91 | 104  | 0.9475          | 0.5968   |
+| 0.8619        | 20.0  | 110  | 0.9115          | 0.6452   |
+| 0.8619        | 20.91 | 115  | 0.8894          | 0.6452   |
+| 0.8019        | 22.0  | 121  | 0.8276          | 0.6935   |
+| 0.8019        | 22.91 | 126  | 0.8156          | 0.6774   |
+| 0.7675        | 24.0  | 132  | 0.7928          | 0.6290   |
+| 0.7675        | 24.91 | 137  | 0.7163          | 0.7419   |
+| 0.6762        | 26.0  | 143  | 0.7388          | 0.6774   |
+| 0.6762        | 26.91 | 148  | 0.6519          | 0.7581   |
+| 0.6771        | 28.0  | 154  | 0.6710          | 0.7419   |
+| 0.6771        | 28.91 | 159  | 0.6074          | 0.7581   |
+| 0.6424        | 30.0  | 165  | 0.6729          | 0.7258   |
+| 0.6139        | 30.91 | 170  | 0.5744          | 0.7903   |
+| 0.6139        | 32.0  | 176  | 0.6192          | 0.8226   |
+| 0.5713        | 32.91 | 181  | 0.6453          | 0.7903   |
+| 0.5713        | 34.0  | 187  | 0.6392          | 0.7903   |
+| 0.5462        | 34.91 | 192  | 0.5956          | 0.8226   |
+| 0.5462        | 36.0  | 198  | 0.5893          | 0.8226   |
+| 0.5393        | 36.36 | 200  | 0.5898          | 0.8226   |
+### Framework versions
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu118
+- Datasets 2.16.1
+- Tokenizers 0.15.0

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 36.36,
+    "eval_accuracy": 0.8225806451612904,
+    "eval_loss": 0.6192476749420166,
+    "eval_runtime": 2.2055,
+    "eval_samples_per_second": 28.111,
+    "eval_steps_per_second": 1.814,
+    "train_loss": 1.5982162952423096,
+    "train_runtime": 635.1405,
+    "train_samples_per_second": 22.042,
+    "train_steps_per_second": 0.315
+}

config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "_name_or_path": "microsoft/swinv2-tiny-patch4-window8-256",
+  "architectures": [
+    "Swinv2ForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "depths": [
+    2,
+    2,
+    6,
+    2
+  ],
+  "drop_path_rate": 0.1,
+  "embed_dim": 96,
+  "encoder_stride": 32,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "active",
+    "1": "active-inactive",
+    "2": "healthy",
+    "3": "inactive"
+  },
+  "image_size": 256,
+  "initializer_range": 0.02,
+  "label2id": {
+    "active": 0,
+    "active-inactive": 1,
+    "healthy": 2,
+    "inactive": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "mlp_ratio": 4.0,
+  "model_type": "swinv2",
+  "num_channels": 3,
+  "num_heads": [
+    3,
+    6,
+    12,
+    24
+  ],
+  "num_layers": 4,
+  "patch_size": 4,
+  "path_norm": true,
+  "pretrained_window_sizes": [
+    0,
+    0,
+    0,
+    0
+  ],
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "use_absolute_embeddings": false,
+  "window_size": 8
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 36.36,
+    "eval_accuracy": 0.8225806451612904,
+    "eval_loss": 0.6192476749420166,
+    "eval_runtime": 2.2055,
+    "eval_samples_per_second": 28.111,
+    "eval_steps_per_second": 1.814
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3214c6824a0b80c4170aab8f439a40e0105af49a25705134f03e98077009bd31
+size 110356296

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 256,
+    "width": 256
+  }
+}

runs/Dec01_08-55-13_DESKTOP-SKBE9FB/events.out.tfevents.1733064915.DESKTOP-SKBE9FB.14272.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c184e0f04dbf34f59f3d9cc7b4724f7be5a53ee2a5b6763231bc1a38512b8fb
+size 20077

runs/Dec01_08-55-13_DESKTOP-SKBE9FB/events.out.tfevents.1733065552.DESKTOP-SKBE9FB.14272.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ee16268c9dd2b7d3009690c6049a65e008d1528314aeac071ae080fd2bc0b12
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 36.36,
+    "train_loss": 1.5982162952423096,
+    "train_runtime": 635.1405,
+    "train_samples_per_second": 22.042,
+    "train_steps_per_second": 0.315
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,483 @@

+{
+  "best_metric": 0.8225806451612904,
+  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-OT\\checkpoint-176",
+  "epoch": 36.36363636363637,
+  "eval_steps": 500,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 8.843916893005371,
+      "eval_runtime": 2.8151,
+      "eval_samples_per_second": 22.024,
+      "eval_steps_per_second": 1.421,
+      "step": 5
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.5e-05,
+      "loss": 8.7922,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 8.001582145690918,
+      "eval_runtime": 2.1045,
+      "eval_samples_per_second": 29.461,
+      "eval_steps_per_second": 1.901,
+      "step": 11
+    },
+    {
+      "epoch": 2.91,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 6.000851154327393,
+      "eval_runtime": 2.0735,
+      "eval_samples_per_second": 29.901,
+      "eval_steps_per_second": 1.929,
+      "step": 16
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.00015,
+      "loss": 6.5264,
+      "step": 20
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 2.7431113719940186,
+      "eval_runtime": 2.1035,
+      "eval_samples_per_second": 29.475,
+      "eval_steps_per_second": 1.902,
+      "step": 22
+    },
+    {
+      "epoch": 4.91,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.3018240928649902,
+      "eval_runtime": 2.0906,
+      "eval_samples_per_second": 29.656,
+      "eval_steps_per_second": 1.913,
+      "step": 27
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 0.00014166666666666665,
+      "loss": 2.16,
+      "step": 30
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.2696114778518677,
+      "eval_runtime": 2.0785,
+      "eval_samples_per_second": 29.829,
+      "eval_steps_per_second": 1.924,
+      "step": 33
+    },
+    {
+      "epoch": 6.91,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.2057440280914307,
+      "eval_runtime": 2.5671,
+      "eval_samples_per_second": 24.152,
+      "eval_steps_per_second": 1.558,
+      "step": 38
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 0.0001333333333333333,
+      "loss": 1.2876,
+      "step": 40
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.2157402038574219,
+      "eval_runtime": 2.1295,
+      "eval_samples_per_second": 29.115,
+      "eval_steps_per_second": 1.878,
+      "step": 44
+    },
+    {
+      "epoch": 8.91,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.245875597000122,
+      "eval_runtime": 2.141,
+      "eval_samples_per_second": 28.958,
+      "eval_steps_per_second": 1.868,
+      "step": 49
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 0.000125,
+      "loss": 1.2456,
+      "step": 50
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.210959792137146,
+      "eval_runtime": 2.181,
+      "eval_samples_per_second": 28.427,
+      "eval_steps_per_second": 1.834,
+      "step": 55
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 0.00011666666666666665,
+      "loss": 1.1901,
+      "step": 60
+    },
+    {
+      "epoch": 10.91,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.1861207485198975,
+      "eval_runtime": 2.094,
+      "eval_samples_per_second": 29.608,
+      "eval_steps_per_second": 1.91,
+      "step": 60
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.46774193548387094,
+      "eval_loss": 1.0847262144088745,
+      "eval_runtime": 2.212,
+      "eval_samples_per_second": 28.028,
+      "eval_steps_per_second": 1.808,
+      "step": 66
+    },
+    {
+      "epoch": 12.73,
+      "learning_rate": 0.00010833333333333333,
+      "loss": 1.0665,
+      "step": 70
+    },
+    {
+      "epoch": 12.91,
+      "eval_accuracy": 0.46774193548387094,
+      "eval_loss": 1.0943629741668701,
+      "eval_runtime": 2.08,
+      "eval_samples_per_second": 29.808,
+      "eval_steps_per_second": 1.923,
+      "step": 71
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.46774193548387094,
+      "eval_loss": 1.1853879690170288,
+      "eval_runtime": 2.093,
+      "eval_samples_per_second": 29.623,
+      "eval_steps_per_second": 1.911,
+      "step": 77
+    },
+    {
+      "epoch": 14.55,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 1.033,
+      "step": 80
+    },
+    {
+      "epoch": 14.91,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.025220274925232,
+      "eval_runtime": 2.4167,
+      "eval_samples_per_second": 25.655,
+      "eval_steps_per_second": 1.655,
+      "step": 82
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.5161290322580645,
+      "eval_loss": 1.216417908668518,
+      "eval_runtime": 2.2296,
+      "eval_samples_per_second": 27.808,
+      "eval_steps_per_second": 1.794,
+      "step": 88
+    },
+    {
+      "epoch": 16.36,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 1.0323,
+      "step": 90
+    },
+    {
+      "epoch": 16.91,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.0642980337142944,
+      "eval_runtime": 2.199,
+      "eval_samples_per_second": 28.194,
+      "eval_steps_per_second": 1.819,
+      "step": 93
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.6612903225806451,
+      "eval_loss": 0.9802310466766357,
+      "eval_runtime": 2.1395,
+      "eval_samples_per_second": 28.979,
+      "eval_steps_per_second": 1.87,
+      "step": 99
+    },
+    {
+      "epoch": 18.18,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 0.9329,
+      "step": 100
+    },
+    {
+      "epoch": 18.91,
+      "eval_accuracy": 0.5967741935483871,
+      "eval_loss": 0.9474769830703735,
+      "eval_runtime": 2.179,
+      "eval_samples_per_second": 28.453,
+      "eval_steps_per_second": 1.836,
+      "step": 104
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 7.5e-05,
+      "loss": 0.8619,
+      "step": 110
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.6451612903225806,
+      "eval_loss": 0.9114610552787781,
+      "eval_runtime": 2.125,
+      "eval_samples_per_second": 29.176,
+      "eval_steps_per_second": 1.882,
+      "step": 110
+    },
+    {
+      "epoch": 20.91,
+      "eval_accuracy": 0.6451612903225806,
+      "eval_loss": 0.8893528580665588,
+      "eval_runtime": 2.2755,
+      "eval_samples_per_second": 27.246,
+      "eval_steps_per_second": 1.758,
+      "step": 115
+    },
+    {
+      "epoch": 21.82,
+      "learning_rate": 6.666666666666666e-05,
+      "loss": 0.8019,
+      "step": 120
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.6935483870967742,
+      "eval_loss": 0.8276461958885193,
+      "eval_runtime": 2.182,
+      "eval_samples_per_second": 28.414,
+      "eval_steps_per_second": 1.833,
+      "step": 121
+    },
+    {
+      "epoch": 22.91,
+      "eval_accuracy": 0.6774193548387096,
+      "eval_loss": 0.8156123757362366,
+      "eval_runtime": 2.1835,
+      "eval_samples_per_second": 28.394,
+      "eval_steps_per_second": 1.832,
+      "step": 126
+    },
+    {
+      "epoch": 23.64,
+      "learning_rate": 5.8333333333333326e-05,
+      "loss": 0.7675,
+      "step": 130
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.6290322580645161,
+      "eval_loss": 0.7928251624107361,
+      "eval_runtime": 2.7367,
+      "eval_samples_per_second": 22.655,
+      "eval_steps_per_second": 1.462,
+      "step": 132
+    },
+    {
+      "epoch": 24.91,
+      "eval_accuracy": 0.7419354838709677,
+      "eval_loss": 0.7163397669792175,
+      "eval_runtime": 2.3511,
+      "eval_samples_per_second": 26.371,
+      "eval_steps_per_second": 1.701,
+      "step": 137
+    },
+    {
+      "epoch": 25.45,
+      "learning_rate": 4.9999999999999996e-05,
+      "loss": 0.6762,
+      "step": 140
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.6774193548387096,
+      "eval_loss": 0.7387820482254028,
+      "eval_runtime": 2.261,
+      "eval_samples_per_second": 27.421,
+      "eval_steps_per_second": 1.769,
+      "step": 143
+    },
+    {
+      "epoch": 26.91,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.6518718004226685,
+      "eval_runtime": 2.2715,
+      "eval_samples_per_second": 27.294,
+      "eval_steps_per_second": 1.761,
+      "step": 148
+    },
+    {
+      "epoch": 27.27,
+      "learning_rate": 4.1666666666666665e-05,
+      "loss": 0.6771,
+      "step": 150
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.7419354838709677,
+      "eval_loss": 0.6709696054458618,
+      "eval_runtime": 2.6851,
+      "eval_samples_per_second": 23.09,
+      "eval_steps_per_second": 1.49,
+      "step": 154
+    },
+    {
+      "epoch": 28.91,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.6073653697967529,
+      "eval_runtime": 2.3635,
+      "eval_samples_per_second": 26.232,
+      "eval_steps_per_second": 1.692,
+      "step": 159
+    },
+    {
+      "epoch": 29.09,
+      "learning_rate": 3.333333333333333e-05,
+      "loss": 0.6424,
+      "step": 160
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.7258064516129032,
+      "eval_loss": 0.672946035861969,
+      "eval_runtime": 2.2598,
+      "eval_samples_per_second": 27.436,
+      "eval_steps_per_second": 1.77,
+      "step": 165
+    },
+    {
+      "epoch": 30.91,
+      "learning_rate": 2.4999999999999998e-05,
+      "loss": 0.6139,
+      "step": 170
+    },
+    {
+      "epoch": 30.91,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.5744480490684509,
+      "eval_runtime": 2.189,
+      "eval_samples_per_second": 28.323,
+      "eval_steps_per_second": 1.827,
+      "step": 170
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.6192476749420166,
+      "eval_runtime": 2.142,
+      "eval_samples_per_second": 28.945,
+      "eval_steps_per_second": 1.867,
+      "step": 176
+    },
+    {
+      "epoch": 32.73,
+      "learning_rate": 1.6666666666666664e-05,
+      "loss": 0.5713,
+      "step": 180
+    },
+    {
+      "epoch": 32.91,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.6452686190605164,
+      "eval_runtime": 2.1495,
+      "eval_samples_per_second": 28.844,
+      "eval_steps_per_second": 1.861,
+      "step": 181
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.6392035484313965,
+      "eval_runtime": 2.1965,
+      "eval_samples_per_second": 28.226,
+      "eval_steps_per_second": 1.821,
+      "step": 187
+    },
+    {
+      "epoch": 34.55,
+      "learning_rate": 8.333333333333332e-06,
+      "loss": 0.5462,
+      "step": 190
+    },
+    {
+      "epoch": 34.91,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.5955818295478821,
+      "eval_runtime": 2.247,
+      "eval_samples_per_second": 27.592,
+      "eval_steps_per_second": 1.78,
+      "step": 192
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.5892814993858337,
+      "eval_runtime": 2.5326,
+      "eval_samples_per_second": 24.481,
+      "eval_steps_per_second": 1.579,
+      "step": 198
+    },
+    {
+      "epoch": 36.36,
+      "learning_rate": 0.0,
+      "loss": 0.5393,
+      "step": 200
+    },
+    {
+      "epoch": 36.36,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.5898378491401672,
+      "eval_runtime": 2.2395,
+      "eval_samples_per_second": 27.685,
+      "eval_steps_per_second": 1.786,
+      "step": 200
+    },
+    {
+      "epoch": 36.36,
+      "step": 200,
+      "total_flos": 4.141200256480051e+17,
+      "train_loss": 1.5982162952423096,
+      "train_runtime": 635.1405,
+      "train_samples_per_second": 22.042,
+      "train_steps_per_second": 0.315
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "total_flos": 4.141200256480051e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:321e93e7bf62b0b233add9dd1100daadcfb5f668f9371973e023e25b48742f3d
+size 4728