Upload 16 files

Browse files

Files changed (11) hide show

README.md +38 -22
all_results.json +10 -10
config.json +1 -1
eval_results.json +7 -7
runs/Mar15_17-26-14_srvgpu/1678901187.8142433/events.out.tfevents.1678901187.srvgpu.2936559.1 +3 -0
runs/Mar15_17-26-14_srvgpu/events.out.tfevents.1678901187.srvgpu.2936559.0 +3 -0
runs/Mar15_17-26-14_srvgpu/events.out.tfevents.1678911557.srvgpu.2936559.2 +3 -0
tokenizer_config.json +1 -1
train_results.json +4 -4
trainer_state.json +291 -105
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -5,19 +5,19 @@ tags:
 metrics:
 - accuracy
 model-index:
-- name: output_v2
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# output_v2
 This model is a fine-tuned version of [avuhong/ParvoGPT2](https://huggingface.co/avuhong/ParvoGPT2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9835
-- Accuracy: 0.8502
 ## Model description
@@ -36,7 +36,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 1e-05
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
@@ -47,29 +47,45 @@ The following hyperparameters were used during training:
 - total_eval_batch_size: 2
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 16.0
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 1.0   | 220  | 1.5038          | 0.7795   |
-| No log        | 2.0   | 440  | 1.3765          | 0.7965   |
-| 1.5308        | 3.0   | 660  | 1.2920          | 0.8075   |
-| 1.5308        | 4.0   | 880  | 1.2308          | 0.8156   |
-| 1.2695        | 5.0   | 1100 | 1.1788          | 0.8226   |
-| 1.2695        | 6.0   | 1320 | 1.1363          | 0.8279   |
-| 1.1353        | 7.0   | 1540 | 1.1027          | 0.8324   |
-| 1.1353        | 8.0   | 1760 | 1.0726          | 0.8373   |
-| 1.1353        | 9.0   | 1980 | 1.0481          | 0.8405   |
-| 1.0713        | 10.0  | 2200 | 1.0299          | 0.8433   |
-| 1.0713        | 11.0  | 2420 | 1.0174          | 0.8455   |
-| 1.0233        | 12.0  | 2640 | 1.0028          | 0.8477   |
-| 1.0233        | 13.0  | 2860 | 0.9939          | 0.8488   |
-| 0.9811        | 14.0  | 3080 | 0.9889          | 0.8497   |
-| 0.9811        | 15.0  | 3300 | 0.9854          | 0.8500   |
-| 0.9696        | 16.0  | 3520 | 0.9835          | 0.8502   |
 ### Framework versions

 metrics:
 - accuracy
 model-index:
+- name: output_v3
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# output_v3
 This model is a fine-tuned version of [avuhong/ParvoGPT2](https://huggingface.co/avuhong/ParvoGPT2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4775
+- Accuracy: 0.9290
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
 - total_eval_batch_size: 2
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 32.0
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 1.0   | 220  | 1.1623          | 0.8225   |
+| No log        | 2.0   | 440  | 0.9566          | 0.8539   |
+| 1.1942        | 3.0   | 660  | 0.8456          | 0.8709   |
+| 1.1942        | 4.0   | 880  | 0.7719          | 0.8801   |
+| 0.7805        | 5.0   | 1100 | 0.7224          | 0.8872   |
+| 0.7805        | 6.0   | 1320 | 0.6895          | 0.8928   |
+| 0.6257        | 7.0   | 1540 | 0.6574          | 0.8972   |
+| 0.6257        | 8.0   | 1760 | 0.6289          | 0.9014   |
+| 0.6257        | 9.0   | 1980 | 0.6054          | 0.9045   |
+| 0.5385        | 10.0  | 2200 | 0.5881          | 0.9077   |
+| 0.5385        | 11.0  | 2420 | 0.5709          | 0.9102   |
+| 0.4778        | 12.0  | 2640 | 0.5591          | 0.9121   |
+| 0.4778        | 13.0  | 2860 | 0.5497          | 0.9143   |
+| 0.427         | 14.0  | 3080 | 0.5385          | 0.9161   |
+| 0.427         | 15.0  | 3300 | 0.5258          | 0.9180   |
+| 0.394         | 16.0  | 3520 | 0.5170          | 0.9195   |
+| 0.394         | 17.0  | 3740 | 0.5157          | 0.9212   |
+| 0.394         | 18.0  | 3960 | 0.5038          | 0.9221   |
+| 0.363         | 19.0  | 4180 | 0.4977          | 0.9234   |
+| 0.363         | 20.0  | 4400 | 0.4976          | 0.9236   |
+| 0.3392        | 21.0  | 4620 | 0.4924          | 0.9247   |
+| 0.3392        | 22.0  | 4840 | 0.4888          | 0.9255   |
+| 0.33          | 23.0  | 5060 | 0.4890          | 0.9262   |
+| 0.33          | 24.0  | 5280 | 0.4856          | 0.9268   |
+| 0.3058        | 25.0  | 5500 | 0.4803          | 0.9275   |
+| 0.3058        | 26.0  | 5720 | 0.4785          | 0.9277   |
+| 0.3058        | 27.0  | 5940 | 0.4813          | 0.9281   |
+| 0.2973        | 28.0  | 6160 | 0.4799          | 0.9282   |
+| 0.2973        | 29.0  | 6380 | 0.4773          | 0.9285   |
+| 0.2931        | 30.0  | 6600 | 0.4778          | 0.9286   |
+| 0.2931        | 31.0  | 6820 | 0.4756          | 0.9290   |
+| 0.2879        | 32.0  | 7040 | 0.4775          | 0.9290   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 16.0,
-    "eval_accuracy": 0.8501928179347534,
-    "eval_loss": 0.9834597110748291,
-    "eval_runtime": 5.6916,
     "eval_samples": 91,
-    "eval_samples_per_second": 15.988,
-    "eval_steps_per_second": 8.082,
-    "perplexity": 2.6736904553424052,
-    "train_loss": 1.138753395730799,
-    "train_runtime": 5180.444,
     "train_samples": 1762,
     "train_samples_per_second": 5.442,
-    "train_steps_per_second": 0.679
 }

 {
+    "epoch": 32.0,
+    "eval_accuracy": 0.9289527676624451,
+    "eval_loss": 0.47753414511680603,
+    "eval_runtime": 6.0712,
     "eval_samples": 91,
+    "eval_samples_per_second": 14.989,
+    "eval_steps_per_second": 7.577,
+    "perplexity": 1.6120943064226643,
+    "train_loss": 0.47427067851478405,
+    "train_runtime": 10360.152,
     "train_samples": 1762,
     "train_samples_per_second": 5.442,
+    "train_steps_per_second": 0.68
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "output_v3",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "avuhong/ParvoGPT2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 16.0,
-    "eval_accuracy": 0.8501928179347534,
-    "eval_loss": 0.9834597110748291,
-    "eval_runtime": 5.6916,
     "eval_samples": 91,
-    "eval_samples_per_second": 15.988,
-    "eval_steps_per_second": 8.082,
-    "perplexity": 2.6736904553424052
 }

 {
+    "epoch": 32.0,
+    "eval_accuracy": 0.9289527676624451,
+    "eval_loss": 0.47753414511680603,
+    "eval_runtime": 6.0712,
     "eval_samples": 91,
+    "eval_samples_per_second": 14.989,
+    "eval_steps_per_second": 7.577,
+    "perplexity": 1.6120943064226643
 }

runs/Mar15_17-26-14_srvgpu/1678901187.8142433/events.out.tfevents.1678901187.srvgpu.2936559.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:115496e7d79030d313da0cb77622a6aa7a29c7c51cc9c631d90574c2ad318d67
+size 5643

runs/Mar15_17-26-14_srvgpu/events.out.tfevents.1678901187.srvgpu.2936559.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fdcee8d6bf9c043faf357536cbe68e370e845f5a47aa1679291e96c05b51d5d
+size 16954

runs/Mar15_17-26-14_srvgpu/events.out.tfevents.1678911557.srvgpu.2936559.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bc6a5fd4556ffd4c7220a94911b8d060aa146107d8ab1774b9a6c3c343b2534
+size 363

tokenizer_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
-  "name_or_path": "output_v3",
   "special_tokens_map_file": "/home/avuhong/.cache/huggingface/hub/models--nferruz--ProtGPT2/snapshots/afbc64cbb1e9c2b11f66f1f7c66d0be28df32b1b/special_tokens_map.json",
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>"

   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
+  "name_or_path": "avuhong/ParvoGPT2",
   "special_tokens_map_file": "/home/avuhong/.cache/huggingface/hub/models--nferruz--ProtGPT2/snapshots/afbc64cbb1e9c2b11f66f1f7c66d0be28df32b1b/special_tokens_map.json",
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>"

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 16.0,
-    "train_loss": 1.138753395730799,
-    "train_runtime": 5180.444,
     "train_samples": 1762,
     "train_samples_per_second": 5.442,
-    "train_steps_per_second": 0.679
 }

 {
+    "epoch": 32.0,
+    "train_loss": 0.47427067851478405,
+    "train_runtime": 10360.152,
     "train_samples": 1762,
     "train_samples_per_second": 5.442,
+    "train_steps_per_second": 0.68
 }

trainer_state.json CHANGED Viewed

@@ -1,211 +1,397 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 15.998864926220204,
-  "global_step": 3520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7795322956613279,
-      "eval_loss": 1.5038145780563354,
-      "eval_runtime": 5.9639,
-      "eval_samples_per_second": 15.258,
-      "eval_steps_per_second": 7.713,
       "step": 220
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7964938287518932,
-      "eval_loss": 1.3765002489089966,
-      "eval_runtime": 5.973,
-      "eval_samples_per_second": 15.235,
-      "eval_steps_per_second": 7.701,
       "step": 440
     },
     {
       "epoch": 2.27,
-      "learning_rate": 8.579545454545455e-06,
-      "loss": 1.5308,
       "step": 500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8075258075258075,
-      "eval_loss": 1.2920387983322144,
-      "eval_runtime": 5.9722,
-      "eval_samples_per_second": 15.237,
-      "eval_steps_per_second": 7.702,
       "step": 660
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8155607833027188,
-      "eval_loss": 1.230821967124939,
-      "eval_runtime": 5.6615,
-      "eval_samples_per_second": 16.073,
-      "eval_steps_per_second": 8.125,
       "step": 880
     },
     {
       "epoch": 4.54,
-      "learning_rate": 7.161931818181819e-06,
-      "loss": 1.2695,
       "step": 1000
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8225860161344032,
-      "eval_loss": 1.1788371801376343,
-      "eval_runtime": 5.9852,
-      "eval_samples_per_second": 15.204,
-      "eval_steps_per_second": 7.686,
       "step": 1100
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8278817956237311,
-      "eval_loss": 1.136326789855957,
-      "eval_runtime": 5.9723,
-      "eval_samples_per_second": 15.237,
-      "eval_steps_per_second": 7.702,
       "step": 1320
     },
     {
       "epoch": 6.82,
-      "learning_rate": 5.741477272727272e-06,
-      "loss": 1.1353,
       "step": 1500
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8323826710923485,
-      "eval_loss": 1.102668285369873,
-      "eval_runtime": 5.9851,
-      "eval_samples_per_second": 15.204,
-      "eval_steps_per_second": 7.686,
       "step": 1540
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8373239663562244,
-      "eval_loss": 1.072572112083435,
-      "eval_runtime": 5.9939,
-      "eval_samples_per_second": 15.182,
-      "eval_steps_per_second": 7.674,
       "step": 1760
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.8404928404928405,
-      "eval_loss": 1.0481319427490234,
-      "eval_runtime": 5.9927,
-      "eval_samples_per_second": 15.185,
-      "eval_steps_per_second": 7.676,
       "step": 1980
     },
     {
       "epoch": 9.09,
-      "learning_rate": 4.321022727272728e-06,
-      "loss": 1.0713,
       "step": 2000
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.8432642626191014,
-      "eval_loss": 1.0299291610717773,
-      "eval_runtime": 5.6745,
-      "eval_samples_per_second": 16.037,
-      "eval_steps_per_second": 8.106,
       "step": 2200
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.8455415552189746,
-      "eval_loss": 1.0174473524093628,
-      "eval_runtime": 5.9763,
-      "eval_samples_per_second": 15.227,
-      "eval_steps_per_second": 7.697,
       "step": 2420
     },
     {
       "epoch": 11.36,
-      "learning_rate": 2.900568181818182e-06,
-      "loss": 1.0233,
       "step": 2500
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8477006864103638,
-      "eval_loss": 1.0027512311935425,
-      "eval_runtime": 5.9881,
-      "eval_samples_per_second": 15.197,
-      "eval_steps_per_second": 7.682,
       "step": 2640
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.8488178488178488,
-      "eval_loss": 0.9938735961914062,
-      "eval_runtime": 5.9759,
-      "eval_samples_per_second": 15.228,
-      "eval_steps_per_second": 7.698,
       "step": 2860
     },
     {
       "epoch": 13.64,
-      "learning_rate": 1.4829545454545454e-06,
-      "loss": 0.9811,
       "step": 3000
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.8496772045159142,
-      "eval_loss": 0.9889363646507263,
-      "eval_runtime": 5.9819,
-      "eval_samples_per_second": 15.213,
-      "eval_steps_per_second": 7.69,
       "step": 3080
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.8499779790102371,
-      "eval_loss": 0.9854440093040466,
-      "eval_runtime": 5.9887,
-      "eval_samples_per_second": 15.195,
-      "eval_steps_per_second": 7.681,
       "step": 3300
     },
     {
       "epoch": 15.91,
-      "learning_rate": 6.250000000000001e-08,
-      "loss": 0.9696,
       "step": 3500
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.8501928179347534,
-      "eval_loss": 0.9834597110748291,
-      "eval_runtime": 5.978,
-      "eval_samples_per_second": 15.223,
-      "eval_steps_per_second": 7.695,
       "step": 3520
     },
     {
-      "epoch": 16.0,
-      "step": 3520,
-      "total_flos": 1.2269276173959168e+17,
-      "train_loss": 1.138753395730799,
-      "train_runtime": 5180.444,
       "train_samples_per_second": 5.442,
-      "train_steps_per_second": 0.679
     }
   ],
-  "max_steps": 3520,
-  "num_train_epochs": 16,
-  "total_flos": 1.2269276173959168e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 31.998864926220204,
+  "global_step": 7040,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8224893386183709,
+      "eval_loss": 1.1622651815414429,
+      "eval_runtime": 5.9816,
+      "eval_samples_per_second": 15.213,
+      "eval_steps_per_second": 7.69,
       "step": 220
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8538665635439829,
+      "eval_loss": 0.9566460251808167,
+      "eval_runtime": 5.9768,
+      "eval_samples_per_second": 15.226,
+      "eval_steps_per_second": 7.696,
       "step": 440
     },
     {
       "epoch": 2.27,
+      "learning_rate": 4.6448863636363636e-05,
+      "loss": 1.1942,
       "step": 500
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8709140322043548,
+      "eval_loss": 0.8456286191940308,
+      "eval_runtime": 5.9871,
+      "eval_samples_per_second": 15.199,
+      "eval_steps_per_second": 7.683,
       "step": 660
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8801198801198801,
+      "eval_loss": 0.7718582153320312,
+      "eval_runtime": 5.6728,
+      "eval_samples_per_second": 16.041,
+      "eval_steps_per_second": 8.109,
       "step": 880
     },
     {
       "epoch": 4.54,
+      "learning_rate": 4.289772727272727e-05,
+      "loss": 0.7805,
       "step": 1000
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8871880807364678,
+      "eval_loss": 0.7224407196044922,
+      "eval_runtime": 5.988,
+      "eval_samples_per_second": 15.197,
+      "eval_steps_per_second": 7.682,
       "step": 1100
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.892816860558796,
+      "eval_loss": 0.6894707679748535,
+      "eval_runtime": 5.9958,
+      "eval_samples_per_second": 15.177,
+      "eval_steps_per_second": 7.672,
       "step": 1320
     },
     {
       "epoch": 6.82,
+      "learning_rate": 3.934659090909091e-05,
+      "loss": 0.6257,
       "step": 1500
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8972103165651553,
+      "eval_loss": 0.6574080586433411,
+      "eval_runtime": 5.9909,
+      "eval_samples_per_second": 15.19,
+      "eval_steps_per_second": 7.678,
       "step": 1540
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9014426433781273,
+      "eval_loss": 0.6289474368095398,
+      "eval_runtime": 5.6911,
+      "eval_samples_per_second": 15.99,
+      "eval_steps_per_second": 8.083,
       "step": 1760
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9045470658373884,
+      "eval_loss": 0.6054205298423767,
+      "eval_runtime": 5.6786,
+      "eval_samples_per_second": 16.025,
+      "eval_steps_per_second": 8.101,
       "step": 1980
     },
     {
       "epoch": 9.09,
+      "learning_rate": 3.579545454545455e-05,
+      "loss": 0.5385,
       "step": 2000
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9076622302428754,
+      "eval_loss": 0.5881273746490479,
+      "eval_runtime": 6.0014,
+      "eval_samples_per_second": 15.163,
+      "eval_steps_per_second": 7.665,
       "step": 2200
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.9101865876059424,
+      "eval_loss": 0.5709272623062134,
+      "eval_runtime": 5.9886,
+      "eval_samples_per_second": 15.195,
+      "eval_steps_per_second": 7.681,
       "step": 2420
     },
     {
       "epoch": 11.36,
+      "learning_rate": 3.2244318181818185e-05,
+      "loss": 0.4778,
       "step": 2500
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.9120986540341379,
+      "eval_loss": 0.5591339468955994,
+      "eval_runtime": 5.9874,
+      "eval_samples_per_second": 15.199,
+      "eval_steps_per_second": 7.683,
       "step": 2640
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.9142900110642046,
+      "eval_loss": 0.5496613383293152,
+      "eval_runtime": 5.9826,
+      "eval_samples_per_second": 15.211,
+      "eval_steps_per_second": 7.689,
       "step": 2860
     },
     {
       "epoch": 13.64,
+      "learning_rate": 2.870028409090909e-05,
+      "loss": 0.427,
       "step": 3000
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.9161053999763678,
+      "eval_loss": 0.5385328531265259,
+      "eval_runtime": 5.9885,
+      "eval_samples_per_second": 15.196,
+      "eval_steps_per_second": 7.681,
       "step": 3080
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.9179637566734341,
+      "eval_loss": 0.5258467793464661,
+      "eval_runtime": 5.9812,
+      "eval_samples_per_second": 15.214,
+      "eval_steps_per_second": 7.691,
       "step": 3300
     },
     {
       "epoch": 15.91,
+      "learning_rate": 2.5149147727272725e-05,
+      "loss": 0.394,
       "step": 3500
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.9195428227686292,
+      "eval_loss": 0.5170450806617737,
+      "eval_runtime": 5.6775,
+      "eval_samples_per_second": 16.028,
+      "eval_steps_per_second": 8.102,
       "step": 3520
     },
     {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9211648566487276,
+      "eval_loss": 0.5156892538070679,
+      "eval_runtime": 5.9945,
+      "eval_samples_per_second": 15.18,
+      "eval_steps_per_second": 7.674,
+      "step": 3740
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9220671801316963,
+      "eval_loss": 0.5037761926651001,
+      "eval_runtime": 5.687,
+      "eval_samples_per_second": 16.001,
+      "eval_steps_per_second": 8.089,
+      "step": 3960
+    },
+    {
+      "epoch": 18.18,
+      "learning_rate": 2.1598011363636363e-05,
+      "loss": 0.363,
+      "step": 4000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9233884395174717,
+      "eval_loss": 0.49766021966934204,
+      "eval_runtime": 5.6849,
+      "eval_samples_per_second": 16.007,
+      "eval_steps_per_second": 8.092,
+      "step": 4180
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9236462462268914,
+      "eval_loss": 0.4975946843624115,
+      "eval_runtime": 5.9923,
+      "eval_samples_per_second": 15.186,
+      "eval_steps_per_second": 7.677,
+      "step": 4400
+    },
+    {
+      "epoch": 20.45,
+      "learning_rate": 1.8046875000000003e-05,
+      "loss": 0.3392,
+      "step": 4500
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.9246882150107957,
+      "eval_loss": 0.49241966009140015,
+      "eval_runtime": 5.9923,
+      "eval_samples_per_second": 15.186,
+      "eval_steps_per_second": 7.677,
+      "step": 4620
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9255046029239578,
+      "eval_loss": 0.4887617826461792,
+      "eval_runtime": 5.69,
+      "eval_samples_per_second": 15.993,
+      "eval_steps_per_second": 8.084,
+      "step": 4840
+    },
+    {
+      "epoch": 22.73,
+      "learning_rate": 1.4495738636363637e-05,
+      "loss": 0.33,
+      "step": 5000
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9262028294286359,
+      "eval_loss": 0.4889785051345825,
+      "eval_runtime": 6.0024,
+      "eval_samples_per_second": 15.161,
+      "eval_steps_per_second": 7.664,
+      "step": 5060
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9267936364710558,
+      "eval_loss": 0.4856303334236145,
+      "eval_runtime": 5.9867,
+      "eval_samples_per_second": 15.2,
+      "eval_steps_per_second": 7.684,
+      "step": 5280
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 1.0951704545454545e-05,
+      "loss": 0.3058,
+      "step": 5500
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9275348307606373,
+      "eval_loss": 0.4802783131599426,
+      "eval_runtime": 5.6869,
+      "eval_samples_per_second": 16.002,
+      "eval_steps_per_second": 8.089,
+      "step": 5500
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9277389277389277,
+      "eval_loss": 0.47845765948295593,
+      "eval_runtime": 5.9773,
+      "eval_samples_per_second": 15.224,
+      "eval_steps_per_second": 7.696,
+      "step": 5720
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9280611861257022,
+      "eval_loss": 0.4813348948955536,
+      "eval_runtime": 5.6869,
+      "eval_samples_per_second": 16.002,
+      "eval_steps_per_second": 8.089,
+      "step": 5940
+    },
+    {
+      "epoch": 27.27,
+      "learning_rate": 7.407670454545455e-06,
+      "loss": 0.2973,
+      "step": 6000
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9281793475341863,
+      "eval_loss": 0.4798637628555298,
+      "eval_runtime": 5.6812,
+      "eval_samples_per_second": 16.018,
+      "eval_steps_per_second": 8.097,
+      "step": 6160
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9285230898134124,
+      "eval_loss": 0.47730037569999695,
+      "eval_runtime": 5.9912,
+      "eval_samples_per_second": 15.189,
+      "eval_steps_per_second": 7.678,
+      "step": 6380
+    },
+    {
+      "epoch": 29.54,
+      "learning_rate": 3.856534090909091e-06,
+      "loss": 0.2931,
+      "step": 6500
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9285982834369931,
+      "eval_loss": 0.4778377413749695,
+      "eval_runtime": 5.9957,
+      "eval_samples_per_second": 15.177,
+      "eval_steps_per_second": 7.672,
+      "step": 6600
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.9289527676624451,
+      "eval_loss": 0.4756244122982025,
+      "eval_runtime": 5.6812,
+      "eval_samples_per_second": 16.018,
+      "eval_steps_per_second": 8.097,
+      "step": 6820
+    },
+    {
+      "epoch": 31.82,
+      "learning_rate": 3.053977272727273e-07,
+      "loss": 0.2879,
+      "step": 7000
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9289527676624451,
+      "eval_loss": 0.47753414511680603,
+      "eval_runtime": 5.6774,
+      "eval_samples_per_second": 16.029,
+      "eval_steps_per_second": 8.102,
+      "step": 7040
+    },
+    {
+      "epoch": 32.0,
+      "step": 7040,
+      "total_flos": 2.4539422830415053e+17,
+      "train_loss": 0.47427067851478405,
+      "train_runtime": 10360.152,
       "train_samples_per_second": 5.442,
+      "train_steps_per_second": 0.68
     }
   ],
+  "max_steps": 7040,
+  "num_train_epochs": 32,
+  "total_flos": 2.4539422830415053e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d279c7dbc43acd518e710d89f64a4cc417adfa56edacc6d0708f9864295a4747
 size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2dff5363843946656ccbba4034725ba3135ad064c49c180c73190d34e5b0a9d
 size 3579