polejowska
/

cdetr-mist1-brain-gt-tumors-8ah-6l

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/conditional-detr-resnet-50](https://huggingface.co/microsoft/conditional-detr-resnet-50) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.8303
 ## Model description
@@ -40,63 +40,113 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 50
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss |
-|:-------------:|:-----:|:----:|:---------------:|
-| 5.4149        | 1.0   | 115  | 4.3974          |
-| 3.9453        | 2.0   | 230  | 3.6520          |
-| 3.7269        | 3.0   | 345  | 3.7602          |
-| 3.5898        | 4.0   | 460  | 3.5671          |
-| 3.486         | 5.0   | 575  | 3.4912          |
-| 3.4073        | 6.0   | 690  | 3.4095          |
-| 3.4181        | 7.0   | 805  | 3.3183          |
-| 3.3603        | 8.0   | 920  | 3.1111          |
-| 3.2777        | 9.0   | 1035 | 3.1992          |
-| 3.2851        | 10.0  | 1150 | 3.3997          |
-| 3.266         | 11.0  | 1265 | 3.2861          |
-| 3.2803        | 12.0  | 1380 | 3.1813          |
-| 3.1733        | 13.0  | 1495 | 2.9838          |
-| 3.2094        | 14.0  | 1610 | 3.1175          |
-| 3.1718        | 15.0  | 1725 | 3.0064          |
-| 3.1303        | 16.0  | 1840 | 3.0869          |
-| 3.0897        | 17.0  | 1955 | 3.0306          |
-| 3.0233        | 18.0  | 2070 | 2.9479          |
-| 3.0156        | 19.0  | 2185 | 2.9145          |
-| 3.0277        | 20.0  | 2300 | 2.8919          |
-| 3.0847        | 21.0  | 2415 | 2.9321          |
-| 3.0333        | 22.0  | 2530 | 2.9128          |
-| 3.0126        | 23.0  | 2645 | 2.8627          |
-| 2.9968        | 24.0  | 2760 | 3.0186          |
-| 3.0295        | 25.0  | 2875 | 3.0148          |
-| 3.0294        | 26.0  | 2990 | 3.0341          |
-| 3.0395        | 27.0  | 3105 | 2.9997          |
-| 3.0445        | 28.0  | 3220 | 3.0575          |
-| 2.9761        | 29.0  | 3335 | 2.9707          |
-| 3.0075        | 30.0  | 3450 | 2.9392          |
-| 3.0198        | 31.0  | 3565 | 2.9122          |
-| 2.9782        | 32.0  | 3680 | 2.9471          |
-| 2.9773        | 33.0  | 3795 | 3.0306          |
-| 2.9528        | 34.0  | 3910 | 2.8513          |
-| 2.9228        | 35.0  | 4025 | 2.8997          |
-| 2.9221        | 36.0  | 4140 | 2.8646          |
-| 2.8933        | 37.0  | 4255 | 2.8871          |
-| 2.8925        | 38.0  | 4370 | 2.9407          |
-| 2.9069        | 39.0  | 4485 | 2.9625          |
-| 2.9246        | 40.0  | 4600 | 2.9946          |
-| 2.9089        | 41.0  | 4715 | 2.8936          |
-| 2.8573        | 42.0  | 4830 | 2.8272          |
-| 2.8378        | 43.0  | 4945 | 2.8543          |
-| 2.8957        | 44.0  | 5060 | 2.8590          |
-| 2.8454        | 45.0  | 5175 | 2.8525          |
-| 2.7964        | 46.0  | 5290 | 2.8658          |
-| 2.8172        | 47.0  | 5405 | 2.8872          |
-| 2.8472        | 48.0  | 5520 | 2.8654          |
-| 2.811         | 49.0  | 5635 | 2.8572          |
-| 2.801         | 50.0  | 5750 | 2.8303          |
 ### Framework versions

 This model is a fine-tuned version of [microsoft/conditional-detr-resnet-50](https://huggingface.co/microsoft/conditional-detr-resnet-50) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.7389
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 100
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss |
+|:-------------:|:-----:|:-----:|:---------------:|
+| 5.4149        | 1.0   | 115   | 4.3974          |
+| 3.9453        | 2.0   | 230   | 3.6520          |
+| 3.7269        | 3.0   | 345   | 3.7602          |
+| 3.5898        | 4.0   | 460   | 3.5671          |
+| 3.486         | 5.0   | 575   | 3.4912          |
+| 3.4073        | 6.0   | 690   | 3.4095          |
+| 3.4181        | 7.0   | 805   | 3.3183          |
+| 3.3603        | 8.0   | 920   | 3.1111          |
+| 3.2777        | 9.0   | 1035  | 3.1992          |
+| 3.2851        | 10.0  | 1150  | 3.3997          |
+| 3.266         | 11.0  | 1265  | 3.2861          |
+| 3.2803        | 12.0  | 1380  | 3.1813          |
+| 3.1733        | 13.0  | 1495  | 2.9838          |
+| 3.2094        | 14.0  | 1610  | 3.1175          |
+| 3.1718        | 15.0  | 1725  | 3.0064          |
+| 3.1303        | 16.0  | 1840  | 3.0869          |
+| 3.0897        | 17.0  | 1955  | 3.0306          |
+| 3.0233        | 18.0  | 2070  | 2.9479          |
+| 3.0156        | 19.0  | 2185  | 2.9145          |
+| 3.0277        | 20.0  | 2300  | 2.8919          |
+| 3.0847        | 21.0  | 2415  | 2.9321          |
+| 3.0333        | 22.0  | 2530  | 2.9128          |
+| 3.0126        | 23.0  | 2645  | 2.8627          |
+| 2.9968        | 24.0  | 2760  | 3.0186          |
+| 3.0295        | 25.0  | 2875  | 3.0148          |
+| 3.0294        | 26.0  | 2990  | 3.0341          |
+| 3.0395        | 27.0  | 3105  | 2.9997          |
+| 3.0445        | 28.0  | 3220  | 3.0575          |
+| 2.9761        | 29.0  | 3335  | 2.9707          |
+| 3.0075        | 30.0  | 3450  | 2.9392          |
+| 3.0198        | 31.0  | 3565  | 2.9122          |
+| 2.9782        | 32.0  | 3680  | 2.9471          |
+| 2.9773        | 33.0  | 3795  | 3.0306          |
+| 2.9528        | 34.0  | 3910  | 2.8513          |
+| 2.9228        | 35.0  | 4025  | 2.8997          |
+| 2.9221        | 36.0  | 4140  | 2.8646          |
+| 2.8933        | 37.0  | 4255  | 2.8871          |
+| 2.8925        | 38.0  | 4370  | 2.9407          |
+| 2.9069        | 39.0  | 4485  | 2.9625          |
+| 2.9246        | 40.0  | 4600  | 2.9946          |
+| 2.9089        | 41.0  | 4715  | 2.8936          |
+| 2.8573        | 42.0  | 4830  | 2.8272          |
+| 2.8768        | 43.0  | 4945  | 2.9868          |
+| 2.9666        | 44.0  | 5060  | 2.9200          |
+| 2.958         | 45.0  | 5175  | 2.8755          |
+| 2.8923        | 46.0  | 5290  | 2.8518          |
+| 2.9204        | 47.0  | 5405  | 2.9000          |
+| 2.9644        | 48.0  | 5520  | 2.8969          |
+| 2.9011        | 49.0  | 5635  | 2.7918          |
+| 2.9329        | 50.0  | 5750  | 2.9139          |
+| 2.9031        | 51.0  | 5865  | 2.7796          |
+| 2.9029        | 52.0  | 5980  | 2.8025          |
+| 2.9555        | 53.0  | 6095  | 2.9121          |
+| 2.9366        | 54.0  | 6210  | 2.9035          |
+| 2.8871        | 55.0  | 6325  | 2.8759          |
+| 2.863         | 56.0  | 6440  | 2.8540          |
+| 2.8897        | 57.0  | 6555  | 2.8401          |
+| 2.828         | 58.0  | 6670  | 2.8590          |
+| 2.8221        | 59.0  | 6785  | 2.9255          |
+| 2.835         | 60.0  | 6900  | 2.9809          |
+| 2.886         | 61.0  | 7015  | 2.9907          |
+| 2.8227        | 62.0  | 7130  | 2.8283          |
+| 2.7864        | 63.0  | 7245  | 2.8258          |
+| 2.8179        | 64.0  | 7360  | 2.9504          |
+| 2.7944        | 65.0  | 7475  | 2.8042          |
+| 2.7986        | 66.0  | 7590  | 2.8307          |
+| 2.7567        | 67.0  | 7705  | 2.8060          |
+| 2.7552        | 68.0  | 7820  | 2.7994          |
+| 2.7933        | 69.0  | 7935  | 2.8493          |
+| 2.7393        | 70.0  | 8050  | 2.8409          |
+| 2.7357        | 71.0  | 8165  | 2.8086          |
+| 2.7264        | 72.0  | 8280  | 2.7773          |
+| 2.7614        | 73.0  | 8395  | 2.8937          |
+| 2.7279        | 74.0  | 8510  | 2.8887          |
+| 2.745         | 75.0  | 8625  | 2.8274          |
+| 2.7225        | 76.0  | 8740  | 2.7971          |
+| 2.7094        | 77.0  | 8855  | 2.8685          |
+| 2.7306        | 78.0  | 8970  | 2.8482          |
+| 2.6844        | 79.0  | 9085  | 2.7372          |
+| 2.6949        | 80.0  | 9200  | 2.8149          |
+| 2.7342        | 81.0  | 9315  | 2.7647          |
+| 2.6813        | 82.0  | 9430  | 2.7666          |
+| 2.7161        | 83.0  | 9545  | 2.8437          |
+| 2.6953        | 84.0  | 9660  | 2.7895          |
+| 2.6714        | 85.0  | 9775  | 2.7683          |
+| 2.6611        | 86.0  | 9890  | 2.7004          |
+| 2.6714        | 87.0  | 10005 | 2.7183          |
+| 2.6655        | 88.0  | 10120 | 2.7043          |
+| 2.6509        | 89.0  | 10235 | 2.7705          |
+| 2.6266        | 90.0  | 10350 | 2.7152          |
+| 2.6677        | 91.0  | 10465 | 2.7295          |
+| 2.6438        | 92.0  | 10580 | 2.7018          |
+| 2.6267        | 93.0  | 10695 | 2.7063          |
+| 2.6286        | 94.0  | 10810 | 2.7798          |
+| 2.6043        | 95.0  | 10925 | 2.7712          |
+| 2.6188        | 96.0  | 11040 | 2.7614          |
+| 2.6028        | 97.0  | 11155 | 2.7405          |
+| 2.621         | 98.0  | 11270 | 2.7415          |
+| 2.61          | 99.0  | 11385 | 2.7415          |
+| 2.6164        | 100.0 | 11500 | 2.7389          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6ca86c0931744ccb8c90e4638a9ca83e238f2ea6102a4e014e7d419ebfe75b8
 size 173870884

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c1866f4d599d39ba0fe76d52a1a7dcf979852ecd271dca7cd00adff8579d689
 size 173870884

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.827199935913086,
-  "best_model_checkpoint": "cdetr-mist1-brain-gt-tumors-8ah-6l/checkpoint-4830",
-  "epoch": 50.0,
   "eval_steps": 500,
-  "global_step": 5750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -598,131 +598,831 @@
     },
     {
       "epoch": 43.0,
-      "learning_rate": 1.4382608695652176e-06,
-      "loss": 2.8378,
       "step": 4945
     },
     {
       "epoch": 43.0,
-      "eval_loss": 2.8543009757995605,
-      "eval_runtime": 5.6643,
-      "eval_samples_per_second": 7.062,
-      "eval_steps_per_second": 0.883,
       "step": 4945
     },
     {
       "epoch": 44.0,
-      "learning_rate": 1.2382608695652176e-06,
-      "loss": 2.8957,
       "step": 5060
     },
     {
       "epoch": 44.0,
-      "eval_loss": 2.859046459197998,
-      "eval_runtime": 5.687,
-      "eval_samples_per_second": 7.034,
-      "eval_steps_per_second": 0.879,
       "step": 5060
     },
     {
       "epoch": 45.0,
-      "learning_rate": 1.0382608695652174e-06,
-      "loss": 2.8454,
       "step": 5175
     },
     {
       "epoch": 45.0,
-      "eval_loss": 2.8524787425994873,
-      "eval_runtime": 5.6623,
-      "eval_samples_per_second": 7.064,
       "eval_steps_per_second": 0.883,
       "step": 5175
     },
     {
       "epoch": 46.0,
-      "learning_rate": 8.382608695652175e-07,
-      "loss": 2.7964,
       "step": 5290
     },
     {
       "epoch": 46.0,
-      "eval_loss": 2.8657748699188232,
-      "eval_runtime": 5.6625,
-      "eval_samples_per_second": 7.064,
-      "eval_steps_per_second": 0.883,
       "step": 5290
     },
     {
       "epoch": 47.0,
-      "learning_rate": 6.382608695652175e-07,
-      "loss": 2.8172,
       "step": 5405
     },
     {
       "epoch": 47.0,
-      "eval_loss": 2.8872039318084717,
-      "eval_runtime": 5.6798,
-      "eval_samples_per_second": 7.043,
-      "eval_steps_per_second": 0.88,
       "step": 5405
     },
     {
       "epoch": 48.0,
-      "learning_rate": 4.382608695652174e-07,
-      "loss": 2.8472,
       "step": 5520
     },
     {
       "epoch": 48.0,
-      "eval_loss": 2.8653695583343506,
-      "eval_runtime": 5.6595,
-      "eval_samples_per_second": 7.068,
-      "eval_steps_per_second": 0.883,
       "step": 5520
     },
     {
       "epoch": 49.0,
-      "learning_rate": 2.3826086956521743e-07,
-      "loss": 2.811,
       "step": 5635
     },
     {
       "epoch": 49.0,
-      "eval_loss": 2.8571643829345703,
-      "eval_runtime": 5.7272,
-      "eval_samples_per_second": 6.984,
-      "eval_steps_per_second": 0.873,
       "step": 5635
     },
     {
       "epoch": 50.0,
-      "learning_rate": 3.82608695652174e-08,
-      "loss": 2.801,
       "step": 5750
     },
     {
       "epoch": 50.0,
-      "eval_loss": 2.830277919769287,
-      "eval_runtime": 5.6412,
-      "eval_samples_per_second": 7.091,
-      "eval_steps_per_second": 0.886,
       "step": 5750
     },
     {
-      "epoch": 50.0,
-      "step": 5750,
-      "total_flos": 1.147766207616e+19,
-      "train_loss": 1.5786318518597147,
-      "train_runtime": 2642.836,
-      "train_samples_per_second": 8.703,
-      "train_steps_per_second": 2.176
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5750,
-  "num_train_epochs": 50,
   "save_steps": 500,
-  "total_flos": 1.147766207616e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.700421094894409,
+  "best_model_checkpoint": "cdetr-mist1-brain-gt-tumors-8ah-6l/checkpoint-9890",
+  "epoch": 100.0,
   "eval_steps": 500,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 43.0,
+      "learning_rate": 5.726956521739131e-06,
+      "loss": 2.8768,
       "step": 4945
     },
     {
       "epoch": 43.0,
+      "eval_loss": 2.9868218898773193,
+      "eval_runtime": 5.7349,
+      "eval_samples_per_second": 6.975,
+      "eval_steps_per_second": 0.872,
       "step": 4945
     },
     {
       "epoch": 44.0,
+      "learning_rate": 5.627826086956523e-06,
+      "loss": 2.9666,
       "step": 5060
     },
     {
       "epoch": 44.0,
+      "eval_loss": 2.9200377464294434,
+      "eval_runtime": 5.6461,
+      "eval_samples_per_second": 7.084,
+      "eval_steps_per_second": 0.886,
       "step": 5060
     },
     {
       "epoch": 45.0,
+      "learning_rate": 5.527826086956523e-06,
+      "loss": 2.958,
       "step": 5175
     },
     {
       "epoch": 45.0,
+      "eval_loss": 2.875474214553833,
+      "eval_runtime": 5.664,
+      "eval_samples_per_second": 7.062,
       "eval_steps_per_second": 0.883,
       "step": 5175
     },
     {
       "epoch": 46.0,
+      "learning_rate": 5.427826086956523e-06,
+      "loss": 2.8923,
       "step": 5290
     },
     {
       "epoch": 46.0,
+      "eval_loss": 2.851766586303711,
+      "eval_runtime": 5.6855,
+      "eval_samples_per_second": 7.035,
+      "eval_steps_per_second": 0.879,
       "step": 5290
     },
     {
       "epoch": 47.0,
+      "learning_rate": 5.327826086956522e-06,
+      "loss": 2.9204,
       "step": 5405
     },
     {
       "epoch": 47.0,
+      "eval_loss": 2.9000306129455566,
+      "eval_runtime": 5.6182,
+      "eval_samples_per_second": 7.12,
+      "eval_steps_per_second": 0.89,
       "step": 5405
     },
     {
       "epoch": 48.0,
+      "learning_rate": 5.227826086956522e-06,
+      "loss": 2.9644,
       "step": 5520
     },
     {
       "epoch": 48.0,
+      "eval_loss": 2.8968658447265625,
+      "eval_runtime": 5.677,
+      "eval_samples_per_second": 7.046,
+      "eval_steps_per_second": 0.881,
       "step": 5520
     },
     {
       "epoch": 49.0,
+      "learning_rate": 5.127826086956522e-06,
+      "loss": 2.9011,
       "step": 5635
     },
     {
       "epoch": 49.0,
+      "eval_loss": 2.7918035984039307,
+      "eval_runtime": 5.6945,
+      "eval_samples_per_second": 7.024,
+      "eval_steps_per_second": 0.878,
       "step": 5635
     },
     {
       "epoch": 50.0,
+      "learning_rate": 5.028695652173914e-06,
+      "loss": 2.9329,
       "step": 5750
     },
     {
       "epoch": 50.0,
+      "eval_loss": 2.9139397144317627,
+      "eval_runtime": 5.6814,
+      "eval_samples_per_second": 7.041,
+      "eval_steps_per_second": 0.88,
       "step": 5750
     },
     {
+      "epoch": 51.0,
+      "learning_rate": 4.9286956521739135e-06,
+      "loss": 2.9031,
+      "step": 5865
+    },
+    {
+      "epoch": 51.0,
+      "eval_loss": 2.779574155807495,
+      "eval_runtime": 5.6982,
+      "eval_samples_per_second": 7.02,
+      "eval_steps_per_second": 0.877,
+      "step": 5865
+    },
+    {
+      "epoch": 52.0,
+      "learning_rate": 4.828695652173914e-06,
+      "loss": 2.9029,
+      "step": 5980
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 2.802475690841675,
+      "eval_runtime": 5.6076,
+      "eval_samples_per_second": 7.133,
+      "eval_steps_per_second": 0.892,
+      "step": 5980
+    },
+    {
+      "epoch": 53.0,
+      "learning_rate": 4.728695652173914e-06,
+      "loss": 2.9555,
+      "step": 6095
+    },
+    {
+      "epoch": 53.0,
+      "eval_loss": 2.9120869636535645,
+      "eval_runtime": 5.7682,
+      "eval_samples_per_second": 6.935,
+      "eval_steps_per_second": 0.867,
+      "step": 6095
+    },
+    {
+      "epoch": 54.0,
+      "learning_rate": 4.628695652173914e-06,
+      "loss": 2.9366,
+      "step": 6210
+    },
+    {
+      "epoch": 54.0,
+      "eval_loss": 2.9034695625305176,
+      "eval_runtime": 5.7147,
+      "eval_samples_per_second": 7.0,
+      "eval_steps_per_second": 0.875,
+      "step": 6210
+    },
+    {
+      "epoch": 55.0,
+      "learning_rate": 4.528695652173913e-06,
+      "loss": 2.8871,
+      "step": 6325
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 2.87589168548584,
+      "eval_runtime": 5.6683,
+      "eval_samples_per_second": 7.057,
+      "eval_steps_per_second": 0.882,
+      "step": 6325
+    },
+    {
+      "epoch": 56.0,
+      "learning_rate": 4.428695652173913e-06,
+      "loss": 2.863,
+      "step": 6440
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 2.8540170192718506,
+      "eval_runtime": 5.7794,
+      "eval_samples_per_second": 6.921,
+      "eval_steps_per_second": 0.865,
+      "step": 6440
+    },
+    {
+      "epoch": 57.0,
+      "learning_rate": 4.328695652173913e-06,
+      "loss": 2.8897,
+      "step": 6555
+    },
+    {
+      "epoch": 57.0,
+      "eval_loss": 2.8401310443878174,
+      "eval_runtime": 5.6374,
+      "eval_samples_per_second": 7.095,
+      "eval_steps_per_second": 0.887,
+      "step": 6555
+    },
+    {
+      "epoch": 58.0,
+      "learning_rate": 4.228695652173913e-06,
+      "loss": 2.828,
+      "step": 6670
+    },
+    {
+      "epoch": 58.0,
+      "eval_loss": 2.8589885234832764,
+      "eval_runtime": 5.697,
+      "eval_samples_per_second": 7.021,
+      "eval_steps_per_second": 0.878,
+      "step": 6670
+    },
+    {
+      "epoch": 59.0,
+      "learning_rate": 4.1286956521739135e-06,
+      "loss": 2.8221,
+      "step": 6785
+    },
+    {
+      "epoch": 59.0,
+      "eval_loss": 2.92549467086792,
+      "eval_runtime": 5.7309,
+      "eval_samples_per_second": 6.98,
+      "eval_steps_per_second": 0.872,
+      "step": 6785
+    },
+    {
+      "epoch": 60.0,
+      "learning_rate": 4.028695652173914e-06,
+      "loss": 2.835,
+      "step": 6900
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 2.9808831214904785,
+      "eval_runtime": 5.6748,
+      "eval_samples_per_second": 7.049,
+      "eval_steps_per_second": 0.881,
+      "step": 6900
+    },
+    {
+      "epoch": 61.0,
+      "learning_rate": 3.928695652173914e-06,
+      "loss": 2.886,
+      "step": 7015
+    },
+    {
+      "epoch": 61.0,
+      "eval_loss": 2.9906742572784424,
+      "eval_runtime": 5.7118,
+      "eval_samples_per_second": 7.003,
+      "eval_steps_per_second": 0.875,
+      "step": 7015
+    },
+    {
+      "epoch": 62.0,
+      "learning_rate": 3.828695652173913e-06,
+      "loss": 2.8227,
+      "step": 7130
+    },
+    {
+      "epoch": 62.0,
+      "eval_loss": 2.8283145427703857,
+      "eval_runtime": 5.7014,
+      "eval_samples_per_second": 7.016,
+      "eval_steps_per_second": 0.877,
+      "step": 7130
+    },
+    {
+      "epoch": 63.0,
+      "learning_rate": 3.728695652173913e-06,
+      "loss": 2.7864,
+      "step": 7245
+    },
+    {
+      "epoch": 63.0,
+      "eval_loss": 2.8258347511291504,
+      "eval_runtime": 5.6903,
+      "eval_samples_per_second": 7.029,
+      "eval_steps_per_second": 0.879,
+      "step": 7245
+    },
+    {
+      "epoch": 64.0,
+      "learning_rate": 3.6286956521739132e-06,
+      "loss": 2.8179,
+      "step": 7360
+    },
+    {
+      "epoch": 64.0,
+      "eval_loss": 2.9504449367523193,
+      "eval_runtime": 5.7303,
+      "eval_samples_per_second": 6.98,
+      "eval_steps_per_second": 0.873,
+      "step": 7360
+    },
+    {
+      "epoch": 65.0,
+      "learning_rate": 3.5286956521739133e-06,
+      "loss": 2.7944,
+      "step": 7475
+    },
+    {
+      "epoch": 65.0,
+      "eval_loss": 2.8042430877685547,
+      "eval_runtime": 5.7552,
+      "eval_samples_per_second": 6.95,
+      "eval_steps_per_second": 0.869,
+      "step": 7475
+    },
+    {
+      "epoch": 66.0,
+      "learning_rate": 3.4286956521739134e-06,
+      "loss": 2.7986,
+      "step": 7590
+    },
+    {
+      "epoch": 66.0,
+      "eval_loss": 2.8307268619537354,
+      "eval_runtime": 5.741,
+      "eval_samples_per_second": 6.967,
+      "eval_steps_per_second": 0.871,
+      "step": 7590
+    },
+    {
+      "epoch": 67.0,
+      "learning_rate": 3.328695652173913e-06,
+      "loss": 2.7567,
+      "step": 7705
+    },
+    {
+      "epoch": 67.0,
+      "eval_loss": 2.805975914001465,
+      "eval_runtime": 5.7979,
+      "eval_samples_per_second": 6.899,
+      "eval_steps_per_second": 0.862,
+      "step": 7705
+    },
+    {
+      "epoch": 68.0,
+      "learning_rate": 3.2286956521739132e-06,
+      "loss": 2.7552,
+      "step": 7820
+    },
+    {
+      "epoch": 68.0,
+      "eval_loss": 2.7994372844696045,
+      "eval_runtime": 5.7117,
+      "eval_samples_per_second": 7.003,
+      "eval_steps_per_second": 0.875,
+      "step": 7820
+    },
+    {
+      "epoch": 69.0,
+      "learning_rate": 3.1286956521739133e-06,
+      "loss": 2.7933,
+      "step": 7935
+    },
+    {
+      "epoch": 69.0,
+      "eval_loss": 2.849256992340088,
+      "eval_runtime": 5.7067,
+      "eval_samples_per_second": 7.009,
+      "eval_steps_per_second": 0.876,
+      "step": 7935
+    },
+    {
+      "epoch": 70.0,
+      "learning_rate": 3.028695652173913e-06,
+      "loss": 2.7393,
+      "step": 8050
+    },
+    {
+      "epoch": 70.0,
+      "eval_loss": 2.8409152030944824,
+      "eval_runtime": 5.6797,
+      "eval_samples_per_second": 7.043,
+      "eval_steps_per_second": 0.88,
+      "step": 8050
+    },
+    {
+      "epoch": 71.0,
+      "learning_rate": 2.9286956521739136e-06,
+      "loss": 2.7357,
+      "step": 8165
+    },
+    {
+      "epoch": 71.0,
+      "eval_loss": 2.8086206912994385,
+      "eval_runtime": 5.6798,
+      "eval_samples_per_second": 7.043,
+      "eval_steps_per_second": 0.88,
+      "step": 8165
+    },
+    {
+      "epoch": 72.0,
+      "learning_rate": 2.8286956521739132e-06,
+      "loss": 2.7264,
+      "step": 8280
+    },
+    {
+      "epoch": 72.0,
+      "eval_loss": 2.7772560119628906,
+      "eval_runtime": 5.7909,
+      "eval_samples_per_second": 6.907,
+      "eval_steps_per_second": 0.863,
+      "step": 8280
+    },
+    {
+      "epoch": 73.0,
+      "learning_rate": 2.7286956521739134e-06,
+      "loss": 2.7614,
+      "step": 8395
+    },
+    {
+      "epoch": 73.0,
+      "eval_loss": 2.8937366008758545,
+      "eval_runtime": 5.7573,
+      "eval_samples_per_second": 6.948,
+      "eval_steps_per_second": 0.868,
+      "step": 8395
+    },
+    {
+      "epoch": 74.0,
+      "learning_rate": 2.6295652173913044e-06,
+      "loss": 2.7279,
+      "step": 8510
+    },
+    {
+      "epoch": 74.0,
+      "eval_loss": 2.8887228965759277,
+      "eval_runtime": 5.7093,
+      "eval_samples_per_second": 7.006,
+      "eval_steps_per_second": 0.876,
+      "step": 8510
+    },
+    {
+      "epoch": 75.0,
+      "learning_rate": 2.5295652173913045e-06,
+      "loss": 2.745,
+      "step": 8625
+    },
+    {
+      "epoch": 75.0,
+      "eval_loss": 2.827376127243042,
+      "eval_runtime": 5.6568,
+      "eval_samples_per_second": 7.071,
+      "eval_steps_per_second": 0.884,
+      "step": 8625
+    },
+    {
+      "epoch": 76.0,
+      "learning_rate": 2.4295652173913046e-06,
+      "loss": 2.7225,
+      "step": 8740
+    },
+    {
+      "epoch": 76.0,
+      "eval_loss": 2.7970547676086426,
+      "eval_runtime": 5.7165,
+      "eval_samples_per_second": 6.997,
+      "eval_steps_per_second": 0.875,
+      "step": 8740
+    },
+    {
+      "epoch": 77.0,
+      "learning_rate": 2.3295652173913043e-06,
+      "loss": 2.7094,
+      "step": 8855
+    },
+    {
+      "epoch": 77.0,
+      "eval_loss": 2.868479013442993,
+      "eval_runtime": 5.6813,
+      "eval_samples_per_second": 7.041,
+      "eval_steps_per_second": 0.88,
+      "step": 8855
+    },
+    {
+      "epoch": 78.0,
+      "learning_rate": 2.229565217391305e-06,
+      "loss": 2.7306,
+      "step": 8970
+    },
+    {
+      "epoch": 78.0,
+      "eval_loss": 2.8482155799865723,
+      "eval_runtime": 5.7403,
+      "eval_samples_per_second": 6.968,
+      "eval_steps_per_second": 0.871,
+      "step": 8970
+    },
+    {
+      "epoch": 79.0,
+      "learning_rate": 2.1295652173913045e-06,
+      "loss": 2.6844,
+      "step": 9085
+    },
+    {
+      "epoch": 79.0,
+      "eval_loss": 2.7371761798858643,
+      "eval_runtime": 5.7039,
+      "eval_samples_per_second": 7.013,
+      "eval_steps_per_second": 0.877,
+      "step": 9085
+    },
+    {
+      "epoch": 80.0,
+      "learning_rate": 2.0295652173913046e-06,
+      "loss": 2.6949,
+      "step": 9200
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 2.81486177444458,
+      "eval_runtime": 5.7433,
+      "eval_samples_per_second": 6.965,
+      "eval_steps_per_second": 0.871,
+      "step": 9200
+    },
+    {
+      "epoch": 81.0,
+      "learning_rate": 1.9295652173913047e-06,
+      "loss": 2.7342,
+      "step": 9315
+    },
+    {
+      "epoch": 81.0,
+      "eval_loss": 2.76469087600708,
+      "eval_runtime": 5.6684,
+      "eval_samples_per_second": 7.057,
+      "eval_steps_per_second": 0.882,
+      "step": 9315
+    },
+    {
+      "epoch": 82.0,
+      "learning_rate": 1.8295652173913044e-06,
+      "loss": 2.6813,
+      "step": 9430
+    },
+    {
+      "epoch": 82.0,
+      "eval_loss": 2.7665936946868896,
+      "eval_runtime": 5.6874,
+      "eval_samples_per_second": 7.033,
+      "eval_steps_per_second": 0.879,
+      "step": 9430
+    },
+    {
+      "epoch": 83.0,
+      "learning_rate": 1.7295652173913043e-06,
+      "loss": 2.7161,
+      "step": 9545
+    },
+    {
+      "epoch": 83.0,
+      "eval_loss": 2.843693971633911,
+      "eval_runtime": 5.7308,
+      "eval_samples_per_second": 6.98,
+      "eval_steps_per_second": 0.872,
+      "step": 9545
+    },
+    {
+      "epoch": 84.0,
+      "learning_rate": 1.6295652173913046e-06,
+      "loss": 2.6953,
+      "step": 9660
+    },
+    {
+      "epoch": 84.0,
+      "eval_loss": 2.7895007133483887,
+      "eval_runtime": 5.5926,
+      "eval_samples_per_second": 7.152,
+      "eval_steps_per_second": 0.894,
+      "step": 9660
+    },
+    {
+      "epoch": 85.0,
+      "learning_rate": 1.5295652173913045e-06,
+      "loss": 2.6714,
+      "step": 9775
+    },
+    {
+      "epoch": 85.0,
+      "eval_loss": 2.768319606781006,
+      "eval_runtime": 5.5781,
+      "eval_samples_per_second": 7.171,
+      "eval_steps_per_second": 0.896,
+      "step": 9775
+    },
+    {
+      "epoch": 86.0,
+      "learning_rate": 1.4295652173913044e-06,
+      "loss": 2.6611,
+      "step": 9890
+    },
+    {
+      "epoch": 86.0,
+      "eval_loss": 2.700421094894409,
+      "eval_runtime": 5.7156,
+      "eval_samples_per_second": 6.998,
+      "eval_steps_per_second": 0.875,
+      "step": 9890
+    },
+    {
+      "epoch": 87.0,
+      "learning_rate": 1.3295652173913045e-06,
+      "loss": 2.6714,
+      "step": 10005
+    },
+    {
+      "epoch": 87.0,
+      "eval_loss": 2.7182838916778564,
+      "eval_runtime": 5.6318,
+      "eval_samples_per_second": 7.103,
+      "eval_steps_per_second": 0.888,
+      "step": 10005
+    },
+    {
+      "epoch": 88.0,
+      "learning_rate": 1.2295652173913044e-06,
+      "loss": 2.6655,
+      "step": 10120
+    },
+    {
+      "epoch": 88.0,
+      "eval_loss": 2.7042617797851562,
+      "eval_runtime": 5.8135,
+      "eval_samples_per_second": 6.881,
+      "eval_steps_per_second": 0.86,
+      "step": 10120
+    },
+    {
+      "epoch": 89.0,
+      "learning_rate": 1.1295652173913045e-06,
+      "loss": 2.6509,
+      "step": 10235
+    },
+    {
+      "epoch": 89.0,
+      "eval_loss": 2.770498514175415,
+      "eval_runtime": 5.7555,
+      "eval_samples_per_second": 6.95,
+      "eval_steps_per_second": 0.869,
+      "step": 10235
+    },
+    {
+      "epoch": 90.0,
+      "learning_rate": 1.0295652173913044e-06,
+      "loss": 2.6266,
+      "step": 10350
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 2.7151668071746826,
+      "eval_runtime": 5.6476,
+      "eval_samples_per_second": 7.083,
+      "eval_steps_per_second": 0.885,
+      "step": 10350
+    },
+    {
+      "epoch": 91.0,
+      "learning_rate": 9.295652173913044e-07,
+      "loss": 2.6677,
+      "step": 10465
+    },
+    {
+      "epoch": 91.0,
+      "eval_loss": 2.729531764984131,
+      "eval_runtime": 5.6362,
+      "eval_samples_per_second": 7.097,
+      "eval_steps_per_second": 0.887,
+      "step": 10465
+    },
+    {
+      "epoch": 92.0,
+      "learning_rate": 8.295652173913043e-07,
+      "loss": 2.6438,
+      "step": 10580
+    },
+    {
+      "epoch": 92.0,
+      "eval_loss": 2.70180344581604,
+      "eval_runtime": 5.6488,
+      "eval_samples_per_second": 7.081,
+      "eval_steps_per_second": 0.885,
+      "step": 10580
+    },
+    {
+      "epoch": 93.0,
+      "learning_rate": 7.295652173913044e-07,
+      "loss": 2.6267,
+      "step": 10695
+    },
+    {
+      "epoch": 93.0,
+      "eval_loss": 2.7062716484069824,
+      "eval_runtime": 5.5879,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.895,
+      "step": 10695
+    },
+    {
+      "epoch": 94.0,
+      "learning_rate": 6.295652173913045e-07,
+      "loss": 2.6286,
+      "step": 10810
+    },
+    {
+      "epoch": 94.0,
+      "eval_loss": 2.779799222946167,
+      "eval_runtime": 5.6552,
+      "eval_samples_per_second": 7.073,
+      "eval_steps_per_second": 0.884,
+      "step": 10810
+    },
+    {
+      "epoch": 95.0,
+      "learning_rate": 5.295652173913045e-07,
+      "loss": 2.6043,
+      "step": 10925
+    },
+    {
+      "epoch": 95.0,
+      "eval_loss": 2.7712299823760986,
+      "eval_runtime": 5.6131,
+      "eval_samples_per_second": 7.126,
+      "eval_steps_per_second": 0.891,
+      "step": 10925
+    },
+    {
+      "epoch": 96.0,
+      "learning_rate": 4.295652173913044e-07,
+      "loss": 2.6188,
+      "step": 11040
+    },
+    {
+      "epoch": 96.0,
+      "eval_loss": 2.7614357471466064,
+      "eval_runtime": 5.567,
+      "eval_samples_per_second": 7.185,
+      "eval_steps_per_second": 0.898,
+      "step": 11040
+    },
+    {
+      "epoch": 97.0,
+      "learning_rate": 3.2956521739130436e-07,
+      "loss": 2.6028,
+      "step": 11155
+    },
+    {
+      "epoch": 97.0,
+      "eval_loss": 2.740495204925537,
+      "eval_runtime": 5.621,
+      "eval_samples_per_second": 7.116,
+      "eval_steps_per_second": 0.89,
+      "step": 11155
+    },
+    {
+      "epoch": 98.0,
+      "learning_rate": 2.2956521739130436e-07,
+      "loss": 2.621,
+      "step": 11270
+    },
+    {
+      "epoch": 98.0,
+      "eval_loss": 2.741487503051758,
+      "eval_runtime": 5.6116,
+      "eval_samples_per_second": 7.128,
+      "eval_steps_per_second": 0.891,
+      "step": 11270
+    },
+    {
+      "epoch": 99.0,
+      "learning_rate": 1.2956521739130434e-07,
+      "loss": 2.61,
+      "step": 11385
+    },
+    {
+      "epoch": 99.0,
+      "eval_loss": 2.741542100906372,
+      "eval_runtime": 5.7228,
+      "eval_samples_per_second": 6.99,
+      "eval_steps_per_second": 0.874,
+      "step": 11385
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 2.9565217391304353e-08,
+      "loss": 2.6164,
+      "step": 11500
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 2.7389094829559326,
+      "eval_runtime": 5.5344,
+      "eval_samples_per_second": 7.228,
+      "eval_steps_per_second": 0.903,
+      "step": 11500
+    },
+    {
+      "epoch": 100.0,
+      "step": 11500,
+      "total_flos": 2.295532415232e+19,
+      "train_loss": 1.6043826771611753,
+      "train_runtime": 5669.8878,
+      "train_samples_per_second": 8.113,
+      "train_steps_per_second": 2.028
     }
   ],
   "logging_steps": 500,
+  "max_steps": 11500,
+  "num_train_epochs": 100,
   "save_steps": 500,
+  "total_flos": 2.295532415232e+19,
   "trial_name": null,
   "trial_params": null
 }