Updated Commit

Browse files

Files changed (7) hide show

README.md +28 -6
all_results.json +10 -10
eval_results.json +6 -6
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +207 -335
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -5,18 +5,18 @@ tags:
 datasets:
 - pritamdeka/cord-19-abstract
 model-index:
-- name: PubMedBert-abstract-cord19
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# PubMedBert-abstract-cord19
-This model is a fine-tuned version of [microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext](https://huggingface.co/microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext) on the [pritamdeka/cord-19-abstract](https://huggingface.co/datasets/pritamdeka/cord-19-abstract) dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.3279
 ## Model description
@@ -42,16 +42,38 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 10000
-- num_epochs: 1.0
 - mixed_precision_training: Native AMP
 ### Training results
 ### Framework versions
 - Transformers 4.17.0.dev0
 - Pytorch 1.10.0+cu111
-- Datasets 1.18.2
 - Tokenizers 0.11.0

 datasets:
 - pritamdeka/cord-19-abstract
 model-index:
+- name: pubmedbert-abstract-cord19
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# pubmedbert-abstract-cord19
+This model is a fine-tuned version of [microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext](https://huggingface.co/microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext) on the pritamdeka/cord-19-abstract dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.3005
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 10000
+- num_epochs: 3.0
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss |
+|:-------------:|:-----:|:------:|:---------------:|
+| 1.3774        | 0.15  | 5000   | 1.3212          |
+| 1.3937        | 0.29  | 10000  | 1.4059          |
+| 1.6812        | 0.44  | 15000  | 1.6174          |
+| 1.4712        | 0.59  | 20000  | 1.4383          |
+| 1.4293        | 0.73  | 25000  | 1.4356          |
+| 1.4155        | 0.88  | 30000  | 1.4283          |
+| 1.3963        | 1.03  | 35000  | 1.4135          |
+| 1.3718        | 1.18  | 40000  | 1.3948          |
+| 1.369         | 1.32  | 45000  | 1.3961          |
+| 1.354         | 1.47  | 50000  | 1.3788          |
+| 1.3399        | 1.62  | 55000  | 1.3866          |
+| 1.3289        | 1.76  | 60000  | 1.3630          |
+| 1.3155        | 1.91  | 65000  | 1.3609          |
+| 1.2976        | 2.06  | 70000  | 1.3489          |
+| 1.2783        | 2.2   | 75000  | 1.3333          |
+| 1.2696        | 2.35  | 80000  | 1.3260          |
+| 1.2607        | 2.5   | 85000  | 1.3232          |
+| 1.2547        | 2.64  | 90000  | 1.3034          |
+| 1.2495        | 2.79  | 95000  | 1.3035          |
+| 1.2404        | 2.94  | 100000 | 1.3029          |
 ### Framework versions
 - Transformers 4.17.0.dev0
 - Pytorch 1.10.0+cu111
+- Datasets 1.18.3
 - Tokenizers 0.11.0

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 1.3278663158416748,
-    "eval_runtime": 170.2878,
     "eval_samples": 14605,
-    "eval_samples_per_second": 85.767,
-    "eval_steps_per_second": 10.723,
-    "perplexity": 3.772984435877001,
-    "train_loss": 1.4148471605151356,
-    "train_runtime": 9789.6511,
     "train_samples": 272217,
-    "train_samples_per_second": 27.807,
-    "train_steps_per_second": 3.476
 }

 {
+    "epoch": 3.0,
+    "eval_loss": 1.3005212545394897,
+    "eval_runtime": 168.9513,
     "eval_samples": 14605,
+    "eval_samples_per_second": 86.445,
+    "eval_steps_per_second": 10.808,
+    "perplexity": 3.6712098037361005,
+    "train_loss": 1.35220570928797,
+    "train_runtime": 32542.0864,
     "train_samples": 272217,
+    "train_samples_per_second": 25.095,
+    "train_steps_per_second": 3.137
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 1.3278663158416748,
-    "eval_runtime": 170.2878,
     "eval_samples": 14605,
-    "eval_samples_per_second": 85.767,
-    "eval_steps_per_second": 10.723,
-    "perplexity": 3.772984435877001
 }

 {
+    "epoch": 3.0,
+    "eval_loss": 1.3005212545394897,
+    "eval_runtime": 168.9513,
     "eval_samples": 14605,
+    "eval_samples_per_second": 86.445,
+    "eval_steps_per_second": 10.808,
+    "perplexity": 3.6712098037361005
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8de0f4ad2b8d82d79a0e3e3c2e024d030152204c35a51c29e79016a48349585b
 size 438141995

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce02810425330e4b0a62825f9aa6bb5dfd3394c5a5ae82a04b7169a7bdb17e60
 size 438141995

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 1.4148471605151356,
-    "train_runtime": 9789.6511,
     "train_samples": 272217,
-    "train_samples_per_second": 27.807,
-    "train_steps_per_second": 3.476
 }

 {
+    "epoch": 3.0,
+    "train_loss": 1.35220570928797,
+    "train_runtime": 32542.0864,
     "train_samples": 272217,
+    "train_samples_per_second": 25.095,
+    "train_steps_per_second": 3.137
 }

trainer_state.json CHANGED Viewed

@@ -1,433 +1,305 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "global_step": 34028,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 2.46e-06,
-      "loss": 1.4943,
-      "step": 500
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 4.96e-06,
-      "loss": 1.4172,
-      "step": 1000
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 7.4600000000000006e-06,
-      "loss": 1.3694,
-      "step": 1500
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 9.96e-06,
-      "loss": 1.3653,
-      "step": 2000
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 1.2460000000000001e-05,
-      "loss": 1.3572,
-      "step": 2500
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 1.4960000000000002e-05,
-      "loss": 1.3499,
-      "step": 3000
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 1.7460000000000002e-05,
-      "loss": 1.347,
-      "step": 3500
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 1.9960000000000002e-05,
-      "loss": 1.3345,
-      "step": 4000
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 2.2460000000000002e-05,
-      "loss": 1.3558,
-      "step": 4500
-    },
     {
       "epoch": 0.15,
       "learning_rate": 2.496e-05,
-      "loss": 1.3837,
       "step": 5000
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 2.746e-05,
-      "loss": 1.3784,
-      "step": 5500
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 2.9959999999999998e-05,
-      "loss": 1.3708,
-      "step": 6000
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 3.2460000000000004e-05,
-      "loss": 1.3762,
-      "step": 6500
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 3.4960000000000004e-05,
-      "loss": 1.3771,
-      "step": 7000
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 3.7460000000000004e-05,
-      "loss": 1.391,
-      "step": 7500
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 3.9960000000000004e-05,
-      "loss": 1.3875,
-      "step": 8000
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 4.246e-05,
-      "loss": 1.3885,
-      "step": 8500
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 4.496e-05,
-      "loss": 1.4058,
-      "step": 9000
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 4.746e-05,
-      "loss": 1.4011,
-      "step": 9500
     },
     {
       "epoch": 0.29,
-      "learning_rate": 4.996e-05,
-      "loss": 1.4199,
       "step": 10000
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 4.897619443982021e-05,
-      "loss": 1.427,
-      "step": 10500
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 4.793782254036957e-05,
-      "loss": 1.4302,
-      "step": 11000
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 4.689736973530881e-05,
-      "loss": 1.4189,
-      "step": 11500
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 4.585899783585817e-05,
-      "loss": 1.4264,
-      "step": 12000
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 4.482062593640753e-05,
-      "loss": 1.4302,
-      "step": 12500
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 4.378017313134676e-05,
-      "loss": 1.4285,
-      "step": 13000
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 4.2739720326286004e-05,
-      "loss": 1.4212,
-      "step": 13500
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 4.169926752122524e-05,
-      "loss": 1.4084,
-      "step": 14000
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 4.0662976527384723e-05,
-      "loss": 1.4326,
-      "step": 14500
     },
     {
       "epoch": 0.44,
-      "learning_rate": 3.962252372232396e-05,
-      "loss": 1.4097,
       "step": 15000
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 3.8582070917263196e-05,
-      "loss": 1.4176,
-      "step": 15500
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 3.754161811220243e-05,
-      "loss": 1.5707,
-      "step": 16000
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 3.650324621275179e-05,
-      "loss": 2.1501,
-      "step": 16500
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 3.546279340769103e-05,
-      "loss": 1.8142,
-      "step": 17000
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 3.4422340602630264e-05,
-      "loss": 1.744,
-      "step": 17500
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 3.338188779756951e-05,
-      "loss": 1.6689,
-      "step": 18000
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 3.234143499250874e-05,
-      "loss": 1.5661,
-      "step": 18500
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 3.130098218744798e-05,
-      "loss": 1.4991,
-      "step": 19000
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 3.0260529382387215e-05,
-      "loss": 1.4968,
-      "step": 19500
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 2.9220076577326455e-05,
-      "loss": 1.4586,
-      "step": 20000
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 2.817962377226569e-05,
-      "loss": 1.4327,
-      "step": 20500
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 2.713917096720493e-05,
-      "loss": 1.4172,
-      "step": 21000
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 2.6098718162144163e-05,
-      "loss": 1.4046,
-      "step": 21500
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 2.5058265357083406e-05,
-      "loss": 1.3867,
-      "step": 22000
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 2.4017812552022643e-05,
-      "loss": 1.3841,
-      "step": 22500
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 2.297735974696188e-05,
-      "loss": 1.4225,
-      "step": 23000
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 2.1936906941901118e-05,
-      "loss": 1.3852,
-      "step": 23500
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 2.0896454136840354e-05,
-      "loss": 1.3934,
-      "step": 24000
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 1.985600133177959e-05,
-      "loss": 1.3885,
-      "step": 24500
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 1.881554852671883e-05,
-      "loss": 1.3587,
-      "step": 25000
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 1.7775095721658066e-05,
-      "loss": 1.3546,
-      "step": 25500
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 1.6734642916597302e-05,
-      "loss": 1.3435,
-      "step": 26000
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 1.5694190111536542e-05,
-      "loss": 1.3399,
-      "step": 26500
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 1.4657899117696022e-05,
-      "loss": 1.3495,
-      "step": 27000
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 1.361744631263526e-05,
-      "loss": 1.3294,
-      "step": 27500
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 1.2576993507574498e-05,
-      "loss": 1.3455,
-      "step": 28000
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 1.1536540702513734e-05,
-      "loss": 1.3348,
-      "step": 28500
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 1.0496087897452972e-05,
-      "loss": 1.3474,
-      "step": 29000
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 9.45563509239221e-06,
-      "loss": 1.3358,
-      "step": 29500
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 8.415182287331448e-06,
-      "loss": 1.3323,
-      "step": 30000
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 7.3747294822706845e-06,
-      "loss": 1.3319,
-      "step": 30500
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 6.336357582820044e-06,
-      "loss": 1.3203,
-      "step": 31000
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 5.297985683369403e-06,
-      "loss": 1.3158,
-      "step": 31500
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 4.259613783918762e-06,
-      "loss": 1.3217,
-      "step": 32000
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 3.219160978857999e-06,
-      "loss": 1.3124,
-      "step": 32500
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 2.1787081737972366e-06,
-      "loss": 1.3074,
-      "step": 33000
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 1.1382553687364742e-06,
-      "loss": 1.3234,
-      "step": 33500
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 9.780256367571167e-08,
-      "loss": 1.3078,
-      "step": 34000
     },
     {
-      "epoch": 1.0,
-      "step": 34028,
-      "total_flos": 3.4984777600575e+16,
-      "train_loss": 1.4148471605151356,
-      "train_runtime": 9789.6511,
-      "train_samples_per_second": 27.807,
-      "train_steps_per_second": 3.476
     }
   ],
-  "max_steps": 34028,
-  "num_train_epochs": 1,
-  "total_flos": 3.4984777600575e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.3029065132141113,
+  "best_model_checkpoint": "/content/pubmedbert-abstract-cord19/checkpoint-100000",
+  "epoch": 3.0,
+  "global_step": 102084,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.15,
       "learning_rate": 2.496e-05,
+      "loss": 1.3774,
       "step": 5000
     },
     {
+      "epoch": 0.15,
+      "eval_loss": 1.3211560249328613,
+      "eval_runtime": 169.3169,
+      "eval_samples_per_second": 86.258,
+      "eval_steps_per_second": 10.785,
+      "step": 5000
     },
     {
       "epoch": 0.29,
+      "learning_rate": 4.9945000000000004e-05,
+      "loss": 1.3937,
       "step": 10000
     },
     {
+      "epoch": 0.29,
+      "eval_loss": 1.4059454202651978,
+      "eval_runtime": 169.3069,
+      "eval_samples_per_second": 86.263,
+      "eval_steps_per_second": 10.785,
+      "step": 10000
     },
     {
       "epoch": 0.44,
+      "learning_rate": 4.7291603318709e-05,
+      "loss": 1.6812,
       "step": 15000
     },
     {
+      "epoch": 0.44,
+      "eval_loss": 1.6174367666244507,
+      "eval_runtime": 168.9751,
+      "eval_samples_per_second": 86.433,
+      "eval_steps_per_second": 10.806,
+      "step": 15000
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 4.457723382998132e-05,
+      "loss": 1.4712,
+      "step": 20000
     },
     {
+      "epoch": 0.59,
+      "eval_loss": 1.4382678270339966,
+      "eval_runtime": 168.9508,
+      "eval_samples_per_second": 86.445,
+      "eval_steps_per_second": 10.808,
+      "step": 20000
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 4.186340732374788e-05,
+      "loss": 1.4293,
+      "step": 25000
     },
     {
+      "epoch": 0.73,
+      "eval_loss": 1.4356446266174316,
+      "eval_runtime": 168.8828,
+      "eval_samples_per_second": 86.48,
+      "eval_steps_per_second": 10.812,
+      "step": 25000
     },
     {
+      "epoch": 0.88,
+      "learning_rate": 3.914849485252596e-05,
+      "loss": 1.4155,
+      "step": 30000
     },
     {
+      "epoch": 0.88,
+      "eval_loss": 1.4283361434936523,
+      "eval_runtime": 169.0831,
+      "eval_samples_per_second": 86.378,
+      "eval_steps_per_second": 10.799,
+      "step": 30000
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 3.6435754311281005e-05,
+      "loss": 1.3963,
+      "step": 35000
     },
     {
+      "epoch": 1.03,
+      "eval_loss": 1.4134665727615356,
+      "eval_runtime": 169.088,
+      "eval_samples_per_second": 86.375,
+      "eval_steps_per_second": 10.799,
+      "step": 35000
     },
     {
+      "epoch": 1.18,
+      "learning_rate": 3.372138482255332e-05,
+      "loss": 1.3718,
+      "step": 40000
     },
     {
+      "epoch": 1.18,
+      "eval_loss": 1.3948187828063965,
+      "eval_runtime": 169.0271,
+      "eval_samples_per_second": 86.406,
+      "eval_steps_per_second": 10.803,
+      "step": 40000
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 3.1006472351331396e-05,
+      "loss": 1.369,
+      "step": 45000
     },
     {
+      "epoch": 1.32,
+      "eval_loss": 1.3961154222488403,
+      "eval_runtime": 169.0308,
+      "eval_samples_per_second": 86.404,
+      "eval_steps_per_second": 10.803,
+      "step": 45000
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 2.8292645845097955e-05,
+      "loss": 1.354,
+      "step": 50000
     },
     {
+      "epoch": 1.47,
+      "eval_loss": 1.378829836845398,
+      "eval_runtime": 169.1643,
+      "eval_samples_per_second": 86.336,
+      "eval_steps_per_second": 10.794,
+      "step": 50000
     },
     {
+      "epoch": 1.62,
+      "learning_rate": 2.5579362321358764e-05,
+      "loss": 1.3399,
+      "step": 55000
     },
     {
+      "epoch": 1.62,
+      "eval_loss": 1.3865987062454224,
+      "eval_runtime": 169.0688,
+      "eval_samples_per_second": 86.385,
+      "eval_steps_per_second": 10.8,
+      "step": 55000
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 2.2866078797619567e-05,
+      "loss": 1.3289,
+      "step": 60000
     },
     {
+      "epoch": 1.76,
+      "eval_loss": 1.362976312637329,
+      "eval_runtime": 169.1136,
+      "eval_samples_per_second": 86.362,
+      "eval_steps_per_second": 10.797,
+      "step": 60000
     },
     {
+      "epoch": 1.91,
+      "learning_rate": 2.0151709308891882e-05,
+      "loss": 1.3155,
+      "step": 65000
     },
     {
+      "epoch": 1.91,
+      "eval_loss": 1.3609150648117065,
+      "eval_runtime": 169.0556,
+      "eval_samples_per_second": 86.392,
+      "eval_steps_per_second": 10.801,
+      "step": 65000
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 1.743788280265844e-05,
+      "loss": 1.2976,
+      "step": 70000
     },
     {
+      "epoch": 2.06,
+      "eval_loss": 1.3489034175872803,
+      "eval_runtime": 169.1114,
+      "eval_samples_per_second": 86.363,
+      "eval_steps_per_second": 10.798,
+      "step": 70000
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 1.4724599278919249e-05,
+      "loss": 1.2783,
+      "step": 75000
     },
     {
+      "epoch": 2.2,
+      "eval_loss": 1.3333380222320557,
+      "eval_runtime": 169.0576,
+      "eval_samples_per_second": 86.391,
+      "eval_steps_per_second": 10.801,
+      "step": 75000
     },
     {
+      "epoch": 2.35,
+      "learning_rate": 1.2009686807697321e-05,
+      "loss": 1.2696,
+      "step": 80000
     },
     {
+      "epoch": 2.35,
+      "eval_loss": 1.3259785175323486,
+      "eval_runtime": 168.9798,
+      "eval_samples_per_second": 86.43,
+      "eval_steps_per_second": 10.806,
+      "step": 80000
     },
     {
+      "epoch": 2.5,
+      "learning_rate": 9.29586030146388e-06,
+      "loss": 1.2607,
+      "step": 85000
     },
     {
+      "epoch": 2.5,
+      "eval_loss": 1.3232313394546509,
+      "eval_runtime": 168.7484,
+      "eval_samples_per_second": 86.549,
+      "eval_steps_per_second": 10.821,
+      "step": 85000
     },
     {
+      "epoch": 2.64,
+      "learning_rate": 6.582033795230443e-06,
+      "loss": 1.2547,
+      "step": 90000
     },
     {
+      "epoch": 2.64,
+      "eval_loss": 1.3033902645111084,
+      "eval_runtime": 168.7446,
+      "eval_samples_per_second": 86.551,
+      "eval_steps_per_second": 10.821,
+      "step": 90000
     },
     {
+      "epoch": 2.79,
+      "learning_rate": 3.867664306502758e-06,
+      "loss": 1.2495,
+      "step": 95000
     },
     {
+      "epoch": 2.79,
+      "eval_loss": 1.3035175800323486,
+      "eval_runtime": 168.7573,
+      "eval_samples_per_second": 86.544,
+      "eval_steps_per_second": 10.82,
+      "step": 95000
     },
     {
+      "epoch": 2.94,
+      "learning_rate": 1.1538378002693194e-06,
+      "loss": 1.2404,
+      "step": 100000
     },
     {
+      "epoch": 2.94,
+      "eval_loss": 1.3029065132141113,
+      "eval_runtime": 168.8016,
+      "eval_samples_per_second": 86.522,
+      "eval_steps_per_second": 10.817,
+      "step": 100000
     },
     {
+      "epoch": 3.0,
+      "step": 102084,
+      "total_flos": 1.04954332801725e+17,
+      "train_loss": 1.35220570928797,
+      "train_runtime": 32542.0864,
+      "train_samples_per_second": 25.095,
+      "train_steps_per_second": 3.137
     }
   ],
+  "max_steps": 102084,
+  "num_train_epochs": 3,
+  "total_flos": 1.04954332801725e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9540fa7f3fcb1a3c3b8bf3110f690d8b114909915991500a100ecd4931cb6dd5
 size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2b18b7fbbb222cc58a7279e9f20f061015602730e5f2e94504e9367dc4156be
 size 3055