Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +4 -4
checkpoint-130/model.safetensors +1 -1
checkpoint-130/optimizer.pt +1 -1
checkpoint-130/trainer_state.json +35 -35
checkpoint-195/model.safetensors +1 -1
checkpoint-195/optimizer.pt +1 -1
checkpoint-195/trainer_state.json +49 -49
model.safetensors +1 -1
pytorch_model.bin +1 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0067
 ## Model description
@@ -47,9 +47,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.1142        | 1.0   | 65   | 0.0378          |
-| 0.0136        | 2.0   | 130  | 0.0085          |
-| 0.0112        | 3.0   | 195  | 0.0067          |
 ### Framework versions

 This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0070
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.1202        | 1.0   | 65   | 0.0436          |
+| 0.0148        | 2.0   | 130  | 0.0088          |
+| 0.011         | 3.0   | 195  | 0.0070          |
 ### Framework versions

checkpoint-130/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41179063387536d50edb87d73a7a8e3e17ab0178c6928a137b1cc12b48169fd2
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:27861ce206204eaba3e064bc1234915aa98cf2923b75a7cba38c64f75460a81f
 size 265491420

checkpoint-130/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f751b1c6ca73faa11fb8d4501feb09b4dbf8ad477891bc64f993f267bb8c3e9b
 size 531042682

 version https://git-lfs.github.com/spec/v1
+oid sha256:360b3ecc74ac89b61b1dbe47fd7e72dc35849c97292bb0c75f39106bf526ef29
 size 531042682

checkpoint-130/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 130,
-  "best_metric": 0.00848204642534256,
   "best_model_checkpoint": "./multitask_model/checkpoint-130",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -11,109 +11,109 @@
   "log_history": [
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 8.5421142578125,
       "learning_rate": 1.907692307692308e-05,
-      "loss": 2.3934,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
-      "grad_norm": 7.595258712768555,
       "learning_rate": 1.8051282051282053e-05,
-      "loss": 1.8013,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
-      "grad_norm": 6.965435028076172,
       "learning_rate": 1.7025641025641026e-05,
-      "loss": 1.1059,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
-      "grad_norm": 4.976907730102539,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.5064,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 2.873666286468506,
       "learning_rate": 1.4974358974358976e-05,
-      "loss": 0.2466,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
-      "grad_norm": 1.5674619674682617,
       "learning_rate": 1.3948717948717949e-05,
-      "loss": 0.1142,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.037802498787641525,
-      "eval_runtime": 28.1554,
-      "eval_samples_per_second": 4.582,
-      "eval_steps_per_second": 0.604,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
-      "grad_norm": 0.6672631502151489,
       "learning_rate": 1.2923076923076925e-05,
-      "loss": 0.0621,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
-      "grad_norm": 0.35425031185150146,
       "learning_rate": 1.1897435897435898e-05,
-      "loss": 0.0367,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
-      "grad_norm": 0.26084840297698975,
       "learning_rate": 1.0871794871794871e-05,
-      "loss": 0.0251,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 0.1835661381483078,
       "learning_rate": 9.846153846153848e-06,
-      "loss": 0.0874,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
-      "grad_norm": 0.19026648998260498,
       "learning_rate": 8.820512820512821e-06,
-      "loss": 0.0171,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
-      "grad_norm": 0.23326274752616882,
       "learning_rate": 7.794871794871796e-06,
-      "loss": 0.0151,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.18477407097816467,
       "learning_rate": 6.76923076923077e-06,
-      "loss": 0.0136,
       "step": 130
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.00848204642534256,
-      "eval_runtime": 28.1768,
-      "eval_samples_per_second": 4.578,
-      "eval_steps_per_second": 0.603,
       "step": 130
     }
   ],

 {
   "best_global_step": 130,
+  "best_metric": 0.008769548498094082,
   "best_model_checkpoint": "./multitask_model/checkpoint-130",
   "epoch": 2.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 8.848017692565918,
       "learning_rate": 1.907692307692308e-05,
+      "loss": 2.3929,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
+      "grad_norm": 6.566382884979248,
       "learning_rate": 1.8051282051282053e-05,
+      "loss": 1.8245,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
+      "grad_norm": 6.213647365570068,
       "learning_rate": 1.7025641025641026e-05,
+      "loss": 1.153,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
+      "grad_norm": 4.559297561645508,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.5311,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 3.087829828262329,
       "learning_rate": 1.4974358974358976e-05,
+      "loss": 0.2819,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
+      "grad_norm": 1.9372252225875854,
       "learning_rate": 1.3948717948717949e-05,
+      "loss": 0.1202,
       "step": 60
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.04360657185316086,
+      "eval_runtime": 27.4875,
+      "eval_samples_per_second": 4.693,
+      "eval_steps_per_second": 0.618,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
+      "grad_norm": 1.4653043746948242,
       "learning_rate": 1.2923076923076925e-05,
+      "loss": 0.069,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
+      "grad_norm": 0.5297175049781799,
       "learning_rate": 1.1897435897435898e-05,
+      "loss": 0.0403,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
+      "grad_norm": 0.3341902196407318,
       "learning_rate": 1.0871794871794871e-05,
+      "loss": 0.0274,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 0.22006157040596008,
       "learning_rate": 9.846153846153848e-06,
+      "loss": 0.0887,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
+      "grad_norm": 0.24235276877880096,
       "learning_rate": 8.820512820512821e-06,
+      "loss": 0.0187,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
+      "grad_norm": 0.19090554118156433,
       "learning_rate": 7.794871794871796e-06,
+      "loss": 0.0153,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.24662891030311584,
       "learning_rate": 6.76923076923077e-06,
+      "loss": 0.0148,
       "step": 130
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.008769548498094082,
+      "eval_runtime": 29.1744,
+      "eval_samples_per_second": 4.422,
+      "eval_steps_per_second": 0.583,
       "step": 130
     }
   ],

checkpoint-195/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78d96cb9d2591450e563169c41caf67ee99edbf505fd55501b48553893451855
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:467fe70f53d9c1de6ce1b477b9256bd448dc5808b44f6e0de868d8191a929768
 size 265491420

checkpoint-195/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fff7650b7a1c4345087acb8b65ff2fa80bc0c7af06e48dbca8bfb799d2170d26
 size 531042682

 version https://git-lfs.github.com/spec/v1
+oid sha256:5726bd848ac9e051330bcf9acbd3677b8e2242d416a21e08899de8c22110c311
 size 531042682

checkpoint-195/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 195,
-  "best_metric": 0.006701565347611904,
   "best_model_checkpoint": "./multitask_model/checkpoint-195",
   "epoch": 3.0,
   "eval_steps": 500,
@@ -11,159 +11,159 @@
   "log_history": [
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 8.5421142578125,
       "learning_rate": 1.907692307692308e-05,
-      "loss": 2.3934,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
-      "grad_norm": 7.595258712768555,
       "learning_rate": 1.8051282051282053e-05,
-      "loss": 1.8013,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
-      "grad_norm": 6.965435028076172,
       "learning_rate": 1.7025641025641026e-05,
-      "loss": 1.1059,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
-      "grad_norm": 4.976907730102539,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.5064,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 2.873666286468506,
       "learning_rate": 1.4974358974358976e-05,
-      "loss": 0.2466,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
-      "grad_norm": 1.5674619674682617,
       "learning_rate": 1.3948717948717949e-05,
-      "loss": 0.1142,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.037802498787641525,
-      "eval_runtime": 28.1554,
-      "eval_samples_per_second": 4.582,
-      "eval_steps_per_second": 0.604,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
-      "grad_norm": 0.6672631502151489,
       "learning_rate": 1.2923076923076925e-05,
-      "loss": 0.0621,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
-      "grad_norm": 0.35425031185150146,
       "learning_rate": 1.1897435897435898e-05,
-      "loss": 0.0367,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
-      "grad_norm": 0.26084840297698975,
       "learning_rate": 1.0871794871794871e-05,
-      "loss": 0.0251,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 0.1835661381483078,
       "learning_rate": 9.846153846153848e-06,
-      "loss": 0.0874,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
-      "grad_norm": 0.19026648998260498,
       "learning_rate": 8.820512820512821e-06,
-      "loss": 0.0171,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
-      "grad_norm": 0.23326274752616882,
       "learning_rate": 7.794871794871796e-06,
-      "loss": 0.0151,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.18477407097816467,
       "learning_rate": 6.76923076923077e-06,
-      "loss": 0.0136,
       "step": 130
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.00848204642534256,
-      "eval_runtime": 28.1768,
-      "eval_samples_per_second": 4.578,
-      "eval_steps_per_second": 0.603,
       "step": 130
     },
     {
       "epoch": 2.1538461538461537,
-      "grad_norm": 0.18010590970516205,
       "learning_rate": 5.743589743589743e-06,
-      "loss": 0.0132,
       "step": 140
     },
     {
       "epoch": 2.3076923076923075,
-      "grad_norm": 0.20541535317897797,
       "learning_rate": 4.717948717948718e-06,
       "loss": 0.0127,
       "step": 150
     },
     {
       "epoch": 2.4615384615384617,
-      "grad_norm": 0.15995213389396667,
       "learning_rate": 3.692307692307693e-06,
       "loss": 0.0121,
       "step": 160
     },
     {
       "epoch": 2.6153846153846154,
-      "grad_norm": 0.12473954260349274,
       "learning_rate": 2.666666666666667e-06,
-      "loss": 0.0113,
       "step": 170
     },
     {
       "epoch": 2.769230769230769,
-      "grad_norm": 0.14388339221477509,
       "learning_rate": 1.6410256410256412e-06,
-      "loss": 0.0117,
       "step": 180
     },
     {
       "epoch": 2.9230769230769234,
-      "grad_norm": 0.12231703847646713,
       "learning_rate": 6.153846153846155e-07,
-      "loss": 0.0112,
       "step": 190
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.006701565347611904,
-      "eval_runtime": 27.6525,
-      "eval_samples_per_second": 4.665,
-      "eval_steps_per_second": 0.615,
       "step": 195
     }
   ],

 {
   "best_global_step": 195,
+  "best_metric": 0.006962933111935854,
   "best_model_checkpoint": "./multitask_model/checkpoint-195",
   "epoch": 3.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 8.848017692565918,
       "learning_rate": 1.907692307692308e-05,
+      "loss": 2.3929,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
+      "grad_norm": 6.566382884979248,
       "learning_rate": 1.8051282051282053e-05,
+      "loss": 1.8245,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
+      "grad_norm": 6.213647365570068,
       "learning_rate": 1.7025641025641026e-05,
+      "loss": 1.153,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
+      "grad_norm": 4.559297561645508,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.5311,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 3.087829828262329,
       "learning_rate": 1.4974358974358976e-05,
+      "loss": 0.2819,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
+      "grad_norm": 1.9372252225875854,
       "learning_rate": 1.3948717948717949e-05,
+      "loss": 0.1202,
       "step": 60
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.04360657185316086,
+      "eval_runtime": 27.4875,
+      "eval_samples_per_second": 4.693,
+      "eval_steps_per_second": 0.618,
       "step": 65
     },
     {
       "epoch": 1.0769230769230769,
+      "grad_norm": 1.4653043746948242,
       "learning_rate": 1.2923076923076925e-05,
+      "loss": 0.069,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
+      "grad_norm": 0.5297175049781799,
       "learning_rate": 1.1897435897435898e-05,
+      "loss": 0.0403,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
+      "grad_norm": 0.3341902196407318,
       "learning_rate": 1.0871794871794871e-05,
+      "loss": 0.0274,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 0.22006157040596008,
       "learning_rate": 9.846153846153848e-06,
+      "loss": 0.0887,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
+      "grad_norm": 0.24235276877880096,
       "learning_rate": 8.820512820512821e-06,
+      "loss": 0.0187,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
+      "grad_norm": 0.19090554118156433,
       "learning_rate": 7.794871794871796e-06,
+      "loss": 0.0153,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.24662891030311584,
       "learning_rate": 6.76923076923077e-06,
+      "loss": 0.0148,
       "step": 130
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.008769548498094082,
+      "eval_runtime": 29.1744,
+      "eval_samples_per_second": 4.422,
+      "eval_steps_per_second": 0.583,
       "step": 130
     },
     {
       "epoch": 2.1538461538461537,
+      "grad_norm": 0.18622471392154694,
       "learning_rate": 5.743589743589743e-06,
+      "loss": 0.0133,
       "step": 140
     },
     {
       "epoch": 2.3076923076923075,
+      "grad_norm": 0.13862484693527222,
       "learning_rate": 4.717948717948718e-06,
       "loss": 0.0127,
       "step": 150
     },
     {
       "epoch": 2.4615384615384617,
+      "grad_norm": 0.13039974868297577,
       "learning_rate": 3.692307692307693e-06,
       "loss": 0.0121,
       "step": 160
     },
     {
       "epoch": 2.6153846153846154,
+      "grad_norm": 0.12112937867641449,
       "learning_rate": 2.666666666666667e-06,
+      "loss": 0.0117,
       "step": 170
     },
     {
       "epoch": 2.769230769230769,
+      "grad_norm": 0.14916230738162994,
       "learning_rate": 1.6410256410256412e-06,
+      "loss": 0.012,
       "step": 180
     },
     {
       "epoch": 2.9230769230769234,
+      "grad_norm": 0.1365734338760376,
       "learning_rate": 6.153846153846155e-07,
+      "loss": 0.011,
       "step": 190
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.006962933111935854,
+      "eval_runtime": 27.4605,
+      "eval_samples_per_second": 4.698,
+      "eval_steps_per_second": 0.619,
       "step": 195
     }
   ],

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78d96cb9d2591450e563169c41caf67ee99edbf505fd55501b48553893451855
 size 265491420

 version https://git-lfs.github.com/spec/v1
+oid sha256:467fe70f53d9c1de6ce1b477b9256bd448dc5808b44f6e0de868d8191a929768
 size 265491420

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4628c062b8c76b1cad90b1fe27c66ca7c2601c9f18c0aa5b426dce034d778243
 size 265519274

 version https://git-lfs.github.com/spec/v1
+oid sha256:42fd68e28d72f8c64407387bf9a4a3618147720c354a88928db89f6c051081ef
 size 265519274