End of training

Browse files

Files changed (8) hide show

README.md +52 -52
config.json +2 -2
model.safetensors +2 -2
runs/Feb28_17-27-44_3897ec21fae5/events.out.tfevents.1709141265.3897ec21fae5.75144.2 +2 -2
runs/Feb28_17-51-03_3897ec21fae5/events.out.tfevents.1709142663.3897ec21fae5.81816.0 +3 -0
runs/Feb28_18-13-19_3897ec21fae5/events.out.tfevents.1709144000.3897ec21fae5.81816.1 +3 -0
tokenizer.json +72 -179
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0408
 ## Model description
@@ -32,7 +32,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.001
 - train_batch_size: 512
 - eval_batch_size: 512
 - seed: 42
@@ -44,56 +44,56 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 3.1232        | 1.0   | 5    | 2.3752          |
-| 2.1776        | 2.0   | 10   | 1.8879          |
-| 1.7349        | 3.0   | 15   | 1.4779          |
-| 1.3722        | 4.0   | 20   | 1.2288          |
-| 1.1464        | 5.0   | 25   | 1.0354          |
-| 0.995         | 6.0   | 30   | 0.9079          |
-| 0.8838        | 7.0   | 35   | 0.8040          |
-| 0.7827        | 8.0   | 40   | 0.7075          |
-| 0.7079        | 9.0   | 45   | 0.6453          |
-| 0.6523        | 10.0  | 50   | 0.5931          |
-| 0.6042        | 11.0  | 55   | 0.5485          |
-| 0.5548        | 12.0  | 60   | 0.5170          |
-| 0.5339        | 13.0  | 65   | 0.5695          |
-| 0.5492        | 14.0  | 70   | 0.4823          |
-| 0.4951        | 15.0  | 75   | 0.4626          |
-| 0.464         | 16.0  | 80   | 0.4308          |
-| 0.4377        | 17.0  | 85   | 0.3924          |
-| 0.4059        | 18.0  | 90   | 0.3690          |
-| 0.3782        | 19.0  | 95   | 0.3322          |
-| 0.3458        | 20.0  | 100  | 0.3135          |
-| 0.3307        | 21.0  | 105  | 0.2936          |
-| 0.2999        | 22.0  | 110  | 0.2577          |
-| 0.2739        | 23.0  | 115  | 0.2444          |
-| 0.2461        | 24.0  | 120  | 0.2236          |
-| 0.2264        | 25.0  | 125  | 0.1957          |
-| 0.2046        | 26.0  | 130  | 0.1637          |
-| 0.1819        | 27.0  | 135  | 0.1415          |
-| 0.16          | 28.0  | 140  | 0.1238          |
-| 0.1454        | 29.0  | 145  | 0.1092          |
-| 0.1297        | 30.0  | 150  | 0.0997          |
-| 0.1188        | 31.0  | 155  | 0.0876          |
-| 0.1105        | 32.0  | 160  | 0.0897          |
-| 0.1033        | 33.0  | 165  | 0.0779          |
-| 0.0941        | 34.0  | 170  | 0.0702          |
-| 0.0897        | 35.0  | 175  | 0.0656          |
-| 0.085         | 36.0  | 180  | 0.0634          |
-| 0.0796        | 37.0  | 185  | 0.0596          |
-| 0.0768        | 38.0  | 190  | 0.0560          |
-| 0.0728        | 39.0  | 195  | 0.0556          |
-| 0.0702        | 40.0  | 200  | 0.0516          |
-| 0.0662        | 41.0  | 205  | 0.0493          |
-| 0.063         | 42.0  | 210  | 0.0472          |
-| 0.0613        | 43.0  | 215  | 0.0459          |
-| 0.0617        | 44.0  | 220  | 0.0449          |
-| 0.0579        | 45.0  | 225  | 0.0425          |
-| 0.0556        | 46.0  | 230  | 0.0428          |
-| 0.0555        | 47.0  | 235  | 0.0413          |
-| 0.0536        | 48.0  | 240  | 0.0409          |
-| 0.053         | 49.0  | 245  | 0.0409          |
-| 0.0532        | 50.0  | 250  | 0.0408          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0813
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0001
 - train_batch_size: 512
 - eval_batch_size: 512
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 3.8078        | 1.0   | 6    | 3.6115          |
+| 3.5402        | 2.0   | 12   | 3.4403          |
+| 3.3905        | 3.0   | 18   | 3.3023          |
+| 3.2601        | 4.0   | 24   | 3.1757          |
+| 3.1298        | 5.0   | 30   | 3.0465          |
+| 2.9919        | 6.0   | 36   | 2.9159          |
+| 2.8647        | 7.0   | 42   | 2.7868          |
+| 2.7503        | 8.0   | 48   | 2.6616          |
+| 2.6207        | 9.0   | 54   | 2.5386          |
+| 2.4973        | 10.0  | 60   | 2.4256          |
+| 2.3944        | 11.0  | 66   | 2.3203          |
+| 2.2924        | 12.0  | 72   | 2.2263          |
+| 2.2061        | 13.0  | 78   | 2.1487          |
+| 2.117         | 14.0  | 84   | 2.0624          |
+| 2.044         | 15.0  | 90   | 1.9910          |
+| 1.9718        | 16.0  | 96   | 1.9239          |
+| 1.9093        | 17.0  | 102  | 1.8786          |
+| 1.8542        | 18.0  | 108  | 1.8129          |
+| 1.8085        | 19.0  | 114  | 1.7692          |
+| 1.7653        | 20.0  | 120  | 1.7316          |
+| 1.7103        | 21.0  | 126  | 1.6790          |
+| 1.6757        | 22.0  | 132  | 1.6199          |
+| 1.6089        | 23.0  | 138  | 1.5592          |
+| 1.5391        | 24.0  | 144  | 1.5067          |
+| 1.4987        | 25.0  | 150  | 1.4640          |
+| 1.4535        | 26.0  | 156  | 1.4296          |
+| 1.4285        | 27.0  | 162  | 1.3858          |
+| 1.3828        | 28.0  | 168  | 1.3493          |
+| 1.3468        | 29.0  | 174  | 1.3184          |
+| 1.3265        | 30.0  | 180  | 1.2910          |
+| 1.2953        | 31.0  | 186  | 1.2636          |
+| 1.2804        | 32.0  | 192  | 1.2402          |
+| 1.2522        | 33.0  | 198  | 1.2223          |
+| 1.2375        | 34.0  | 204  | 1.2094          |
+| 1.219         | 35.0  | 210  | 1.1914          |
+| 1.2133        | 36.0  | 216  | 1.1762          |
+| 1.19          | 37.0  | 222  | 1.1606          |
+| 1.1839        | 38.0  | 228  | 1.1532          |
+| 1.1737        | 39.0  | 234  | 1.1380          |
+| 1.1635        | 40.0  | 240  | 1.1267          |
+| 1.1496        | 41.0  | 246  | 1.1219          |
+| 1.1514        | 42.0  | 252  | 1.1104          |
+| 1.1285        | 43.0  | 258  | 1.1056          |
+| 1.1367        | 44.0  | 264  | 1.0976          |
+| 1.1232        | 45.0  | 270  | 1.0949          |
+| 1.1185        | 46.0  | 276  | 1.0896          |
+| 1.1155        | 47.0  | 282  | 1.0836          |
+| 1.1053        | 48.0  | 288  | 1.0834          |
+| 1.1071        | 49.0  | 294  | 1.0823          |
+| 1.1132        | 50.0  | 300  | 1.0813          |
 ### Framework versions

config.json CHANGED Viewed

@@ -78,7 +78,7 @@
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
-    "vocab_size": 105
   },
   "decoder_start_token_id": 2,
   "encoder": {
@@ -157,7 +157,7 @@
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
-    "vocab_size": 105
   },
   "eos_token_id": 0,
   "is_encoder_decoder": true,

     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
+    "vocab_size": 52
   },
   "decoder_start_token_id": 2,
   "encoder": {
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
+    "vocab_size": 52
   },
   "eos_token_id": 0,
   "is_encoder_decoder": true,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:745100c3aba7304b571ebece470b3972643f144bcb1fa9d4fc321a438645ffa9
-size 31314308

 version https://git-lfs.github.com/spec/v1
+oid sha256:da4f203a50465bbaf1babcff0cb9459252480321b46aa69609402a6d6f466c22
+size 31205552

runs/Feb28_17-27-44_3897ec21fae5/events.out.tfevents.1709141265.3897ec21fae5.75144.2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64e2a55b6c903519c748e5da9e880db2dd59ab83da49914d3b8a2e29f735125e
-size 23252

 version https://git-lfs.github.com/spec/v1
+oid sha256:17ad020588818cc291fc63c1b1f289c36fadd200cf2b3ec0b9377ba7ee029b94
+size 30026

runs/Feb28_17-51-03_3897ec21fae5/events.out.tfevents.1709142663.3897ec21fae5.81816.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25b8f65db3c899d839e9f3b2588506eab7eba12daa111d59e39fd50fce8e1d22
+size 21928

runs/Feb28_18-13-19_3897ec21fae5/events.out.tfevents.1709144000.3897ec21fae5.81816.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b89e06fd11471306f0f3d62cc64f3f1eaa12eceeff2086ed0623e5f2fc6e7d82
+size 29928

tokenizer.json CHANGED Viewed

@@ -101,198 +101,91 @@
       "[CLS]": 2,
       "[PAD]": 3,
       "+": 4,
-      "0": 5,
-      "1": 6,
-      "2": 7,
-      "3": 8,
-      "4": 9,
-      "5": 10,
-      "6": 11,
-      "7": 12,
-      "8": 13,
-      "9": 14,
-      "50": 15,
-      "93": 16,
-      "11": 17,
-      "60": 18,
-      "19": 19,
-      "21": 20,
-      "33": 21,
-      "36": 22,
-      "66": 23,
-      "88": 24,
-      "12": 25,
-      "17": 26,
-      "81": 27,
-      "90": 28,
       "16": 29,
-      "39": 30,
-      "55": 31,
-      "65": 32,
-      "79": 33,
-      "87": 34,
-      "95": 35,
-      "10": 36,
-      "18": 37,
-      "25": 38,
-      "32": 39,
-      "37": 40,
-      "53": 41,
-      "54": 42,
-      "57": 43,
-      "59": 44,
-      "71": 45,
-      "72": 46,
-      "75": 47,
-      "85": 48,
-      "89": 49,
-      "91": 50,
-      "22": 51,
-      "24": 52,
-      "28": 53,
-      "35": 54,
-      "46": 55,
-      "64": 56,
-      "69": 57,
-      "78": 58,
-      "83": 59,
-      "84": 60,
-      "92": 61,
-      "94": 62,
-      "26": 63,
-      "27": 64,
-      "29": 65,
-      "30": 66,
-      "47": 67,
-      "49": 68,
-      "51": 69,
-      "58": 70,
-      "68": 71,
-      "73": 72,
-      "96": 73,
-      "13": 74,
-      "20": 75,
-      "23": 76,
-      "40": 77,
-      "61": 78,
-      "70": 79,
-      "82": 80,
-      "38": 81,
-      "74": 82,
-      "80": 83,
-      "98": 84,
-      "14": 85,
-      "41": 86,
-      "45": 87,
-      "52": 88,
-      "62": 89,
-      "63": 90,
-      "77": 91,
-      "86": 92,
-      "31": 93,
-      "34": 94,
-      "42": 95,
-      "43": 96,
-      "48": 97,
-      "76": 98,
-      "99": 99,
-      "15": 100,
-      "56": 101,
-      "97": 102,
-      "44": 103,
-      "67": 104
     },
     "merges": [
-      "5 0",
-      "9 3",
       "1 1",
-      "6 0",
-      "1 9",
-      "2 1",
-      "3 3",
-      "3 6",
-      "6 6",
-      "8 8",
       "1 2",
-      "1 7",
-      "8 1",
-      "9 0",
-      "1 6",
-      "3 9",
-      "5 5",
-      "6 5",
-      "7 9",
-      "8 7",
       "9 5",
-      "1 0",
       "1 8",
-      "2 5",
-      "3 2",
-      "3 7",
-      "5 3",
-      "5 4",
-      "5 7",
-      "5 9",
-      "7 1",
-      "7 2",
-      "7 5",
-      "8 5",
-      "8 9",
       "9 1",
       "2 2",
       "2 4",
-      "2 8",
-      "3 5",
-      "4 6",
-      "6 4",
-      "6 9",
-      "7 8",
-      "8 3",
       "8 4",
-      "9 2",
-      "9 4",
       "2 6",
       "2 7",
-      "2 9",
-      "3 0",
-      "4 7",
-      "4 9",
-      "5 1",
-      "5 8",
-      "6 8",
-      "7 3",
-      "9 6",
-      "1 3",
-      "2 0",
-      "2 3",
-      "4 0",
-      "6 1",
-      "7 0",
-      "8 2",
-      "3 8",
-      "7 4",
-      "8 0",
-      "9 8",
-      "1 4",
-      "4 1",
-      "4 5",
-      "5 2",
-      "6 2",
-      "6 3",
-      "7 7",
-      "8 6",
-      "3 1",
-      "3 4",
-      "4 2",
-      "4 3",
-      "4 8",
-      "7 6",
-      "9 9",
-      "1 5",
-      "5 6",
-      "9 7",
-      "4 4",
-      "6 7"
     ]
   }
 }

       "[CLS]": 2,
       "[PAD]": 3,
       "+": 4,
+      "-": 5,
+      "0": 6,
+      "1": 7,
+      "2": 8,
+      "3": 9,
+      "4": 10,
+      "5": 11,
+      "6": 12,
+      "7": 13,
+      "8": 14,
+      "9": 15,
+      "10": 16,
+      "99": 17,
+      "98": 18,
+      "11": 19,
+      "97": 20,
+      "12": 21,
+      "96": 22,
+      "13": 23,
+      "95": 24,
+      "14": 25,
+      "15": 26,
+      "94": 27,
+      "93": 28,
       "16": 29,
+      "17": 30,
+      "92": 31,
+      "18": 32,
+      "91": 33,
+      "90": 34,
+      "19": 35,
+      "20": 36,
+      "89": 37,
+      "21": 38,
+      "88": 39,
+      "87": 40,
+      "22": 41,
+      "23": 42,
+      "86": 43,
+      "85": 44,
+      "24": 45,
+      "25": 46,
+      "84": 47,
+      "83": 48,
+      "26": 49,
+      "27": 50,
+      "82": 51
     },
     "merges": [
+      "1 0",
+      "9 9",
+      "9 8",
       "1 1",
+      "9 7",
       "1 2",
+      "9 6",
+      "1 3",
       "9 5",
+      "1 4",
+      "1 5",
+      "9 4",
+      "9 3",
+      "1 6",
+      "1 7",
+      "9 2",
       "1 8",
       "9 1",
+      "9 0",
+      "1 9",
+      "2 0",
+      "8 9",
+      "2 1",
+      "8 8",
+      "8 7",
       "2 2",
+      "2 3",
+      "8 6",
+      "8 5",
       "2 4",
+      "2 5",
       "8 4",
+      "8 3",
       "2 6",
       "2 7",
+      "8 2"
     ]
   }
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d2815be01cb68f3bfcac2870192039600e01a9bffcea46d39dfbe9c9424bf80
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:d67f255dd0132ad0e26dff40d45f3b9dccbb9a1d04a4e4d270f7a3e6fa02c0ec
 size 4920