End of training

Browse files

Files changed (5) hide show

README.md +46 -44
config.json +1 -0
model.safetensors +1 -1
runs/Mar04_10-02-54_c60a5c456cbd/events.out.tfevents.1709546575.c60a5c456cbd.796.1 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,4 +1,5 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
@@ -11,9 +12,9 @@ should probably proofread and complete it, then remove this comment. -->
 # calculator_model_test
-This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6445
 ## Model description
@@ -33,57 +34,58 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.001
-- train_batch_size: 512
-- eval_batch_size: 512
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 40
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 3.3594        | 1.0   | 6    | 2.6961          |
-| 2.338         | 2.0   | 12   | 1.9172          |
-| 1.7807        | 3.0   | 18   | 1.6504          |
-| 1.6413        | 4.0   | 24   | 1.5772          |
-| 1.5569        | 5.0   | 30   | 1.5075          |
-| 1.5204        | 6.0   | 36   | 1.5027          |
-| 1.4613        | 7.0   | 42   | 1.4240          |
-| 1.4149        | 8.0   | 48   | 1.3841          |
-| 1.4121        | 9.0   | 54   | 1.3384          |
-| 1.3282        | 10.0  | 60   | 1.2658          |
-| 1.3428        | 11.0  | 66   | 1.3187          |
-| 1.2754        | 12.0  | 72   | 1.2000          |
-| 1.2004        | 13.0  | 78   | 1.1383          |
-| 1.1374        | 14.0  | 84   | 1.1283          |
-| 1.1239        | 15.0  | 90   | 1.1534          |
-| 1.1362        | 16.0  | 96   | 1.0378          |
-| 1.0319        | 17.0  | 102  | 1.0088          |
-| 0.9973        | 18.0  | 108  | 0.9690          |
-| 0.9907        | 19.0  | 114  | 0.9688          |
-| 0.9369        | 20.0  | 120  | 0.8948          |
-| 0.9286        | 21.0  | 126  | 0.9302          |
-| 0.9444        | 22.0  | 132  | 1.0039          |
-| 0.9423        | 23.0  | 138  | 0.9451          |
-| 0.8952        | 24.0  | 144  | 0.8408          |
-| 0.8529        | 25.0  | 150  | 0.8326          |
-| 0.8326        | 26.0  | 156  | 0.8112          |
-| 0.8228        | 27.0  | 162  | 0.7828          |
-| 0.7914        | 28.0  | 168  | 0.7701          |
-| 0.7917        | 29.0  | 174  | 0.7489          |
-| 0.7663        | 30.0  | 180  | 0.7327          |
-| 0.7588        | 31.0  | 186  | 0.7069          |
-| 0.7347        | 32.0  | 192  | 0.7117          |
-| 0.7311        | 33.0  | 198  | 0.6902          |
-| 0.7303        | 34.0  | 204  | 0.6899          |
-| 0.7098        | 35.0  | 210  | 0.6822          |
-| 0.7147        | 36.0  | 216  | 0.6766          |
-| 0.7189        | 37.0  | 222  | 0.6559          |
-| 0.6973        | 38.0  | 228  | 0.6488          |
-| 0.6922        | 39.0  | 234  | 0.6454          |
-| 0.6808        | 40.0  | 240  | 0.6445          |
 ### Framework versions

 ---
+base_model: Kielak2/calculator_model_test
 tags:
 - generated_from_trainer
 model-index:
 # calculator_model_test
+This model is a fine-tuned version of [Kielak2/calculator_model_test](https://huggingface.co/Kielak2/calculator_model_test) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1439
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.001
+- train_batch_size: 64
+- eval_batch_size: 64
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 40
+- mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.3404        | 1.0   | 41   | 0.9112          |
+| 1.0195        | 2.0   | 82   | 1.0749          |
+| 0.9524        | 3.0   | 123  | 0.9697          |
+| 0.8765        | 4.0   | 164  | 0.7983          |
+| 0.8274        | 5.0   | 205  | 0.9082          |
+| 0.7727        | 6.0   | 246  | 0.7641          |
+| 1.3801        | 7.0   | 287  | 0.7807          |
+| 0.7733        | 8.0   | 328  | 0.8173          |
+| 0.7062        | 9.0   | 369  | 0.6003          |
+| 0.6671        | 10.0  | 410  | 0.7683          |
+| 0.6935        | 11.0  | 451  | 0.6048          |
+| 0.6598        | 12.0  | 492  | 0.6386          |
+| 0.6553        | 13.0  | 533  | 0.5399          |
+| 0.6033        | 14.0  | 574  | 0.5085          |
+| 0.5972        | 15.0  | 615  | 0.5428          |
+| 0.5928        | 16.0  | 656  | 0.5449          |
+| 0.6432        | 17.0  | 697  | 0.5153          |
+| 0.5887        | 18.0  | 738  | 0.4591          |
+| 0.5011        | 19.0  | 779  | 0.4463          |
+| 0.5117        | 20.0  | 820  | 0.4133          |
+| 0.4846        | 21.0  | 861  | 0.5346          |
+| 0.4815        | 22.0  | 902  | 0.3905          |
+| 0.4375        | 23.0  | 943  | 0.3758          |
+| 0.4313        | 24.0  | 984  | 0.3518          |
+| 0.4049        | 25.0  | 1025 | 0.3904          |
+| 0.4028        | 26.0  | 1066 | 0.2871          |
+| 0.3749        | 27.0  | 1107 | 0.3456          |
+| 0.3682        | 28.0  | 1148 | 0.3105          |
+| 0.3442        | 29.0  | 1189 | 0.2684          |
+| 0.3515        | 30.0  | 1230 | 0.2455          |
+| 0.3199        | 31.0  | 1271 | 0.2793          |
+| 0.3196        | 32.0  | 1312 | 0.2236          |
+| 0.3139        | 33.0  | 1353 | 0.2613          |
+| 0.2875        | 34.0  | 1394 | 0.2020          |
+| 0.2639        | 35.0  | 1435 | 0.1783          |
+| 0.261         | 36.0  | 1476 | 0.1987          |
+| 0.2455        | 37.0  | 1517 | 0.1795          |
+| 0.2355        | 38.0  | 1558 | 0.1632          |
+| 0.228         | 39.0  | 1599 | 0.1480          |
+| 0.2177        | 40.0  | 1640 | 0.1439          |
 ### Framework versions

config.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "architectures": [
     "EncoderDecoderModel"
   ],

 {
+  "_name_or_path": "Kielak2/calculator_model_test",
   "architectures": [
     "EncoderDecoderModel"
   ],

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b70bdd722fb38c548b1388468609ae3f6dddd9cae750784d0fed65835698361a
 size 31205552

 version https://git-lfs.github.com/spec/v1
+oid sha256:b97567041561ef6d2029ea413b9bac3f6431f442eba5b41017ba49e30a7c08a5
 size 31205552

runs/Mar04_10-02-54_c60a5c456cbd/events.out.tfevents.1709546575.c60a5c456cbd.796.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd3c206efc21d86b7b4093cf462042afa1c67615892930f8d95be1e4f72a1631
+size 28288

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adf36858584937fd52f1150bf063f6ba24aa070c1274143aa89f2ac320f728ef
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e59a4b8d41f27a7dcf7361beba8089142b2dac8dc20d9a658a018a6d96e2820
 size 5112