ninagroot/GPT2-705Mtest

Files changed (4) hide show

README.md CHANGED Viewed

@@ -33,33 +33,27 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
-- train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 2
-- total_train_batch_size: 4
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 100
-- num_epochs: 12
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 5.8964        | 1.0   | 69   | 5.8372          |
-| 5.2016        | 2.0   | 138  | 5.0017          |
-| 4.4098        | 3.0   | 207  | 4.6658          |
-| 4.2459        | 4.0   | 276  | 4.5260          |
-| 3.9837        | 5.0   | 345  | 4.4107          |
-| 3.8526        | 6.0   | 414  | 4.3741          |
-| 3.5545        | 7.0   | 483  | 4.3328          |
-| 3.392         | 8.0   | 552  | 4.3175          |
-| 3.3396        | 9.0   | 621  | 4.3236          |
-| 3.0426        | 10.0  | 690  | 4.3322          |
-| 3.028         | 11.0  | 759  | 4.3254          |
-| 3.0344        | 12.0  | 828  | 4.3316          |
 ### Framework versions

 The following hyperparameters were used during training:
 - learning_rate: 0.00025
+- train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 2
+- total_train_batch_size: 2
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 100
+- num_epochs: 6
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 5.9842        | 1.0   | 138  | 5.7209          |
+| 5.2136        | 2.0   | 276  | 5.0371          |
+| 4.133         | 3.0   | 414  | 4.6067          |
+| 4.0724        | 4.0   | 552  | 4.4334          |
+| 3.8644        | 5.0   | 690  | 4.3296          |
+| 3.5594        | 6.0   | 828  | 4.3316          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9d94a61c5829c224b1caa5dabb4e5338d6cf4d1582545cdc03adb3494c1e8e5
 size 2747934496

 version https://git-lfs.github.com/spec/v1
+oid sha256:7718cf172d8e463eb8c272e4ac73b26373fbb3a26dd15768b7b1e9cc0e7c364a
 size 2747934496

runs/Mar25_10-44-37_gcn30.local.snellius.surf.nl/events.out.tfevents.1711359885.gcn30.local.snellius.surf.nl.536891.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9ac4f1b85bbe447269f94e8cb4e939d8fd24e71583e6162d26b20cc2d70e2c2
+size 12834

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d61d38bc7bcccbe54e492311a8ae78f35feaf0a6d0b83a59c1f85120eb1c9361
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf8fc10c73e0fb53913fcd6f46c1064aede98cb617d8fde421c19a677a14dc12
 size 4728