voidful
/

mmlm-conv-full-10k

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

voidful commited on about 1 month ago

Commit

3f050bf

·

verified ·

1 Parent(s): 3dfac20

Model save

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -36,14 +36,14 @@ The following hyperparameters were used during training:
 - eval_batch_size: 1
 - seed: 42
 - distributed_type: multi-GPU
-- num_devices: 96
 - gradient_accumulation_steps: 5
-- total_train_batch_size: 480
-- total_eval_batch_size: 96
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 100
-- num_epochs: 100
 ### Training results

 - eval_batch_size: 1
 - seed: 42
 - distributed_type: multi-GPU
+- num_devices: 104
 - gradient_accumulation_steps: 5
+- total_train_batch_size: 520
+- total_eval_batch_size: 104
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 100
+- num_epochs: 300
 ### Training results