635d450d-e407-4615-84f0-0026c58a8c98

This model is a fine-tuned version of openlm-research/open_llama_3b on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.000209
train_batch_size: 4
eval_batch_size: 4
seed: 90
gradient_accumulation_steps: 2
total_train_batch_size: 8
optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 50
training_steps: 500

Training Loss	Epoch	Step	Validation Loss
No log	0.0002	1	0.4862
0.0357	0.0096	50	0.0146
0.001	0.0192	100	0.0032
0.0016	0.0289	150	0.0034
0.0011	0.0385	200	0.0025
0.021	0.0481	250	0.0039
0.0011	0.0577	300	0.0035
0.0005	0.0674	350	0.0032