metadata

library_name: peft
license: apache-2.0
base_model: princeton-nlp/Sheared-LLaMA-1.3B
tags:
  - axolotl
  - generated_from_trainer
model-index:
  - name: 148cf4a6-6c43-4aaa-ad9b-5dfd8672d14f
    results: []

148cf4a6-6c43-4aaa-ad9b-5dfd8672d14f

This model is a fine-tuned version of princeton-nlp/Sheared-LLaMA-1.3B on the None dataset. It achieves the following results on the evaluation set:

Loss: 0.6123

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.000215
train_batch_size: 4
eval_batch_size: 4
seed: 150
gradient_accumulation_steps: 8
total_train_batch_size: 32
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 100
training_steps: 3000

Training results

Training Loss	Epoch	Step	Validation Loss
No log	0.0001	1	1.2217
0.725	0.0586	500	0.7533
0.6878	0.1172	1000	0.6920
0.6522	0.1758	1500	0.6540
0.6207	0.2343	2000	0.6283
0.6161	0.2929	2500	0.6150
0.6196	0.3515	3000	0.6123

Framework versions

PEFT 0.13.2
Transformers 4.46.0
Pytorch 2.5.0+cu124
Datasets 3.0.1
Tokenizers 0.20.1