outputs

This model is a fine-tuned version of bigscience/bloomz-3b on the FourthBrainGenAI/MarketMail-AI dataset.

Model description

bigscience/bloomz-3b

Intended uses & limitations

This model is for demonstration purpose

Training and evaluation data

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.001
train_batch_size: 16
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 64
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 20
training_steps: 100
mixed_precision_training: Native AMP

Training results

TrainOutput(global_step=100, training_loss=0.3372485587000847, metrics={'train_runtime': 522.2092, 'train_samples_per_second': 12.256, 'train_steps_per_second': 0.191, 'total_flos': 1.230954169199616e+16, 'train_loss': 0.3372485587000847, 'epoch': 100.0})

Framework versions

Transformers 4.30.0.dev0
Pytorch 2.0.1+cu118
Datasets 2.12.0
Tokenizers 0.13.3

rjac
/

bloomz-3b-marketingEmail