Quantization made by Richard Erkhov.

flammen15X-mistral-7B - GGUF

Model creator: https://huggingface.co/flammenai/
Original model: https://huggingface.co/flammenai/flammen15X-mistral-7B/

Name	Quant method	Size
flammen15X-mistral-7B.Q2_K.gguf	Q2_K	2.53GB
flammen15X-mistral-7B.IQ3_XS.gguf	IQ3_XS	2.81GB
flammen15X-mistral-7B.IQ3_S.gguf	IQ3_S	2.96GB
flammen15X-mistral-7B.Q3_K_S.gguf	Q3_K_S	2.95GB
flammen15X-mistral-7B.IQ3_M.gguf	IQ3_M	3.06GB
flammen15X-mistral-7B.Q3_K.gguf	Q3_K	3.28GB
flammen15X-mistral-7B.Q3_K_M.gguf	Q3_K_M	3.28GB
flammen15X-mistral-7B.Q3_K_L.gguf	Q3_K_L	3.56GB
flammen15X-mistral-7B.IQ4_XS.gguf	IQ4_XS	3.67GB
flammen15X-mistral-7B.Q4_0.gguf	Q4_0	3.83GB
flammen15X-mistral-7B.IQ4_NL.gguf	IQ4_NL	3.87GB
flammen15X-mistral-7B.Q4_K_S.gguf	Q4_K_S	3.86GB
flammen15X-mistral-7B.Q4_K.gguf	Q4_K	4.07GB
flammen15X-mistral-7B.Q4_K_M.gguf	Q4_K_M	4.07GB
flammen15X-mistral-7B.Q4_1.gguf	Q4_1	4.24GB
flammen15X-mistral-7B.Q5_0.gguf	Q5_0	4.65GB
flammen15X-mistral-7B.Q5_K_S.gguf	Q5_K_S	4.65GB
flammen15X-mistral-7B.Q5_K.gguf	Q5_K	4.78GB
flammen15X-mistral-7B.Q5_K_M.gguf	Q5_K_M	4.78GB
flammen15X-mistral-7B.Q5_1.gguf	Q5_1	5.07GB
flammen15X-mistral-7B.Q6_K.gguf	Q6_K	5.53GB
flammen15X-mistral-7B.Q8_0.gguf	Q8_0	7.17GB

Original model description:

library_name: transformers license: apache-2.0 base_model: - nbeerbower/flammen15-gutenberg-DPO-v1-7B datasets: - chargoddard/chai-dpo

flammen15X-mistral-7B

A Mistral 7B LLM built from merging pretrained models and finetuning on Jon Durbin's Gutenberg DPO set and Charles Goddard's Chai DPO set. Flammen specializes in exceptional character roleplay, creative writing, and general intelligence

Method

Finetuned using an A100 on Google Colab. 🙏

Fine-tune a Mistral-7b model with Direct Preference Optimization - Maxime Labonne

Configuration

LoRA, model, and training settings:

# LoRA configuration
peft_config = LoraConfig(
    r=16,
    lora_alpha=16,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=['k_proj', 'gate_proj', 'v_proj', 'up_proj', 'q_proj', 'o_proj', 'down_proj']
)

# Model to fine-tune
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    load_in_4bit=True
)
model.config.use_cache = False

# Reference model
ref_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    load_in_4bit=True
)

# Training arguments
training_args = TrainingArguments(
    per_device_train_batch_size=2,
    gradient_accumulation_steps=2,
    gradient_checkpointing=True,
    learning_rate=2e-5,
    lr_scheduler_type="cosine",
    max_steps=200,
    save_strategy="no",
    logging_steps=1,
    output_dir=new_model,
    optim="paged_adamw_32bit",
    warmup_steps=100,
    bf16=True,
    report_to="wandb",
)

# Create DPO trainer
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    peft_config=peft_config,
    beta=0.1,
    max_prompt_length=1024,
    max_length=1536,
    force_use_ref_model=True
)

# Fine-tune model with DPO
dpo_trainer.train()