sl-alex/llama-13b-alpaca-stepwise-lora-embtuned

Finetunes Llama-13b+Alpaca to solve problems via stepwise reasoning (OpenAI PRM800k dataset, or rather our postprocessed version, sl-alex/openai-prm800k-solutions-only).

Model description

This is a fork of llama-13b + chansung/alpaca-lora-13b.

That is: we loaded Llama-13b, we applied Alpaca LoRA, expanded vocabulary, then QLoRA 4-bit finetuned from there.

Parts:

base model llama-13b
LoRA 0 chansung/alpaca-lora-13b
LoRA 1
- adapter_config.json
- adapter_model.bin
tokenizer
- added_tokens.json
- special_tokens_map.json
- tokenizer.model
- tokenizer_config.json
finetuned input/output embedding layers:
- embed_tokens.pt (state_dict for model.get_input_embeddings(), embed_tokens: Embedding)
- lm_head.pt (state_dict for model.get_output_embeddings(), lm_head: Linear)

Training

Trained using qlora.py from our stepwise branch of qlora.
Known-good as of commit 3a86919.

python -m qlora --model_name_or_path huggyllama/llama-13b --lora_name_or_path chansung/alpaca-lora-13b --dataset prm800k-solutions --dataset_format prm800k-solutions --bf16 --max_memory_MB 24000 --use_bos_token_in_prompt --truncate_toward_center --source_max_len 184 --target_max_len 998 --gradient_accumulation_steps 4 --per_device_train_batch_size 4 --per_device_eval_batch_size 4 --learning_rate 0.0002 --run_name 13b_alpaca_special_tokens_long --report_to wandb --save_steps 64 --save_total_limit 3 --max_steps 1664 --evaluation_strategy steps --eval_steps 64 --generate_steps 16 --register_process_supervision_tokens

Usage

You can load using evaluate.py from our stepwise branch of qlora.
Known-good as of commit 3a86919.

You'll need to download embed_tokens.pt and lm_head.pt from this repository, and ensure they are saved to the root of the qlora repository, then run evaluate.py like so:

git clone -b stepwise https://github.com/scottlogic-alex/qlora.git
cd qlora
wget https://huggingface.co/sl-alex/llama-13b-alpaca-stepwise-lora-embtuned/resolve/main/embed_tokens.pt
wget https://huggingface.co/sl-alex/llama-13b-alpaca-stepwise-lora-embtuned/resolve/main/lm_head.pt
python -m evaluate \
--model_name_or_path huggyllama/llama-13b \
--base_lora_model_name_or_path chansung/alpaca-lora-13b \
--tokenizer_model_name_or_path sl-alex/llama-13b-alpaca-stepwise-lora-embtuned \
--lora_model_name_or_path sl-alex/llama-13b-alpaca-stepwise-lora-embtuned \
--input_embedding_path embed_tokens.pt \
--output_embedding_path lm_head.pt \
--use_bos_token_in_prompt \
--overrun_countermeasures False

Prompt style

The model is finetuned for instruction-response.

prompt = '<s>Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\nHow do I feed a family of 5 without ingredients?\n\n### Response:\n<|step_start|>'

Example output:

sl-alex
/

llama-13b-alpaca-stepwise-lora-embtuned

Model description

Training

Usage

Prompt style

Example output:

Dataset used to train sl-alex/llama-13b-alpaca-stepwise-lora-embtuned