jondurbin
/

bagel-dpo-7b-v0.1

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

jondurbin commited on Dec 13, 2023

Commit

64f4852

•

1 Parent(s): 959435f

Update README.md

Files changed (1) hide show

README.md +6 -2

README.md CHANGED Viewed

@@ -188,13 +188,17 @@ If you *really* want to use `<|im_start|>` and `<|im_end|>`, just update your `t
 An example for mistral-7b:
 ```bash
 export BASE_DIR=/workspace
 export WANDB_API_KEY=[redacted]
 export WANDB_PROJECT=bagel-7b-v0.1
 # Run the pretraining.
-accelerate launch -m bagel.tune.sft \
   --model_name_or_path $BASE_DIR/mistral-7b \
   --final_output_dir $BASE_DIR/$WANDB_PROJECT \
   --output_dir $BASE_DIR/$WANDB_PROJECT-workdir \
@@ -266,7 +270,7 @@ export BASE_DIR=/mnt/data
 export WANDB_API_KEY=[redacted]
 export WANDB_PROJECT=bagel-dpo-7b-v0.1
-accelerate launch -m bagel.tune.dpo \
   --model_name_or_path bagel-7b-v0.1 \
   --learning_rate 3e-7 \
   --per_device_train_batch_size 2 \

 An example for mistral-7b:
+*Note: I actually used my fork of [qlora](https://github.com/jondurbin/qlora)'s `train.py` for this, but I'm porting it to a minified version here, not tested yet!*
+*More notes: I stopped the SFT phase around 50% because of budget constraints.*
 ```bash
 export BASE_DIR=/workspace
 export WANDB_API_KEY=[redacted]
 export WANDB_PROJECT=bagel-7b-v0.1
 # Run the pretraining.
+accelerate launch bagel/tune/sft.py \
   --model_name_or_path $BASE_DIR/mistral-7b \
   --final_output_dir $BASE_DIR/$WANDB_PROJECT \
   --output_dir $BASE_DIR/$WANDB_PROJECT-workdir \
 export WANDB_API_KEY=[redacted]
 export WANDB_PROJECT=bagel-dpo-7b-v0.1
+accelerate launch bagel/tune/dpo.py \
   --model_name_or_path bagel-7b-v0.1 \
   --learning_rate 3e-7 \
   --per_device_train_batch_size 2 \