pythia410m-sft-tldr / code /generate_vllm.py

Training in progress, step 500

1904ee8 verified about 1 year ago

9.33 kB

	import gc
	import os
	from dataclasses import dataclass, field
	from typing import Dict, List, Optional

	import torch
	from datasets import Dataset, DatasetInfo, builder, load_dataset
	from peft import AutoPeftModelForCausalLM, PeftModelForCausalLM
	from transformers import AutoModelForCausalLM, AutoTokenizer, HfArgumentParser, TrainingArguments
	from vllm import LLM, SamplingParams
	from vllm.model_executor.parallel_utils.parallel_state import destroy_model_parallel

	from trl import DPOTrainer


	builder.has_sufficient_disk_space = lambda needed_bytes, directory=".": True


	@dataclass
	class ScriptArguments:
	output_dir: Optional[str] = field(
	default="compare_results",
	metadata={"help": "output folder"},
	)
	num_gpus: Optional[int] = field(default=1)
	model_name: Optional[str] = field(default="EleutherAI/pythia-410m", metadata={"help": "the model name"})
	revision: Optional[str] = field(default="main", metadata={"help": "the model revision"})
	tokenizer_name: Optional[str] = field(default=None, metadata={"help": "the tokenizer name"})
	dataset_name: Optional[str] = field(
	default="arianhosseini/openai_summarize_unlabelled", metadata={"help": "the dataset name"}
	)
	dataset_prompt_field: Optional[str] = field(default="query")
	train_split: Optional[str] = field(default="train[:20]", metadata={"help": "the dataset name"})
	batch_size: Optional[int] = field(default=4)
	max_prompt_length: Optional[int] = field(default=512, metadata={"help": "Input sequence length"})

	temperature: Optional[float] = field(default=0.7, metadata={"help": "Gen temperature"})
	top_p: Optional[float] = field(default=1.0, metadata={"help": "Gen temperature"})
	max_new_tokens: Optional[int] = field(default=48, metadata={"help": "max new tokens"})
	dtype: Optional[str] = field(default="auto")

	lora_model: Optional[bool] = field(default=False)
	base_model_name: Optional[str] = field(default=None, metadata={"help": "the model name"})
	base_model_revision: Optional[str] = field(default=None)


	def prepare_vllm_model(script_args):
	if script_args.tokenizer_name is not None:
	tokenizer_name = script_args.tokenizer_name
	else:
	tokenizer_name = script_args.model_name

	tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)

	if tokenizer_name.startswith("EleutherAI"):
	tokenizer.add_special_tokens({"pad_token": "[PAD]"})

	tokenizer.padding_side = "left"

	if script_args.lora_model:
	# peft model that needs to be merged
	if script_args.base_model_name is not None:
	base_model = AutoModelForCausalLM.from_pretrained(
	script_args.base_model_name, revision=script_args.base_model_revision
	)
	# merge the model and save
	model = PeftModelForCausalLM.from_pretrained(
	base_model, script_args.model_name, revision=script_args.revision, device_map="cpu"
	)
	else:
	model = AutoPeftModelForCausalLM.from_pretrained(
	script_args.model_name, revision=script_args.revision, device_map="cpu"
	)
	merged = model.merge_and_unload()
	model_save_path = f"/home/toolkit/trl_results/{script_args.model_name}_merged/{script_args.revision}"
	merged.save_pretrained(model_save_path)
	del model
	del merged
	model_name = model_save_path
	revision = None
	else:
	model_name = script_args.model_name
	revision = script_args.revision

	llm = LLM(
	model=model_name,
	revision=revision,
	dtype=script_args.dtype,
	tokenizer=tokenizer_name,
	tensor_parallel_size=script_args.num_gpus,
	trust_remote_code=True,
	)
	llm.set_tokenizer(tokenizer)

	return llm, tokenizer


	def strip_prompt(examples):
	examples["prompt"] = [prompt.strip() for prompt in examples["prompt"]]

	return examples


	def generate_vllm(script_args):
	llm, _ = prepare_vllm_model(script_args)

	dataset = load_dataset(script_args.dataset_name, split=script_args.train_split)

	prompts = dataset[script_args.dataset_prompt_field]

	sampling_params = SamplingParams(
	temperature=script_args.temperature,
	max_tokens=script_args.max_new_tokens,
	top_p=script_args.top_p,
	n=2,
	)

	generations = llm.generate(prompts, sampling_params)

	print(f"generated {len(generations)} samples")

	def dataset_generator():
	for gen in generations:
	if len(gen.outputs) == 2:
	yield {
	"prompt": gen.prompt,
	"chosen": gen.outputs[0].text,
	"rejected": gen.outputs[1].text,
	}
	else:
	print("skipping gen, only 1 output")

	ds_info = DatasetInfo(
	f"{script_args.dataset_name} split {script_args.train_split} prompts used to generate with {script_args.model_name}"
	f" temp {script_args.temperature} top_p {script_args.top_p} "
	)
	generated_dataset = Dataset.from_generator(dataset_generator, info=ds_info)

	destroy_model_parallel()
	del llm.llm_engine.driver_worker
	del llm
	gc.collect()
	torch.cuda.empty_cache()
	torch.distributed.destroy_process_group()

	return generated_dataset


	def relabel(script_args, dataset):
	torch_dtype = script_args.dtype if script_args.dtype in ["auto", None] else getattr(torch, script_args.dtype)

	if script_args.base_model_name is not None:
	base_model = AutoModelForCausalLM.from_pretrained(
	script_args.base_model_name,
	revision=script_args.base_model_revision,
	)
	# merge the model and save
	model = PeftModelForCausalLM.from_pretrained(
	base_model,
	script_args.model_name,
	revision=script_args.revision,
	torch_dtype=torch_dtype,
	)
	else:
	model = AutoPeftModelForCausalLM.from_pretrained(
	script_args.model_name,
	revision=script_args.revision,
	torch_dtype=torch_dtype,
	)

	if script_args.tokenizer_name is not None:
	tokenizer_name = script_args.tokenizer_name
	else:
	tokenizer_name = script_args.model_name

	tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)

	if tokenizer_name.startswith("EleutherAI"):
	tokenizer.add_special_tokens({"pad_token": "[PAD]"})

	training_args = TrainingArguments(per_device_eval_batch_size=int(script_args.batch_size), output_dir=".")

	dpo_trainer = DPOTrainer(
	model=model,
	tokenizer=tokenizer,
	args=training_args,
	max_length=script_args.max_new_tokens + script_args.max_prompt_length,
	max_target_length=script_args.max_new_tokens,
	max_prompt_length=script_args.max_prompt_length,
	)

	def relabel_with_preds(batch: Dict[str, List]):
	relabel_batch = {
	"prompt": [],
	"chosen": [],
	"rejected": [],
	"pred_chosen": [],
	"pred_rejected": [],
	}
	for prompt, chosen, rejected, pred_chosen, pred_rejected in zip(
	batch["prompt"],
	batch["chosen"],
	batch["rejected"],
	batch["pred_chosen"],
	batch["pred_rejected"],
	):
	relabel_batch["prompt"].append(prompt)
	if pred_chosen >= pred_rejected:
	relabel_batch["chosen"].append(chosen)
	relabel_batch["rejected"].append(rejected)
	relabel_batch["pred_chosen"].append(pred_chosen)
	relabel_batch["pred_rejected"].append(pred_rejected)
	else:
	relabel_batch["chosen"].append(rejected)
	relabel_batch["rejected"].append(chosen)
	relabel_batch["pred_chosen"].append(pred_rejected)
	relabel_batch["pred_rejected"].append(pred_chosen)

	return relabel_batch

	dpo_trainer.accelerator.print("Prediction")
	preds, _, metrics = dpo_trainer.predict(dataset)
	(
	chosen_rewards,
	rejected_rewards,
	policy_chosen_logps,
	policy_rejected_logps,
	reference_chosen_logps,
	reference_rejected_logps,
	) = preds
	dpo_trainer.accelerator.print(f"metrics {metrics}")

	if dpo_trainer.accelerator.is_local_main_process:
	print("Relabelling Dataset and Saving")
	dataset = dataset.add_column("pred_chosen", chosen_rewards)
	dataset = dataset.add_column("pred_rejected", rejected_rewards)

	relabel_dataset = dataset.map(
	relabel_with_preds,
	batched=True,
	)

	description = f"{script_args.dataset_name} relabelled with {script_args.model_name}"
	relabel_dataset._info.description = description
	relabel_dataset.push_to_hub(os.path.basename(script_args.output_dir), split="train")


	def generate_relabel_args_dict(args_dict):
	parser = HfArgumentParser(ScriptArguments)
	script_args = parser.parse_dict(args_dict)[0]
	dataset = generate_vllm(script_args)
	relabel(script_args, dataset)


	if __name__ == "__main__":
	parser = HfArgumentParser(ScriptArguments)
	script_args = parser.parse_args_into_dataclasses()[0]

	generate_vllm(script_args)