chasquilla-question-generator / utils /t5_train_model.py

felipesanma

add: dataset gen and training scripts

9213f5f 7 months ago

No virus

6.95 kB

	import argparse

	import pandas as pd
	from torch.utils.data import Dataset, DataLoader

	from transformers import AdamW, T5ForConditionalGeneration, T5Tokenizer

	from tqdm.notebook import tqdm
	import copy
	import pytorch_lightning as pl


	class QuestionGenerationDataset(Dataset):
	def __init__(self, tokenizer, filepath, max_len_inp=512, max_len_out=96):
	self.path = filepath

	self.passage_column = "context"
	self.answer = "answer"
	self.question = "question"

	# self.data = pd.read_csv(self.path)
	self.data = pd.read_csv(self.path, nrows=1000)

	self.max_len_input = max_len_inp
	self.max_len_output = max_len_out
	self.tokenizer = tokenizer
	self.inputs = []
	self.targets = []
	self.skippedcount = 0
	self._build()

	def __len__(self):
	return len(self.inputs)

	def __getitem__(self, index):
	source_ids = self.inputs[index]["input_ids"].squeeze()
	target_ids = self.targets[index]["input_ids"].squeeze()

	src_mask = self.inputs[index][
	"attention_mask"
	].squeeze() # might need to squeeze
	target_mask = self.targets[index][
	"attention_mask"
	].squeeze() # might need to squeeze

	labels = copy.deepcopy(target_ids)
	labels[labels == 0] = -100

	return {
	"source_ids": source_ids,
	"source_mask": src_mask,
	"target_ids": target_ids,
	"target_mask": target_mask,
	"labels": labels,
	}

	def _build(self):
	for idx in tqdm(range(len(self.data))):
	passage, answer, target = (
	self.data.loc[idx, self.passage_column],
	self.data.loc[idx, self.answer],
	self.data.loc[idx, self.question],
	)

	input_ = "context: %s answer: %s </s>" % (passage, answer)
	target = "question: %s </s>" % (str(target))

	# get encoding length of input. If it is greater than self.max_len skip it
	test_input_encoding = self.tokenizer.encode_plus(
	input_, truncation=False, return_tensors="pt"
	)

	length_of_input_encoding = len(test_input_encoding["input_ids"][0])

	if length_of_input_encoding > self.max_len_input:
	self.skippedcount = self.skippedcount + 1
	continue

	# tokenize inputs
	tokenized_inputs = self.tokenizer.batch_encode_plus(
	[input_],
	max_length=self.max_len_input,
	pad_to_max_length=True,
	return_tensors="pt",
	)
	# tokenize targets
	tokenized_targets = self.tokenizer.batch_encode_plus(
	[target],
	max_length=self.max_len_output,
	pad_to_max_length=True,
	return_tensors="pt",
	)

	self.inputs.append(tokenized_inputs)
	self.targets.append(tokenized_targets)


	class T5FineTuner(pl.LightningModule):
	def __init__(self, hparams, t5model, t5tokenizer):
	super(T5FineTuner, self).__init__()
	self.save_hyperparameters(hparams)
	# self.hparams = hparams
	self.model = t5model
	self.tokenizer = t5tokenizer

	def forward(
	self,
	input_ids,
	attention_mask=None,
	decoder_input_ids=None,
	decoder_attention_mask=None,
	lm_labels=None,
	):
	outputs = self.model(
	input_ids=input_ids,
	attention_mask=attention_mask,
	decoder_attention_mask=decoder_attention_mask,
	labels=lm_labels,
	)

	return outputs

	def training_step(self, batch, batch_idx):
	outputs = self.forward(
	input_ids=batch["source_ids"],
	attention_mask=batch["source_mask"],
	decoder_input_ids=batch["target_ids"],
	decoder_attention_mask=batch["target_mask"],
	lm_labels=batch["labels"],
	)

	loss = outputs[0]
	self.log("train_loss", loss)
	return loss

	def validation_step(self, batch, batch_idx):
	outputs = self.forward(
	input_ids=batch["source_ids"],
	attention_mask=batch["source_mask"],
	decoder_input_ids=batch["target_ids"],
	decoder_attention_mask=batch["target_mask"],
	lm_labels=batch["labels"],
	)

	loss = outputs[0]
	self.log("val_loss", loss)
	return loss

	def train_dataloader(self):
	return DataLoader(
	train_dataset, batch_size=self.hparams.batch_size, num_workers=4
	)

	def val_dataloader(self):
	return DataLoader(
	validation_dataset, batch_size=self.hparams.batch_size, num_workers=4
	)

	def configure_optimizers(self):
	optimizer = AdamW(self.parameters(), lr=3e-4, eps=1e-8)
	return optimizer


	if __name__ == "__main__":
	pl.seed_everything(42)
	train_file_path = "question_generator/dataset/squad_t5_train.csv"
	validation_file_path = "question_generator/dataset/squad_t5_validaton.csv"

	t5_tokenizer = T5Tokenizer.from_pretrained("t5-base")
	t5_model = T5ForConditionalGeneration.from_pretrained("t5-base")

	sample_encoding = t5_tokenizer.encode_plus(
	"My name is Pipe San Martin",
	max_length=64,
	pad_to_max_length=True,
	truncation=True,
	return_tensors="pt",
	)

	print(sample_encoding.keys())
	print(sample_encoding["input_ids"].shape)
	print(sample_encoding["input_ids"].squeeze().shape)
	print(sample_encoding["input_ids"])
	tokenized_output = t5_tokenizer.convert_ids_to_tokens(
	sample_encoding["input_ids"].squeeze()
	)
	print(f"Tokenized output: {tokenized_output}")
	decoded_output = t5_tokenizer.decode(
	sample_encoding["input_ids"].squeeze(),
	skip_special_tokens=True,
	clean_up_tokenization_spaces=True,
	)
	print(f"Decoded output: {decoded_output}")
	train_dataset = QuestionGenerationDataset(t5_tokenizer, train_file_path)

	train_sample = train_dataset[50]
	decoded_train_input = t5_tokenizer.decode(train_sample["source_ids"])
	decoded_train_output = t5_tokenizer.decode(train_sample["target_ids"])

	print(decoded_train_input)
	print(decoded_train_output)

	validation_dataset = QuestionGenerationDataset(t5_tokenizer, validation_file_path)
	args_dict = dict(
	batch_size=4,
	)

	args = argparse.Namespace(**args_dict)

	model = T5FineTuner(args, t5_model, t5_tokenizer)

	trainer = pl.Trainer(max_epochs=1)

	trainer.fit(model)

	#print("Saving model")
	#save_path_model = "question_generator/model/"
	#save_path_tokenizer = "question_generator/tokenizer/"
	#model.model.save_pretrained(save_path_model)
	#t5_tokenizer.save_pretrained(save_path_tokenizer)