Mettere a punto un modello pre-addestrato
Ci sono benefici significativi nell’usare un modello pre-allenato. Riduce i costi computazionali, la tua impronta di carbonio, e ti consente di usare lo stato dell’arte dei modelli senza doverli addestrare da zero. 🤗 Transformers consente l’accesso a migliaia di modelli pre-addestrati per un’ampia gamma di compiti. Quando usi un modello pre-addestrato, lo alleni su un dataset specifico per il tuo compito. Questo è conosciuto come messa a punto (in inglese fine-tuning),una tecnica di addestramento incredibilmente potente. In questa esercitazione, potrai mettere a punto un modello pre-addestrato con un framework di deep learning a tua scelta:
- Messa a punto di un modello pre-addestrato con 🤗 Transformers
Trainer
. - Messa a punto di un modello pre-addestrato in TensorFlow con Keras.
- Messa a punto di un modello pre-addestrato con PyTorch.
Preparare un dataset
Prima di poter mettere a punto un modello pre-addestrato, scarica un dataset e preparalo per l’addestramento. La precedente esercitazione ti mostra come processare i dati per l’addestramento, e adesso hai l’opportunità di provare queste capacità sul test!
Inizia caricando il dataset Yelp Reviews:
>>> from datasets import load_dataset
>>> dataset = load_dataset("yelp_review_full")
>>> dataset["train"][100]
{'label': 0,
'text': 'My expectations for McDonalds are t rarely high. But for one to still fail so spectacularly...that takes something special!\\nThe cashier took my friends\'s order, then promptly ignored me. I had to force myself in front of a cashier who opened his register to wait on the person BEHIND me. I waited over five minutes for a gigantic order that included precisely one kid\'s meal. After watching two people who ordered after me be handed their food, I asked where mine was. The manager started yelling at the cashiers for \\"serving off their orders\\" when they didn\'t have their food. But neither cashier was anywhere near those controls, and the manager was the one serving food to customers and clearing the boards.\\nThe manager was rude when giving me my order. She didn\'t make sure that I had everything ON MY RECEIPT, and never even had the decency to apologize that I felt I was getting poor service.\\nI\'ve eaten at various McDonalds restaurants for over 30 years. I\'ve worked at more than one location. I expect bad days, bad moods, and the occasional mistake. But I have yet to have a decent experience at this store. It will remain a place I avoid unless someone in my party needs to avoid illness from low blood sugar. Perhaps I should go back to the racially biased service of Steak n Shake instead!'}
Come già sai, hai bisogno di un tokenizer per processare il testo e includere una strategia di padding e truncation per gestire sequenze di lunghezza variabile. Per processare il dataset in un unico passo, usa il metodo map
di 🤗 Datasets che applica la funzione di preprocessamento all’intero dataset:
>>> from transformers import AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
>>> def tokenize_function(examples):
... return tokenizer(examples["text"], padding="max_length", truncation=True)
>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
If you like, you can create a smaller subset of the full dataset to fine-tune on to reduce the time it takes:
>>> small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
>>> small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
Addestramento
🤗 Transformers mette a disposizione la classe Trainer
ottimizzata per addestrare modelli 🤗 Transformers, rendendo semplice iniziare l’addestramento senza scrivere manualmente il tuo ciclo di allenamento. L’API Trainer
supporta un’ampia gamma di opzioni e funzionalità di addestramento come logging, gradient accumulation, e mixed precision.
Inizia caricando il tuo modello e specificando il numero di etichette attese. Nel dataset Yelp Review dataset card, sai che ci sono cinque etichette:
>>> from transformers import AutoModelForSequenceClassification
>>> model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)
Potresti vedere un’allerta dato che alcuni dei pesi pre-addestrati non sono stati utilizzati e altri pesi sono stati inizializzati casualmente. Non preoccuparti, è completamente normale! La testa pre-allenata del modello BERT viene scartata, e rimpiazzata da una testa per la classificazione inizializzata casualmente. Tu metterai a punto la nuova testa del modello sulla tua sequenza per il compito di classificazione, trasferendogli la conoscenza del modello pre-allenato.
Addestrare gli iperparametri
Successivamente, crea una classe TrainingArguments
contenente tutti gli iperparametri che si possono calibrare nonché le variabili per attivare le differenti opzioni di addestramento. Per questa esercitazione puoi iniziare con gli iperparametri di allenamento predefiniti, ma sentiti libero di sperimentare per trovare la configurazione ottimale per te.
Specifica dove salvare i checkpoints del tuo addestramento:
>>> from transformers import TrainingArguments
>>> training_args = TrainingArguments(output_dir="test_trainer")
Metriche
Trainer
non valuta automaticamente le performance del modello durante l’addestramento. Dovrai passare a Trainer
una funzione che calcola e restituisce le metriche. La libreria 🤗 Datasets mette a disposizione una semplice funzione accuracy
che puoi caricare con la funzione load_metric
(guarda questa esercitazione per maggiori informazioni):
>>> import numpy as np
>>> from datasets import load_metric
>>> metric = load_metric("accuracy")
Richiama compute
su metric
per calcolare l’accuratezza delle tue previsioni. Prima di passare le tue previsioni a compute
, hai bisogno di convertirle in logits (ricorda che tutti i modelli 🤗 Transformers restituiscono logits):
>>> def compute_metrics(eval_pred):
... logits, labels = eval_pred
... predictions = np.argmax(logits, axis=-1)
... return metric.compute(predictions=predictions, references=labels)
Se preferisci monitorare le tue metriche di valutazione durante il fine-tuning, specifica il parametro evaluation_strategy
nei tuoi training arguments per restituire le metriche di valutazione ad ogni epoca di addestramento:
>>> from transformers import TrainingArguments, Trainer
>>> training_args = TrainingArguments(output_dir="test_trainer", evaluation_strategy="epoch")
Trainer
Crea un oggetto Trainer
col tuo modello, training arguments, dataset di training e test, e funzione di valutazione:
>>> trainer = Trainer(
... model=model,
... args=training_args,
... train_dataset=small_train_dataset,
... eval_dataset=small_eval_dataset,
... compute_metrics=compute_metrics,
... )
Poi metti a punto il modello richiamando train()
:
>>> trainer.train()
I modelli 🤗 Transformers supportano anche l’addestramento in TensorFlow usando l’API di Keras.
Convertire dataset nel formato per TensorFlow
Il DefaultDataCollator
assembla tensori in lotti su cui il modello si addestrerà. Assicurati di specificare di restituire tensori per TensorFlow in return_tensors
:
>>> from transformers import DefaultDataCollator
>>> data_collator = DefaultDataCollator(return_tensors="tf")
Trainer
usa DataCollatorWithPadding
in maniera predefinita in modo da non dover specificare esplicitamente un collettore di dati.
Successivamente, converti i datasets tokenizzati in TensorFlow datasets con il metodo to_tf_dataset
. Specifica il tuo input in columns
, e le tue etichette in label_cols
:
>>> tf_train_dataset = small_train_dataset.to_tf_dataset(
... columns=["attention_mask", "input_ids", "token_type_ids"],
... label_cols=["labels"],
... shuffle=True,
... collate_fn=data_collator,
... batch_size=8,
... )
>>> tf_validation_dataset = small_eval_dataset.to_tf_dataset(
... columns=["attention_mask", "input_ids", "token_type_ids"],
... label_cols=["labels"],
... shuffle=False,
... collate_fn=data_collator,
... batch_size=8,
... )
Compilazione e addestramento
Carica un modello TensorFlow col numero atteso di etichette:
>>> import tensorflow as tf
>>> from transformers import TFAutoModelForSequenceClassification
>>> model = TFAutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)
Poi compila e metti a punto il tuo modello usando fit
come si farebbe con qualsiasi altro modello di Keras:
>>> model.compile(
... optimizer=tf.keras.optimizers.Adam(learning_rate=5e-5),
... loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
... metrics=tf.metrics.SparseCategoricalAccuracy(),
... )
>>> model.fit(tf_train_dataset, validation_data=tf_validation_dataset, epochs=3)
Addestramento in PyTorch nativo
Trainer
si occupa del ciclo di addestramento e ti consente di mettere a punto un modello con una sola riga di codice. Per chi preferisse scrivere un proprio ciclo di addestramento personale, puoi anche mettere a punto un modello 🤗 Transformers in PyTorch nativo.
A questo punto, potresti avere bisogno di riavviare il tuo notebook o eseguire il seguente codice per liberare un po’ di memoria:
del model
del pytorch_model
del trainer
torch.cuda.empty_cache()
Successivamente, postprocessa manualmente il tokenized_dataset
per prepararlo ad essere allenato.
Rimuovi la colonna
text
perché il modello non accetta testo grezzo come input:>>> tokenized_datasets = tokenized_datasets.remove_columns(["text"])
Rinomina la colonna
label
inlabels
perché il modello si aspetta che questo argomento si chiamilabels
:>>> tokenized_datasets = tokenized_datasets.rename_column("label", "labels")
Imposta il formato del dataset per farti restituire tensori di PyTorch all’interno delle liste:
>>> tokenized_datasets.set_format("torch")
Poi crea un piccolo sottocampione del dataset come visto precedentemente per velocizzare il fine-tuning:
>>> small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
>>> small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
DataLoader
Crea un DataLoader
per i tuoi datasets di train e test così puoi iterare sui lotti di dati:
>>> from torch.utils.data import DataLoader
>>> train_dataloader = DataLoader(small_train_dataset, shuffle=True, batch_size=8)
>>> eval_dataloader = DataLoader(small_eval_dataset, batch_size=8)
Carica il tuo modello con il numero atteso di etichette:
>>> from transformers import AutoModelForSequenceClassification
>>> model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)
Ottimizzatore e pianificatore del tasso di apprendimento
Crea un ottimizzatore e pianificatore del tasso di apprendimento per mettere a punto il modello. Usa l’ottimizzatore AdamW
di PyTorch:
>>> from torch.optim import AdamW
>>> optimizer = AdamW(model.parameters(), lr=5e-5)
Crea il pianificatore del tasso di apprendimento predefinito da Trainer
:
>>> from transformers import get_scheduler
>>> num_epochs = 3
>>> num_training_steps = num_epochs * len(train_dataloader)
>>> lr_scheduler = get_scheduler(
... name="linear", optimizer=optimizer, num_warmup_steps=0, num_training_steps=num_training_steps
... )
Infine, specifica come device
da usare una GPU se ne hai una. Altrimenti, l’addestramento su una CPU può richiedere diverse ore invece di un paio di minuti.
>>> import torch
>>> device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
>>> model.to(device)
Ottieni l’accesso gratuito a una GPU sul cloud se non ne possiedi una usando un notebook sul web come Colaboratory o SageMaker StudioLab.
Ottimo, adesso possiamo addestrare! 🥳
Training loop
Per tenere traccia dei tuoi progressi durante l’addestramento, usa la libreria tqdm per aggiungere una progress bar sopra il numero dei passi di addestramento:
>>> from tqdm.auto import tqdm
>>> progress_bar = tqdm(range(num_training_steps))
>>> model.train()
>>> for epoch in range(num_epochs):
... for batch in train_dataloader:
... batch = {k: v.to(device) for k, v in batch.items()}
... outputs = model(**batch)
... loss = outputs.loss
... loss.backward()
... optimizer.step()
... lr_scheduler.step()
... optimizer.zero_grad()
... progress_bar.update(1)
Metriche
Proprio come è necessario aggiungere una funzione di valutazione del Trainer
, è necessario fare lo stesso quando si scrive il proprio ciclo di allenamento. Ma invece di calcolare e riportare la metrica alla fine di ogni epoca, questa volta accumulerai tutti i batch con add_batch
e calcolerai la metrica alla fine.
>>> metric = load_metric("accuracy")
>>> model.eval()
>>> for batch in eval_dataloader:
... batch = {k: v.to(device) for k, v in batch.items()}
... with torch.no_grad():
... outputs = model(**batch)
... logits = outputs.logits
... predictions = torch.argmax(logits, dim=-1)
... metric.add_batch(predictions=predictions, references=batch["labels"])
>>> metric.compute()
Altre risorse
Per altri esempi sul fine-tuning, fai riferimento a:
🤗 Transformers Examples include scripts per addestrare compiti comuni di NLP in PyTorch e TensorFlow.
🤗 Transformers Notebooks contiene diversi notebooks su come mettere a punto un modello per compiti specifici in PyTorch e TensorFlow.