Spaces:

fReEsPiRiT94
/

ZoraFinal

Running

App Files Files Community

fReEsPiRiT94 commited on about 15 hours ago

Commit

68ca6da

•

1 Parent(s): 69a3efb

Create train.py

Browse files

Files changed (1) hide show

train.py +47 -0

train.py ADDED Viewed

	@@ -0,0 +1,47 @@

+from transformers import GPT2Tokenizer, GPT2LMHeadModel, Trainer, TrainingArguments
+from datasets import Dataset
+import pandas as pd
+# Modell und Tokenizer laden
+model = GPT2LMHeadModel.from_pretrained("gpt2")
+tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
+# Daten vorbereiten
+train_data = [
+    {"input_text": "Wie konfiguriere ich den Sprachassistenten?", "output_text": "Um den Sprachassistenten zu konfigurieren, gehen Sie zu den Einstellungen..."},
+    # Weitere Trainingsdaten hinzufügen
+]
+# Erstellen eines Dataset-Objekts
+train_dataset = Dataset.from_pandas(pd.DataFrame(train_data))
+# Daten tokenisieren
+def tokenize_function(examples):
+    inputs = [example['input_text'] for example in examples]
+    outputs = [example['output_text'] for example in examples]
+    model_inputs = tokenizer(inputs, padding="max_length", truncation=True, max_length=128)
+    with tokenizer.as_target_tokenizer():
+        labels = tokenizer(outputs, padding="max_length", truncation=True, max_length=128)
+    model_inputs["labels"] = labels["input_ids"]
+    return model_inputs
+tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True)
+# Trainingsparameter einstellen
+training_args = TrainingArguments(
+    output_dir='./results',
+    num_train_epochs=3,
+    per_device_train_batch_size=4,
+    save_steps=10_000,
+    save_total_limit=2,
+)
+# Trainer initialisieren
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_train_dataset,
+)
+# Training starten
+trainer.train()