Spaces:
Runtime error
Runtime error
from datasets import load_dataset | |
from transformers import GPT2Tokenizer, GPT2LMHeadModel, GPT2Config, Trainer, TrainingArguments | |
import torch | |
import os | |
from huggingface_hub import HfApi, HfFolder | |
import tensorflow | |
token = os.getenv('HF_TOKEN') | |
#os.system("huggingface-cli login") | |
if token is None: | |
raise ValueError("Hugging Face erişim şifresi sistem değişkenlerinde tanımlanmamış") | |
# Hugging Face token'ı kaydedin | |
HfFolder.save_token(token) | |
# HuggingFace'den veri setini yükle | |
dataset = load_dataset('ozgurcengiz2008/Pegasus-TR-finetuned-for-news') | |
# Kendi tokenizer'ınızı yükleyin veya oluşturun | |
tokenizer = GPT2Tokenizer.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1') | |
# GPT-2 konfigürasyonunu ve modelini yükle | |
config = GPT2Config.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1') | |
model = GPT2LMHeadModel.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1', config=config, from_tf=True) | |
# Tokenizer'ı veri setine uygulayın | |
def tokenize_function(examples): | |
return tokenizer(examples['text'], padding='max_length', truncation=True) | |
tokenized_datasets = dataset.map(tokenize_function, batched=True) | |
# Modeli eğitmek için Trainer ve TrainingArguments ayarlarını yapın | |
training_args = TrainingArguments( | |
output_dir='./results', | |
overwrite_output_dir=True, | |
num_train_epochs=3, | |
per_device_train_batch_size=4, | |
save_steps=10_000, | |
save_total_limit=2, | |
prediction_loss_only=True, | |
) | |
trainer = Trainer( | |
model=model, | |
args=training_args, | |
train_dataset=tokenized_datasets['train'], | |
eval_dataset=tokenized_datasets['test'], | |
) | |
# Modeli eğit | |
trainer.train() | |
# Eğitilen modeli kaydet | |
model.save_pretrained('ozgurcengiz2008/JSP_summarization_TR1') | |
tokenizer.save_pretrained('ozgurcengiz2008/JSP_summarization_TR1') | |