ozgurcengiz2008's picture
Update app.py
addc968 verified
from datasets import load_dataset
from transformers import GPT2Tokenizer, GPT2LMHeadModel, GPT2Config, Trainer, TrainingArguments
import torch
import os
from huggingface_hub import HfApi, HfFolder
import tensorflow
token = os.getenv('HF_TOKEN')
#os.system("huggingface-cli login")
if token is None:
raise ValueError("Hugging Face erişim şifresi sistem değişkenlerinde tanımlanmamış")
# Hugging Face token'ı kaydedin
HfFolder.save_token(token)
# HuggingFace'den veri setini yükle
dataset = load_dataset('ozgurcengiz2008/Pegasus-TR-finetuned-for-news')
# Kendi tokenizer'ınızı yükleyin veya oluşturun
tokenizer = GPT2Tokenizer.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1')
# GPT-2 konfigürasyonunu ve modelini yükle
config = GPT2Config.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1')
model = GPT2LMHeadModel.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1', config=config, from_tf=True)
# Tokenizer'ı veri setine uygulayın
def tokenize_function(examples):
return tokenizer(examples['text'], padding='max_length', truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
# Modeli eğitmek için Trainer ve TrainingArguments ayarlarını yapın
training_args = TrainingArguments(
output_dir='./results',
overwrite_output_dir=True,
num_train_epochs=3,
per_device_train_batch_size=4,
save_steps=10_000,
save_total_limit=2,
prediction_loss_only=True,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=tokenized_datasets['train'],
eval_dataset=tokenized_datasets['test'],
)
# Modeli eğit
trainer.train()
# Eğitilen modeli kaydet
model.save_pretrained('ozgurcengiz2008/JSP_summarization_TR1')
tokenizer.save_pretrained('ozgurcengiz2008/JSP_summarization_TR1')