from datasets import load_dataset from transformers import GPT2Tokenizer, GPT2LMHeadModel, GPT2Config, Trainer, TrainingArguments import torch import os from huggingface_hub import HfApi, HfFolder import tensorflow token = os.getenv('HF_TOKEN') #os.system("huggingface-cli login") if token is None: raise ValueError("Hugging Face erişim şifresi sistem değişkenlerinde tanımlanmamış") # Hugging Face token'ı kaydedin HfFolder.save_token(token) # HuggingFace'den veri setini yükle dataset = load_dataset('ozgurcengiz2008/Pegasus-TR-finetuned-for-news') # Kendi tokenizer'ınızı yükleyin veya oluşturun tokenizer = GPT2Tokenizer.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1') # GPT-2 konfigürasyonunu ve modelini yükle config = GPT2Config.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1') model = GPT2LMHeadModel.from_pretrained('ozgurcengiz2008/JSP_summarization_TR1', config=config, from_tf=True) # Tokenizer'ı veri setine uygulayın def tokenize_function(examples): return tokenizer(examples['text'], padding='max_length', truncation=True) tokenized_datasets = dataset.map(tokenize_function, batched=True) # Modeli eğitmek için Trainer ve TrainingArguments ayarlarını yapın training_args = TrainingArguments( output_dir='./results', overwrite_output_dir=True, num_train_epochs=3, per_device_train_batch_size=4, save_steps=10_000, save_total_limit=2, prediction_loss_only=True, ) trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_datasets['train'], eval_dataset=tokenized_datasets['test'], ) # Modeli eğit trainer.train() # Eğitilen modeli kaydet model.save_pretrained('ozgurcengiz2008/JSP_summarization_TR1') tokenizer.save_pretrained('ozgurcengiz2008/JSP_summarization_TR1')