Edit model card

Roberta Türkçe Uncased Model: Türkçe Fill Mask Görevleri için Güçlü Bir Araç

Türkçenin en kapsamlı tokenizerini kullanarak eğitilmiş Roberta Türkçe Uncased modeli, Türkçe fill mask görevlerinde size olağanüstü bir performans sunar. Bu model, metin tamamlama, dil modelleme ve soru cevaplama gibi birçok alanda kullanılabilir.

Model:

  • id: aerdincdal/roberta-turkish-uncased
  • name: Roberta Türkçe Uncased
  • model_type: roberta
  • tokenizer_class: AutoTokenizer
  • config_class: AutoConfig
  • load_tf_weights: False
  • finetuning_task: masked-language-modeling
  • language: Turkish

Dosyalar:

  • config.json: Model konfigürasyonu
  • pytorch_model.bin: Model ağırlıkları
  • tokenizer.json: Tokenizer bilgisi

Model Özellikleri:

  • Roberta mimarisi: En son teknolojiyi kullanarak eğitilmiş, güçlü bir dil modeli
  • Türkçe uncased: Büyük ve küçük harf ayrımı yapmadan çalışır, daha geniş bir metin yelpazesine uyum sağlar
  • Kapsamlı tokenizer: Türkçe dilbilgisi ve kelime dağarcığının tüm nüanslarını kapsar
  • Fill mask görevleri için ideal: Metin tamamlama, dil modelleme ve soru cevaplama gibi görevlerde yüksek doğruluk

Kullanım Alanları:

  • Metin tamamlama: Eksik metinleri veya cümleleri tamamlama
  • Dil modelleme: Metnin bir sonraki kelimesini tahmin etme
  • Soru cevaplama: Metin içinde soruların cevaplarını bulma
  • Makine çevirisi: Metinleri farklı dillere çevirme
  • Özetleme: Metinleri daha kısa ve öz bir şekilde sunma

Eğitim Süreci:

  • Türkçenin en kapsamlı tokenizerini oluşturmak için:
    • Büyük bir Türkçe metin veri kümesi toplandı
    • Kelimeler ve kelime öbekleri sıklıklarına göre analiz edildi
    • Kapsamlı bir kelime ve kelime öbeği listesi oluşturuldu
  • Roberta modeli:
    • Oluşturulan tokenizer kullanılarak Türkçe metinlerle eğitildi
    • Fill mask görevi üzerinde optimize edildi

Sonuç:

Roberta Türkçe Uncased modeli, Türkçe fill mask görevlerinde size olağanüstü bir performans sunar. Kapsamlı tokenizeri ve güçlü mimarisi ile metin tamamlama, dil modelleme ve soru cevaplama gibi birçok alanda kullanılabilir.

Daha Fazla Bilgi:

Kullanım Örnekleri:

  • TOKENİZER:

Modeli Kullanarak Metni Tokenize Etme

Aşağıdaki kod, "aerdincdal/roberta-turkish-uncased" isimli modeli kullanarak bir metni tokenize etmeyi gösterir:

from transformers import AutoTokenizer

model_name = "aerdincdal/roberta-turkish-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

test_sentence = "Merhaba, bu bir test cümlesidir."
output = tokenizer.encode(test_sentence, add_special_tokens=True)

print("Tokens:", tokenizer.convert_ids_to_tokens(output))
print("Token IDs:", output)

Açıklama:

  1. transformers kütüphanesi import edilir.
  2. model_name değişkenine modelinizin ismi atanır. Bu ismi Hugging Face'den veya kendi eğitiminizden edinebilirsiniz.
  3. AutoTokenizer.from_pretrained() fonksiyonu ile modelinizin tokenizeri yüklenir.
  4. test_sentence değişkenine tokenize etmek istediğiniz metin atanır.
  5. tokenizer.encode() fonksiyonu ile metin tokenlara ayrılır ve output değişkenine atanır.
  6. add_special_tokens parametresi True olarak ayarlanır. Bu sayede tokenizer, metnin başına [CLS] ve sonuna [SEP] tokenlerini ekler.
  7. tokenizer.convert_ids_to_tokens() fonksiyonu ile token ID'leri kelimelere dönüştürülür ve Tokens: etiketiyle yazdırılır.

Çıktı:

Tokens: ['[CLS]', '[UNK]', 'er', 'ha', 'ba', '[UNK]', 'bu', 'bir', 'test', 'cümle', 'sidir', '[UNK]', '[SEP]']
Token IDs: [1, 0, 9168, 9201, 9205, 0, 9195, 9186, 11145, 15895, 27320, 0, 2]

Dikkate Alınması Gereken Noktalar:

  • Bu kod örneği, Roberta Türkçe Uncased modelinin tokenizerini kullanmaktadır. Farklı bir model kullanıyorsanız, tokenizer fonksiyonlarının parametreleri değişebilir.
  • add_special_tokens parametresi, metnin nasıl kullanılacağına bağlı olarak ayarlanmalıdır. Örneğin, metin tamamlama görevinde bu parametre True olarak ayarlanmalıdır.
  • Tokenizer, kelimeleri küçük harflere çevirerek ve kelime öbeklerini ayırarak işlemektedir. Bu durum, metnin anlamını etkileyebilir.

MODEL KULLANIMI:

  • Metin tamamlama:
from transformers import AutoModelForMaskedLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("aerdincdal/roberta-turkish-uncased")

inputs = tokenizer("Bu kitap çok ___.", return_tensors="pt")

outputs = model(**inputs)

predictions = tokenizer.decode(outputs.logits.argmax(-1), skip_special_tokens=True)

print(predictions)

Çıktı:

ilginç
  • Dil modelleme:
from transformers import AutoModelForMaskedLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("aerdincdal/roberta-turkish-uncased")

inputs = tokenizer("Bu kitap çok ilginç bir ___.", return_tensors="pt")

outputs = model(**inputs)

start_position = outputs.start_logits.argmax(-1)
end_position = outputs.end_logits.argmax(-1)

answer = tokenizer.decode(inputs["input_ids"][start_position:end_position + 1], skip_special_tokens=True)

print(answer)

Çıktı:

hikaye
  • Soru cevaplama:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForQuestionAnswering.from_pretrained("aerdincdal/roberta-turkish-uncased")

inputs = tokenizer("Bu kitap çok ilginç bir hikaye. Hikayenin ana karakteri kim?", return_tensors="pt")

outputs = model(**inputs)

start_position = outputs.start_logits.argmax(-1)
end_position = outputs.end_logits.argmax(-1)

answer = tokenizer.decode(inputs["input_ids"][start_position:end_position + 1], skip_special_tokens

**Çıktı:**

Ayşe


Not:

Bu model hala geliştirme aşamasındadır. Daha fazla veri ve eğitim ile performansı daha da iyileştirilebilir.

Sorularınız ve önerileriniz için lütfen bana bildirin.

Downloads last month
440
Safetensors
Model size
125M params
Tensor type
F32
·