aerdincdal/roberta-turkish-uncased

Roberta Türkçe Uncased Model: Türkçe Fill Mask Görevleri için Güçlü Bir Araç

Türkçenin en kapsamlı tokenizerini kullanarak eğitilmiş Roberta Türkçe Uncased modeli, Türkçe fill mask görevlerinde size olağanüstü bir performans sunar. Bu model, metin tamamlama, dil modelleme ve soru cevaplama gibi birçok alanda kullanılabilir.

Model:

id: aerdincdal/roberta-turkish-uncased
name: Roberta Türkçe Uncased
model_type: roberta
tokenizer_class: AutoTokenizer
config_class: AutoConfig
load_tf_weights: False
finetuning_task: masked-language-modeling
language: Turkish

Dosyalar:

config.json: Model konfigürasyonu
pytorch_model.bin: Model ağırlıkları
tokenizer.json: Tokenizer bilgisi

Model Özellikleri:

Roberta mimarisi: En son teknolojiyi kullanarak eğitilmiş, güçlü bir dil modeli
Türkçe uncased: Büyük ve küçük harf ayrımı yapmadan çalışır, daha geniş bir metin yelpazesine uyum sağlar
Kapsamlı tokenizer: Türkçe dilbilgisi ve kelime dağarcığının tüm nüanslarını kapsar
Fill mask görevleri için ideal: Metin tamamlama, dil modelleme ve soru cevaplama gibi görevlerde yüksek doğruluk

Kullanım Alanları:

Metin tamamlama: Eksik metinleri veya cümleleri tamamlama
Dil modelleme: Metnin bir sonraki kelimesini tahmin etme
Soru cevaplama: Metin içinde soruların cevaplarını bulma
Makine çevirisi: Metinleri farklı dillere çevirme
Özetleme: Metinleri daha kısa ve öz bir şekilde sunma

Eğitim Süreci:

Türkçenin en kapsamlı tokenizerini oluşturmak için:
- Büyük bir Türkçe metin veri kümesi toplandı
- Kelimeler ve kelime öbekleri sıklıklarına göre analiz edildi
- Kapsamlı bir kelime ve kelime öbeği listesi oluşturuldu
Roberta modeli:
- Oluşturulan tokenizer kullanılarak Türkçe metinlerle eğitildi
- Fill mask görevi üzerinde optimize edildi

Sonuç:

Roberta Türkçe Uncased modeli, Türkçe fill mask görevlerinde size olağanüstü bir performans sunar. Kapsamlı tokenizeri ve güçlü mimarisi ile metin tamamlama, dil modelleme ve soru cevaplama gibi birçok alanda kullanılabilir.

Daha Fazla Bilgi:

Modelin GitHub sayfası: https://github.com/
Modelin Hugging Face sayfası: https://huggingface.co/
Türkçe tokenizer hakkında makale: https://github.com/topics/turkish-sentence-tokenizer

Kullanım Örnekleri:

TOKENİZER:

Modeli Kullanarak Metni Tokenize Etme

Aşağıdaki kod, "aerdincdal/roberta-turkish-uncased" isimli modeli kullanarak bir metni tokenize etmeyi gösterir:

from transformers import AutoTokenizer

model_name = "aerdincdal/roberta-turkish-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

test_sentence = "Merhaba, bu bir test cümlesidir."
output = tokenizer.encode(test_sentence, add_special_tokens=True)

print("Tokens:", tokenizer.convert_ids_to_tokens(output))
print("Token IDs:", output)

Açıklama:

transformers kütüphanesi import edilir.
model_name değişkenine modelinizin ismi atanır. Bu ismi Hugging Face'den veya kendi eğitiminizden edinebilirsiniz.
AutoTokenizer.from_pretrained() fonksiyonu ile modelinizin tokenizeri yüklenir.
test_sentence değişkenine tokenize etmek istediğiniz metin atanır.
tokenizer.encode() fonksiyonu ile metin tokenlara ayrılır ve output değişkenine atanır.
add_special_tokens parametresi True olarak ayarlanır. Bu sayede tokenizer, metnin başına [CLS] ve sonuna [SEP] tokenlerini ekler.
tokenizer.convert_ids_to_tokens() fonksiyonu ile token ID'leri kelimelere dönüştürülür ve Tokens: etiketiyle yazdırılır.

Çıktı:

Tokens: ['[CLS]', '[UNK]', 'er', 'ha', 'ba', '[UNK]', 'bu', 'bir', 'test', 'cümle', 'sidir', '[UNK]', '[SEP]']
Token IDs: [1, 0, 9168, 9201, 9205, 0, 9195, 9186, 11145, 15895, 27320, 0, 2]

Dikkate Alınması Gereken Noktalar:

Bu kod örneği, Roberta Türkçe Uncased modelinin tokenizerini kullanmaktadır. Farklı bir model kullanıyorsanız, tokenizer fonksiyonlarının parametreleri değişebilir.
add_special_tokens parametresi, metnin nasıl kullanılacağına bağlı olarak ayarlanmalıdır. Örneğin, metin tamamlama görevinde bu parametre True olarak ayarlanmalıdır.
Tokenizer, kelimeleri küçük harflere çevirerek ve kelime öbeklerini ayırarak işlemektedir. Bu durum, metnin anlamını etkileyebilir.

MODEL KULLANIMI:

Metin tamamlama:

from transformers import AutoModelForMaskedLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("aerdincdal/roberta-turkish-uncased")

inputs = tokenizer("Bu kitap çok ___.", return_tensors="pt")

outputs = model(**inputs)

predictions = tokenizer.decode(outputs.logits.argmax(-1), skip_special_tokens=True)

print(predictions)

Çıktı:

ilginç

Dil modelleme:

from transformers import AutoModelForMaskedLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("aerdincdal/roberta-turkish-uncased")

inputs = tokenizer("Bu kitap çok ilginç bir ___.", return_tensors="pt")

outputs = model(**inputs)

start_position = outputs.start_logits.argmax(-1)
end_position = outputs.end_logits.argmax(-1)

answer = tokenizer.decode(inputs["input_ids"][start_position:end_position + 1], skip_special_tokens=True)

print(answer)

Çıktı:

hikaye

Soru cevaplama:

from transformers import AutoModelForQuestionAnswering, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForQuestionAnswering.from_pretrained("aerdincdal/roberta-turkish-uncased")

inputs = tokenizer("Bu kitap çok ilginç bir hikaye. Hikayenin ana karakteri kim?", return_tensors="pt")

outputs = model(**inputs)

start_position = outputs.start_logits.argmax(-1)
end_position = outputs.end_logits.argmax(-1)

answer = tokenizer.decode(inputs["input_ids"][start_position:end_position + 1], skip_special_tokens

**Çıktı:**

Ayşe

Not:

Bu model hala geliştirme aşamasındadır. Daha fazla veri ve eğitim ile performansı daha da iyileştirilebilir.

Sorularınız ve önerileriniz için lütfen bana bildirin.