Roberta Türkçe Uncased Model: Türkçe Fill Mask Görevleri için Güçlü Bir Araç
Türkçenin en kapsamlı tokenizerini kullanarak eğitilmiş Roberta Türkçe Uncased modeli, Türkçe fill mask görevlerinde size olağanüstü bir performans sunar. Bu model, metin tamamlama, dil modelleme ve soru cevaplama gibi birçok alanda kullanılabilir.
Model:
id
:aerdincdal/roberta-turkish-uncased
name
: Roberta Türkçe Uncasedmodel_type
: robertatokenizer_class
: AutoTokenizerconfig_class
: AutoConfigload_tf_weights
: Falsefinetuning_task
: masked-language-modelinglanguage
: Turkish
Dosyalar:
config.json
: Model konfigürasyonupytorch_model.bin
: Model ağırlıklarıtokenizer.json
: Tokenizer bilgisi
Model Özellikleri:
- Roberta mimarisi: En son teknolojiyi kullanarak eğitilmiş, güçlü bir dil modeli
- Türkçe uncased: Büyük ve küçük harf ayrımı yapmadan çalışır, daha geniş bir metin yelpazesine uyum sağlar
- Kapsamlı tokenizer: Türkçe dilbilgisi ve kelime dağarcığının tüm nüanslarını kapsar
- Fill mask görevleri için ideal: Metin tamamlama, dil modelleme ve soru cevaplama gibi görevlerde yüksek doğruluk
Kullanım Alanları:
- Metin tamamlama: Eksik metinleri veya cümleleri tamamlama
- Dil modelleme: Metnin bir sonraki kelimesini tahmin etme
- Soru cevaplama: Metin içinde soruların cevaplarını bulma
- Makine çevirisi: Metinleri farklı dillere çevirme
- Özetleme: Metinleri daha kısa ve öz bir şekilde sunma
Eğitim Süreci:
- Türkçenin en kapsamlı tokenizerini oluşturmak için:
- Büyük bir Türkçe metin veri kümesi toplandı
- Kelimeler ve kelime öbekleri sıklıklarına göre analiz edildi
- Kapsamlı bir kelime ve kelime öbeği listesi oluşturuldu
- Roberta modeli:
- Oluşturulan tokenizer kullanılarak Türkçe metinlerle eğitildi
- Fill mask görevi üzerinde optimize edildi
Sonuç:
Roberta Türkçe Uncased modeli, Türkçe fill mask görevlerinde size olağanüstü bir performans sunar. Kapsamlı tokenizeri ve güçlü mimarisi ile metin tamamlama, dil modelleme ve soru cevaplama gibi birçok alanda kullanılabilir.
Daha Fazla Bilgi:
- Modelin GitHub sayfası: https://github.com/
- Modelin Hugging Face sayfası: https://huggingface.co/
- Türkçe tokenizer hakkında makale: https://github.com/topics/turkish-sentence-tokenizer
Kullanım Örnekleri:
- TOKENİZER:
Modeli Kullanarak Metni Tokenize Etme
Aşağıdaki kod, "aerdincdal/roberta-turkish-uncased" isimli modeli kullanarak bir metni tokenize etmeyi gösterir:
from transformers import AutoTokenizer
model_name = "aerdincdal/roberta-turkish-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
test_sentence = "Merhaba, bu bir test cümlesidir."
output = tokenizer.encode(test_sentence, add_special_tokens=True)
print("Tokens:", tokenizer.convert_ids_to_tokens(output))
print("Token IDs:", output)
Açıklama:
transformers
kütüphanesi import edilir.model_name
değişkenine modelinizin ismi atanır. Bu ismi Hugging Face'den veya kendi eğitiminizden edinebilirsiniz.AutoTokenizer.from_pretrained()
fonksiyonu ile modelinizin tokenizeri yüklenir.test_sentence
değişkenine tokenize etmek istediğiniz metin atanır.tokenizer.encode()
fonksiyonu ile metin tokenlara ayrılır veoutput
değişkenine atanır.add_special_tokens
parametresi True olarak ayarlanır. Bu sayede tokenizer, metnin başına[CLS]
ve sonuna[SEP]
tokenlerini ekler.tokenizer.convert_ids_to_tokens()
fonksiyonu ile token ID'leri kelimelere dönüştürülür veTokens:
etiketiyle yazdırılır.
Çıktı:
Tokens: ['[CLS]', '[UNK]', 'er', 'ha', 'ba', '[UNK]', 'bu', 'bir', 'test', 'cümle', 'sidir', '[UNK]', '[SEP]']
Token IDs: [1, 0, 9168, 9201, 9205, 0, 9195, 9186, 11145, 15895, 27320, 0, 2]
Dikkate Alınması Gereken Noktalar:
- Bu kod örneği, Roberta Türkçe Uncased modelinin tokenizerini kullanmaktadır. Farklı bir model kullanıyorsanız, tokenizer fonksiyonlarının parametreleri değişebilir.
add_special_tokens
parametresi, metnin nasıl kullanılacağına bağlı olarak ayarlanmalıdır. Örneğin, metin tamamlama görevinde bu parametre True olarak ayarlanmalıdır.- Tokenizer, kelimeleri küçük harflere çevirerek ve kelime öbeklerini ayırarak işlemektedir. Bu durum, metnin anlamını etkileyebilir.
MODEL KULLANIMI:
- Metin tamamlama:
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("aerdincdal/roberta-turkish-uncased")
inputs = tokenizer("Bu kitap çok ___.", return_tensors="pt")
outputs = model(**inputs)
predictions = tokenizer.decode(outputs.logits.argmax(-1), skip_special_tokens=True)
print(predictions)
Çıktı:
ilginç
- Dil modelleme:
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("aerdincdal/roberta-turkish-uncased")
inputs = tokenizer("Bu kitap çok ilginç bir ___.", return_tensors="pt")
outputs = model(**inputs)
start_position = outputs.start_logits.argmax(-1)
end_position = outputs.end_logits.argmax(-1)
answer = tokenizer.decode(inputs["input_ids"][start_position:end_position + 1], skip_special_tokens=True)
print(answer)
Çıktı:
hikaye
- Soru cevaplama:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("aerdincdal/roberta-turkish-uncased")
model = AutoModelForQuestionAnswering.from_pretrained("aerdincdal/roberta-turkish-uncased")
inputs = tokenizer("Bu kitap çok ilginç bir hikaye. Hikayenin ana karakteri kim?", return_tensors="pt")
outputs = model(**inputs)
start_position = outputs.start_logits.argmax(-1)
end_position = outputs.end_logits.argmax(-1)
answer = tokenizer.decode(inputs["input_ids"][start_position:end_position + 1], skip_special_tokens
**Çıktı:**
Ayşe
Not:
Bu model hala geliştirme aşamasındadır. Daha fazla veri ve eğitim ile performansı daha da iyileştirilebilir.
Sorularınız ve önerileriniz için lütfen bana bildirin.
- Downloads last month
- 440