Turkish WordPiece Tokenizer (1 Milyar Cümle)
license: apache-2.0 language: - tr tags: - turkish creator: mertcobanov
Not: Bu tokenizer'ın dokümantasyonu Türk yapay zeka topluluğuna katkı sağlamak amacıyla VeriPazarı tarafından Türkçeye çevrilmiştir. Orijinal model mertcobanov tarafından geliştirilmiş olup, VeriPazarı tarafından Türk AI ekosistemi için arşivlenmiştir.
🔗 Orijinal Kaynak: mertcobanov/turkish-wordpiece-tokenizer 🔗 Derleyen Platform: VeriPazarı
Türkçe WordPiece Tokenizer
Bu depo, Türkçe doğal dil işleme (NLP) görevleri için son derece uygun olan ve 1 milyar Türkçe cümle üzerinde özel olarak eğitilmiş bir WordPiece tokenizer (alt-kelime analizörü) içermektedir. Tokenizer, tokenizers kütüphanesi kullanılarak oluşturulmuş olup, esneklik sağlamak amacıyla hem büyük/küçük harf duyarlı (cased) hem de duyarsız (uncased) versiyonları barındırmaktadır.
Depo Yapısı (Repository Structure)
| Dosya Adı | Açıklama |
|---|---|
special_tokens_map.json |
[UNK], [PAD], [CLS] ve [SEP] gibi özel token'ları kendi tanımlayıcılarıyla eşleştirir. |
tokenizer_config.json |
Model türü ve özel token ayarları da dahil olmak üzere tokenizer için yapılandırma (config) ayrıntılarını içerir. |
turkish_wordpiece_tokenizer.json |
1 milyar Türkçe cümle üzerinde eğitilmiş ana WordPiece tokenizer (cased / büyük-küçük harf duyarlı). |
turkish_wordpiece_tokenizer_uncased.json |
WordPiece tokenizer'ın uncased (büyük-küçük harfe duyarsız) versiyonu. |
turkish_wordpiece_tokenizer_post_token_uncased.json |
Uncased tokenizer için tokenizasyon sonrası (post-tokenization) yapılandırması. |
Özellikler
- WordPiece Tokenizasyonu: Nadir veya daha önce görülmemiş kelimeleri daha iyi işleyebilmek için kelimeleri alt-kelime (subword) birimlerine böler.
- Cased ve Uncased Metin Desteği: Büyük/küçük harf duyarlılığını korumak (cased) veya görmezden gelmek (uncased) için ayrı tokenizer'lar içerir.
- Türkçe İçin Optimize Edilmiştir: Büyük ölçekli bir Türkçe veri seti (1 milyar cümle) üzerinde eğitilmiş olup, Türkçenin kelime dağarcığını ve dilbilgisini güçlü bir şekilde kapsar.
- Özel Token'lar (Special Tokens): Yaygın olarak kullanılan şu token'ları içerir:
[UNK](Bilinmeyen / unknown token)[PAD](Doldurma / padding token)[CLS](Sınıflandırma / classification token)[SEP](Ayırıcı / separator token)
Kullanım
Tokenizer'ı kullanmak için Hugging Face transformers kütüphanesiyle veya doğrudan tokenizers kütüphanesiyle yükleyebilirsiniz.
tokenizers kütüphanesi ile yükleme:
from tokenizers import Tokenizer
# Uncased tokenizer'ı yükleyin
tokenizer = Tokenizer.from_file("path/to/turkish_wordpiece_tokenizer_uncased.json")
# Bir cümleyi tokenize edin
output = tokenizer.encode("Merhaba dünya!")
print(output.tokens)
Tokenizer Eğitim Detayları
- Veri Seti: Farklı alanlardan (haberler, sosyal medya, edebiyat vb.) derlenmiş 1 milyar Türkçe cümle.
- Model: Türk diline uygun bir kelime dağarcığı (vocabulary) boyutuyla eğitilmiş WordPiece tokenizer.
- Uncased Varyantı: Tokenizasyon sırasında büyük-küçük harf ayrımlarını yok saymak için tüm metni küçük harfe dönüştürür.
Kullanım Alanları (Applications)
- Metin Sınıflandırma (Text Classification)
- Makine Çevirisi (Machine Translation)
- Soru Cevaplama (Question Answering)
- Metin Özetleme (Text Summarization)
- İsim Varlık Tanıma (Named Entity Recognition - NER)
Atıf (Citation)
Bu tokenizer'ı araştırmalarınızda veya uygulamalarınızda kullanırsanız, lütfen aşağıdaki şekilde atıfta bulunun:
@misc{turkish_wordpiece_tokenizer,
title={Turkish WordPiece Tokenizer},
author={Mert Cobanov},
year={2024},
url={https://huggingface.co/mertcobanov/turkish-wordpiece-tokenizer}
}
Bu dosya veripazari.com.tr topluluğu tarafından Hugging Face altyapısında barındırılmaktadır. Orijinal emeğe saygı kuralımız gereği lisans ve model isimleri korunmuştur.