Turkish WordPiece Tokenizer (1 Milyar Cümle)


license: apache-2.0 language: - tr tags: - turkish creator: mertcobanov

Not: Bu tokenizer'ın dokümantasyonu Türk yapay zeka topluluğuna katkı sağlamak amacıyla VeriPazarı tarafından Türkçeye çevrilmiştir. Orijinal model mertcobanov tarafından geliştirilmiş olup, VeriPazarı tarafından Türk AI ekosistemi için arşivlenmiştir.

🔗 Orijinal Kaynak: mertcobanov/turkish-wordpiece-tokenizer 🔗 Derleyen Platform: VeriPazarı

Türkçe WordPiece Tokenizer

Bu depo, Türkçe doğal dil işleme (NLP) görevleri için son derece uygun olan ve 1 milyar Türkçe cümle üzerinde özel olarak eğitilmiş bir WordPiece tokenizer (alt-kelime analizörü) içermektedir. Tokenizer, tokenizers kütüphanesi kullanılarak oluşturulmuş olup, esneklik sağlamak amacıyla hem büyük/küçük harf duyarlı (cased) hem de duyarsız (uncased) versiyonları barındırmaktadır.

Depo Yapısı (Repository Structure)

Dosya Adı Açıklama
special_tokens_map.json [UNK], [PAD], [CLS] ve [SEP] gibi özel token'ları kendi tanımlayıcılarıyla eşleştirir.
tokenizer_config.json Model türü ve özel token ayarları da dahil olmak üzere tokenizer için yapılandırma (config) ayrıntılarını içerir.
turkish_wordpiece_tokenizer.json 1 milyar Türkçe cümle üzerinde eğitilmiş ana WordPiece tokenizer (cased / büyük-küçük harf duyarlı).
turkish_wordpiece_tokenizer_uncased.json WordPiece tokenizer'ın uncased (büyük-küçük harfe duyarsız) versiyonu.
turkish_wordpiece_tokenizer_post_token_uncased.json Uncased tokenizer için tokenizasyon sonrası (post-tokenization) yapılandırması.

Özellikler

  • WordPiece Tokenizasyonu: Nadir veya daha önce görülmemiş kelimeleri daha iyi işleyebilmek için kelimeleri alt-kelime (subword) birimlerine böler.
  • Cased ve Uncased Metin Desteği: Büyük/küçük harf duyarlılığını korumak (cased) veya görmezden gelmek (uncased) için ayrı tokenizer'lar içerir.
  • Türkçe İçin Optimize Edilmiştir: Büyük ölçekli bir Türkçe veri seti (1 milyar cümle) üzerinde eğitilmiş olup, Türkçenin kelime dağarcığını ve dilbilgisini güçlü bir şekilde kapsar.
  • Özel Token'lar (Special Tokens): Yaygın olarak kullanılan şu token'ları içerir:
    • [UNK] (Bilinmeyen / unknown token)
    • [PAD] (Doldurma / padding token)
    • [CLS] (Sınıflandırma / classification token)
    • [SEP] (Ayırıcı / separator token)

Kullanım

Tokenizer'ı kullanmak için Hugging Face transformers kütüphanesiyle veya doğrudan tokenizers kütüphanesiyle yükleyebilirsiniz.

tokenizers kütüphanesi ile yükleme:

from tokenizers import Tokenizer

# Uncased tokenizer'ı yükleyin
tokenizer = Tokenizer.from_file("path/to/turkish_wordpiece_tokenizer_uncased.json")

# Bir cümleyi tokenize edin
output = tokenizer.encode("Merhaba dünya!")
print(output.tokens)

Tokenizer Eğitim Detayları

  • Veri Seti: Farklı alanlardan (haberler, sosyal medya, edebiyat vb.) derlenmiş 1 milyar Türkçe cümle.
  • Model: Türk diline uygun bir kelime dağarcığı (vocabulary) boyutuyla eğitilmiş WordPiece tokenizer.
  • Uncased Varyantı: Tokenizasyon sırasında büyük-küçük harf ayrımlarını yok saymak için tüm metni küçük harfe dönüştürür.

Kullanım Alanları (Applications)

  • Metin Sınıflandırma (Text Classification)
  • Makine Çevirisi (Machine Translation)
  • Soru Cevaplama (Question Answering)
  • Metin Özetleme (Text Summarization)
  • İsim Varlık Tanıma (Named Entity Recognition - NER)

Atıf (Citation)

Bu tokenizer'ı araştırmalarınızda veya uygulamalarınızda kullanırsanız, lütfen aşağıdaki şekilde atıfta bulunun:

@misc{turkish_wordpiece_tokenizer,
  title={Turkish WordPiece Tokenizer},
  author={Mert Cobanov},
  year={2024},
  url={https://huggingface.co/mertcobanov/turkish-wordpiece-tokenizer}
}

Bu dosya veripazari.com.tr topluluğu tarafından Hugging Face altyapısında barındırılmaktadır. Orijinal emeğe saygı kuralımız gereği lisans ve model isimleri korunmuştur.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support