Turkish WordPiece Tokenizer (1 Milyar Cümle)

license: apache-2.0 language: - tr tags: - turkish creator: mertcobanov

Not: Bu tokenizer'ın dokümantasyonu Türk yapay zeka topluluğuna katkı sağlamak amacıyla VeriPazarı tarafından Türkçeye çevrilmiştir. Orijinal model mertcobanov tarafından geliştirilmiş olup, VeriPazarı tarafından Türk AI ekosistemi için arşivlenmiştir.

🔗 Orijinal Kaynak: mertcobanov/turkish-wordpiece-tokenizer 🔗 Derleyen Platform: VeriPazarı

Türkçe WordPiece Tokenizer

Bu depo, Türkçe doğal dil işleme (NLP) görevleri için son derece uygun olan ve 1 milyar Türkçe cümle üzerinde özel olarak eğitilmiş bir WordPiece tokenizer (alt-kelime analizörü) içermektedir. Tokenizer, tokenizers kütüphanesi kullanılarak oluşturulmuş olup, esneklik sağlamak amacıyla hem büyük/küçük harf duyarlı (cased) hem de duyarsız (uncased) versiyonları barındırmaktadır.

Depo Yapısı (Repository Structure)

Dosya Adı	Açıklama
`special_tokens_map.json`	`[UNK]`, `[PAD]`, `[CLS]` ve `[SEP]` gibi özel token'ları kendi tanımlayıcılarıyla eşleştirir.
`tokenizer_config.json`	Model türü ve özel token ayarları da dahil olmak üzere tokenizer için yapılandırma (config) ayrıntılarını içerir.
`turkish_wordpiece_tokenizer.json`	1 milyar Türkçe cümle üzerinde eğitilmiş ana WordPiece tokenizer (cased / büyük-küçük harf duyarlı).
`turkish_wordpiece_tokenizer_uncased.json`	WordPiece tokenizer'ın uncased (büyük-küçük harfe duyarsız) versiyonu.
`turkish_wordpiece_tokenizer_post_token_uncased.json`	Uncased tokenizer için tokenizasyon sonrası (post-tokenization) yapılandırması.

Özellikler

WordPiece Tokenizasyonu: Nadir veya daha önce görülmemiş kelimeleri daha iyi işleyebilmek için kelimeleri alt-kelime (subword) birimlerine böler.
Cased ve Uncased Metin Desteği: Büyük/küçük harf duyarlılığını korumak (cased) veya görmezden gelmek (uncased) için ayrı tokenizer'lar içerir.
Türkçe İçin Optimize Edilmiştir: Büyük ölçekli bir Türkçe veri seti (1 milyar cümle) üzerinde eğitilmiş olup, Türkçenin kelime dağarcığını ve dilbilgisini güçlü bir şekilde kapsar.
Özel Token'lar (Special Tokens): Yaygın olarak kullanılan şu token'ları içerir:
- [UNK] (Bilinmeyen / unknown token)
- [PAD] (Doldurma / padding token)
- [CLS] (Sınıflandırma / classification token)
- [SEP] (Ayırıcı / separator token)

Kullanım

Tokenizer'ı kullanmak için Hugging Face transformers kütüphanesiyle veya doğrudan tokenizers kütüphanesiyle yükleyebilirsiniz.

`tokenizers` kütüphanesi ile yükleme:

from tokenizers import Tokenizer

# Uncased tokenizer'ı yükleyin
tokenizer = Tokenizer.from_file("path/to/turkish_wordpiece_tokenizer_uncased.json")

# Bir cümleyi tokenize edin
output = tokenizer.encode("Merhaba dünya!")
print(output.tokens)

Tokenizer Eğitim Detayları

Veri Seti: Farklı alanlardan (haberler, sosyal medya, edebiyat vb.) derlenmiş 1 milyar Türkçe cümle.
Model: Türk diline uygun bir kelime dağarcığı (vocabulary) boyutuyla eğitilmiş WordPiece tokenizer.
Uncased Varyantı: Tokenizasyon sırasında büyük-küçük harf ayrımlarını yok saymak için tüm metni küçük harfe dönüştürür.

Kullanım Alanları (Applications)

Metin Sınıflandırma (Text Classification)
Makine Çevirisi (Machine Translation)
Soru Cevaplama (Question Answering)
Metin Özetleme (Text Summarization)
İsim Varlık Tanıma (Named Entity Recognition - NER)

Atıf (Citation)

Bu tokenizer'ı araştırmalarınızda veya uygulamalarınızda kullanırsanız, lütfen aşağıdaki şekilde atıfta bulunun:

@misc{turkish_wordpiece_tokenizer,
  title={Turkish WordPiece Tokenizer},
  author={Mert Cobanov},
  year={2024},
  url={https://huggingface.co/mertcobanov/turkish-wordpiece-tokenizer}
}

Bu dosya veripazari.com.tr topluluğu tarafından Hugging Face altyapısında barındırılmaktadır. Orijinal emeğe saygı kuralımız gereği lisans ve model isimleri korunmuştur.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support