File size: 4,246 Bytes

d18969d
 
6c6576e
 
 
 
 
 
b4e4c0b
 
 
 
 
 
787df08
 
9eaeebe
 
6c6576e
 
 
 
d18969d
 
d8e6f6d
88e8403
9eaeebe
 
054772c
 
9eaeebe
 
d18969d
 
 
 
 
 
6c6576e
d18969d
 
c0ce245
6d0b582
6c6576e
 
 
d18969d
 
6c6576e
d18969d
 
 
 
 
 
6c6576e
d18969d
 
 
 
 
 
 
 
 
 
3f2a15a
 
6c6576e
d18969d
4afba1e
 
d18969d

---
widget:
- text: 'fransa''nın başkenti'
  example_title: fransa'nın başkenti
- text: 'ingiltere''nın başkenti'
  example_title: ingiltere'nin başkenti
- text: 'italya''nın başkenti'
  example_title: italya'nın başkenti
- text: 'moğolistan''ın başkenti'
  example_title: moğolistan'ın başkenti
- text: 'amazon ormanlarının bulunduğu ülke olan'
  example_title: amazon ormanlarının bulunduğu ülke olan
- text: 'avrupa''yı asya''ya bağlayan şehir'
  example_title: avrupa'yı asya'ya bağlayan şehir
- text: 'zebraların yaşadığı kıta olan'
  example_title: zebraların yaşadığı kıta olan
- text: 'fenerbahçe''nin ezeli rakibi olan'
  example_title: fenerbahçe'nin ezeli rakibi olan
- text: 'tek bacaklı kurbağa'
  example_title: tek bacaklı kurbağa
- text: 'rize''de yağmur'
  example_title: rize'de yağmur
- text: 'hayatın anlamı'
  example_title: hayatın anlamı
- text: 'saint-joseph'
  example_title: saint-joseph  
- text: 'renk isimleri şunlardır'
  example_title: renk isimleri şunlardır
- text: 'iklim değişikliği'
  example_title: iklim değişikliği  
- text: 'tuzlu yiyecekler arasında'
  example_title: tuzlu yiyecekler arasında  
language:
- tr
---
# Model

GPT-2 Türkçe Modeli

### Model Açıklaması

GPT-2 Türkçe Modeli, Türkçe diline özelleştirilmiş bir büyük veri modelidir ve LLM (Large Language Model) kategorisine aittir. 
Bu model, GPT-2 mimarisini temel alarak oluşturulmuş ve tokenizer yapısı özel olarak hazırlanmış bir Türkçe dil modelini temsil eder. Model, belirli bir başlangıç metni kullanarak insana benzer metinler üretebilme yeteneğine sahiptir ve geniş bir Türkçe metin veri kümesi üzerinde eğitilmiştir.
Modelin eğitimi için 900 milyon karakterli Vikipedi seti kullanılmıştır. Eğitim setindeki cümleler maksimum 128 tokendan (token = kelime kökü ve ekleri) oluşmuştur bu yüzden oluşturacağı cümlelerin boyu sınırlıdır..
Türkçe heceleme yapısına uygun tokenizer kullanılmış ve model 7.5 milyon adımda yaklaşık 154 epoch eğitilmiştir.
Eğitim için 4GB hafızası olan Nvidia Geforce RTX 3050 GPU kullanılmaktadır. 16GB Paylaşılan GPU'dan da yararlanılmakta ve eğitimin devamında toplamda 20GB hafıza kullanılmaktadır.

## Model Nasıl Kullanılabilir
ÖNEMLİ: model harf büyüklüğüne duyarlı olduğu için, prompt tamamen küçük harflerle yazılmalıdır.

```python
# Model ile çıkarım yapmak için örnek kod

from transformers import GPT2Tokenizer, GPT2LMHeadModel

model_name = "cenkersisman/gpt2-turkish-128-token"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

prompt = "okyanusun derinliklerinde bulunan"
input_ids = tokenizer.encode(prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=100, pad_token_id=tokenizer.eos_token_id)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

```
## Eğitim Süreci Eğrisi

![image/png](https://huggingface.co/cenkersisman/gpt2-turkish-128-token/resolve/main/1.png)

![image/png](https://huggingface.co/cenkersisman/gpt2-turkish-900m/resolve/main/loss4.png)
![image/png](https://huggingface.co/cenkersisman/gpt2-turkish-900m/resolve/main/loss3.png)
## Sınırlamalar ve Önyargılar
Bu model, bir özyineli dil modeli olarak eğitildi. Bu, temel işlevinin bir metin dizisi alıp bir sonraki belirteci tahmin etmek olduğu anlamına gelir. Dil modelleri bunun dışında birçok görev için yaygın olarak kullanılsa da, bu çalışmayla ilgili birçok bilinmeyen bulunmaktadır.

Model, küfür, açık saçıklık ve aksi davranışlara yol açan metinleri içerdiği bilinen bir veri kümesi üzerinde eğitildi. Kullanım durumunuza bağlı olarak, bu model toplumsal olarak kabul edilemez metinler üretebilir.

Tüm dil modellerinde olduğu gibi, bu modelin belirli bir girişe nasıl yanıt vereceğini önceden tahmin etmek zordur ve uyarı olmaksızın saldırgan içerik ortaya çıkabilir. Sonuçları yayınlamadan önce hem istenmeyen içeriği sansürlemek hem de sonuçların kalitesini iyileştirmek için insanların çıktıları denetlemesini veya filtrelemesi önerilir.