|
--- |
|
base_model: inecnuc/Llama-3.1-8B-4bit-turkish-chat |
|
language: |
|
- tr |
|
license: apache-2.0 |
|
tags: |
|
- text-generation-inference |
|
- transformers |
|
- inetnuc |
|
- llama |
|
- gguf |
|
datasets: |
|
- inetnuc/turkish_combined_dataset |
|
--- |
|
|
|
# Llama-3.1-8B Türkçe Sohbet Modeli |
|
|
|
- **Geliştiren:** inetnuc |
|
- **Lisans:** apache-2.0 |
|
- **Temel Model:** unsloth/Llama-3.1-8B-4bit |
|
|
|
Bu Llama-3.1-8B modeli, Türkçe dili ile ilgili konular için metin üretim yeteneklerini artırmak amacıyla ince ayar yapılmıştır. Eğitim süreci, [Unsloth](https://github.com/unslothai/unsloth) ve Huggingface'in TRL kütüphanesi kullanılarak hızlandırılmış olup, 2 kat daha hızlı performans elde edilmiştir. |
|
|
|
## İnce Ayar Süreci |
|
Model, Unsloth kütüphanesi kullanılarak ince ayar yapılmıştır ve süreç aşağıdaki adımları içermektedir: |
|
|
|
1. **Veri Hazırlama:** Türkçe dili ile ilgili veriler yüklendi ve ön işlemden geçirildi. |
|
2. **Model Yükleme:** `unsloth/Llama-3.1-8B-4bit` temel model olarak kullanıldı. |
|
3. **LoRA Uygulaması:** Etkin eğitim için LoRA (Düşük Rütbe Adaptasyonu) uygulandı. |
|
4. **Eğitim:** Optimize edilmiş hiperparametrelerle Hugging Face'in TRL kütüphanesi kullanılarak model ince ayar yapıldı. |
|
|
|
## Model Detayları |
|
|
|
- **Temel Model:** `unsloth/Llama-3.1-8B-4bit` |
|
- **Dil:** ingilizce ve Türkçe (`tr`) |
|
- **Lisans:** Apache-2.0 |
|
|
|
## Yazar |
|
|
|
**MUSTAFA UMUT ÖZBEK** |
|
|
|
**https://www.linkedin.com/in/mustafaumutozbek/** |
|
**https://x.com/m_umut_ozbek** |
|
|
|
|
|
## Kullanım |
|
|
|
### Modeli Yükleme |
|
|
|
Modeli ve tokenizer'ı aşağıdaki kod parçası ile yükleyebilirsiniz: |
|
|
|
```python |
|
from transformers import AutoModelForCausalLM, AutoTokenizer |
|
|
|
# Tokenizer ve modeli yükleme |
|
tokenizer = AutoTokenizer.from_pretrained("inetnuc/Llama-3.1-8B-4bit-turkish-chat") |
|
model = AutoModelForCausalLM.from_pretrained("inetnuc/Llama-3.1-8B-4bit-turkish-chat") |
|
|
|
# Metin üretim örneği |
|
inputs = tokenizer("IAEA'nın siber güvenlik yaklaşımı nedir?", return_tensors="pt") |
|
outputs = model.generate(**inputs, max_new_tokens=128) |
|
print(tokenizer.decode(outputs[0], skip_special_tokens=True)) |