inetnuc
/

Llama-3.1-8B-4bit-turkish-chat

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Llama-3.1-8B-4bit-turkish-chat / README.md

inetnuc's picture

Update README.md

ea045cd verified 3 months ago

|

2.09 kB

	---
	base_model: inecnuc/Llama-3.1-8B-4bit-turkish-chat
	language:
	- tr
	license: apache-2.0
	tags:
	- text-generation-inference
	- transformers
	- inetnuc
	- llama
	- gguf
	datasets:
	- inetnuc/turkish_combined_dataset
	---

	# Llama-3.1-8B Türkçe Sohbet Modeli

	- Geliştiren: inetnuc
	- Lisans: apache-2.0
	- Temel Model: unsloth/Llama-3.1-8B-4bit

	Bu Llama-3.1-8B modeli, Türkçe dili ile ilgili konular için metin üretim yeteneklerini artırmak amacıyla ince ayar yapılmıştır. Eğitim süreci, [Unsloth](https://github.com/unslothai/unsloth) ve Huggingface'in TRL kütüphanesi kullanılarak hızlandırılmış olup, 2 kat daha hızlı performans elde edilmiştir.

	## İnce Ayar Süreci
	Model, Unsloth kütüphanesi kullanılarak ince ayar yapılmıştır ve süreç aşağıdaki adımları içermektedir:

	1. Veri Hazırlama: Türkçe dili ile ilgili veriler yüklendi ve ön işlemden geçirildi.
	2. Model Yükleme: `unsloth/Llama-3.1-8B-4bit` temel model olarak kullanıldı.
	3. LoRA Uygulaması: Etkin eğitim için LoRA (Düşük Rütbe Adaptasyonu) uygulandı.
	4. Eğitim: Optimize edilmiş hiperparametrelerle Hugging Face'in TRL kütüphanesi kullanılarak model ince ayar yapıldı.

	## Model Detayları

	- Temel Model: `unsloth/Llama-3.1-8B-4bit`
	- Dil: ingilizce ve Türkçe (`tr`)
	- Lisans: Apache-2.0

	## Yazar

	MUSTAFA UMUT ÖZBEK

	https://www.linkedin.com/in/mustafaumutozbek/
	https://x.com/m_umut_ozbek


	## Kullanım

	### Modeli Yükleme

	Modeli ve tokenizer'ı aşağıdaki kod parçası ile yükleyebilirsiniz:

	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer

	# Tokenizer ve modeli yükleme
	tokenizer = AutoTokenizer.from_pretrained("inetnuc/Llama-3.1-8B-4bit-turkish-chat")
	model = AutoModelForCausalLM.from_pretrained("inetnuc/Llama-3.1-8B-4bit-turkish-chat")

	# Metin üretim örneği
	inputs = tokenizer("IAEA'nın siber güvenlik yaklaşımı nedir?", return_tensors="pt")
	outputs = model.generate(**inputs, max_new_tokens=128)
	print(tokenizer.decode(outputs[0], skip_special_tokens=True))