🇰🇭 Khmer Text Summarization Adapters (Gemma)

QLoRA adapters fine-tuned for Khmer text summarization.

Trained using the Unsloth framework for efficient 4-bit fine-tuning.

📂 Variants

Variant	Subfolder	Description
Title-based	`title_based/`	Trained on raw Khmer news dataset
Synthetic	`synthetic/`	Trained on synthetic dataset

🚀 Usage (Unsloth)

from unsloth import FastLanguageModel
import torch

ALPACA_PROMPT = """ខាងក្រោមនេះគឺជាសេចក្តីណែនាំអំពីកិច្ចការមួយ។ សូមផ្តល់ចម្លើយឱ្យបានត្រឹមត្រូវ ពេញលេញ និងងាយយល់។  

### Instruction:
ចូលសង្ខេប អត្ថបទខាងក្រោមនេះ
### Input:
{}
### Response:
"""

# ✅ Load base model + adapter in ONE call
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/gemma-2b-bnb-4bit",             # base model
    max_seq_length=8192,
    load_in_4bit=True,
    adapter_name="ChilyRan/gemma-khmer-adapters",  # your HF adapter
    adapter_kwargs={"subfolder": "synthetic"}       # or "title_based"
)
FastLanguageModel.for_inference(model)
# model.eval()

# Prepare input
text = "បញ្ចូលអត្ថបទខ្មែររបស់អ្នកនៅទីនេះ..."
prompt = ALPACA_PROMPT.format(text)

inputs = tokenizer(prompt, return_tensors="pt", truncation=True).to("cuda")

# Generate summary
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=128,
        use_cache=True,
        do_sample=True,
        temperature=0.3,
        top_p=0.85
    )

decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
summary = decoded.split("### Response:")[-1].strip()
print(summary)

Downloads last month: -

Model tree for CADT-IDRI/gemma-khmer-text-sum-adapters

Base model

unsloth/gemma-2b-bnb-4bit

Adapter

(20)

this model