KindlyLM-EDU

KindlyLM-EDU is an educational conversational AI model fine-tuned from Qwen3.5-9B using QLoRA and Unsloth.

The project focuses on improving educational interaction quality rather than maximizing benchmark intelligence. Instead of behaving like a generic assistant, KindlyLM-EDU is designed to communicate like a supportive tutor or learning companion.


KindlyLM-EDU have Adapter weights only (LoRA) version click-here


Dataset

This dataset was created to fine-tune the language module of Qwen 3.5 9B to behave as a student-friendly Indonesian educational assistant. It covers 10 academic subject areas and includes motivational learning content. The dataset is text-only (no images or multimodal data) and is designed to train conversational style, tone, and pedagogical approach rather than raw factual knowledge.

Persona Specification

Every conversation in this dataset is generated under a fixed system prompt that defines the assistant's character. The model is expected to internalize these traits through repeated exposure during fine-tuning.

  • Student-Friendly: Uses simple language, avoids unnecessary jargon, speaks like a peer
  • Grounded: fact-based explanations without exaggeration
  • Concise: Answers are short and to the point — no unnecessary padding
  • Step-by-step: Breaks down complex problems into numbered, ordered steps
  • Uncertainty-aware: Explicitly states when it is not confident using hedge phrases
  • Supportive: Encourages the student, validates effort, and keeps morale high
  • Educational: Prioritizes real understanding over giving quick answers
  • Simplifier: Uses everyday analogies and real-world examples to explain ideas
  • Asks Back: Ends responses with a follow-up question to deepen engagement

Base Model

  • Base Model: Qwen3.5-9B
  • Fine-tuning Method: QLoRA
  • Optimization: Unsloth
  • Quantization: 4-bit
  • Primary Language: Indonesian
  • Use Case: Educational assistant / university chatbot

Motivation

Many modern LLMs of SLMs are already highly capable, but they often feel:

  • Too robotic
  • Overly corporate
  • Difficult for beginners
  • Excessively verbose
  • Less engaging for learning environments

KindlyLM-EDU explores behavioral fine-tuning to create a warmer and more educational interaction style suitable for students and academic assistance systems.

The project does not aim to create a superintelligent general AI. Instead, it focuses on practical educational interaction quality.


Intended Use Cases

KindlyLM-EDU is designed for:

  • Educational chatbots
  • AI tutoring systems
  • Student learning assistants
  • University information assistants
  • Beginner-friendly AI systems
  • Interactive learning platforms

Limitations

KindlyLM-EDU is still an experimental educational project and may:

  • Produce incorrect information
  • Hallucinate facts
  • Inherit biases from the base model
  • Vision capability is preserved from the base model, however the persona may not be fully consistent on vision-based queries due to the text-only training dataset.

For medical, legal, or critical academic decisions, professional verification is still necessary.


Technical Stack

  • Transformers
  • PEFT
  • BitsAndBytes
  • Unsloth
  • PyTorch
  • Hugging Face Ecosystem

Authors

Developed by:

  • Yehezkiel Haganta Tarigan
  • Andly Sofian Hasugian

Training Results

Training Loss Curve

The following graph shows the training loss trend during the QLoRA fine-tuning process using Unsloth on Qwen 3.5 9B.

image

The loss curve indicates a generally decreasing trend during training, suggesting that the model successfully adapted to the conversational and educational patterns present in the dataset.


Qualitative Evaluation

After fine-tuning, the model demonstrated improvements in:

  • conversational warmth,
  • educational clarity,
  • step-by-step explanation quality,
  • supportive tone,
  • and student-friendly interaction behavior.

Compared to the base model, KindlyLM-EDU responses became more engaging and easier for beginner learners to understand.


Example Output Comparison

  • Question: bisa jelaskan apa itu transformer dalam machine learning?

Base Model

Tentu, mari kita bahas Transformer dalam konteks Machine Learning (khususnya Deep Learning).

Secara singkat, Transformer adalah sebuah arsitektur jaringan saraf tiruan (neural network) yang dirancang khusus untuk memproses data berurutan (seperti teks, audio, atau video) dengan sangat efisien.

Istilah ini pertama kali diperkenalkan oleh tim peneliti dari Google pada tahun 2017 dalam makalah berjudul "Attention Is All You Need". Arsitektur ini menjadi fondasi bagi hampir semua model kecerdasan buatan (AI) canggih saat ini, seperti GPT (ChatGPT), BERT, dan banyak lainnya.

Berikut adalah penjelasan mendalam namun mudah dipahami tentang apa itu Transformer:


1. Masalah yang Diselesaikan Transformer

Sebelum Transformer muncul, model yang populer untuk memproses teks adalah RNN (Recurrent Neural Network) atau LSTM.

  • Masalah RNN: RNN memproses kata satu per satu dari kiri ke kanan (seperti membaca buku). Ini sangat lambat dan sulit mengingat konteks dari kata yang jauh di awal kalimat.
  • Solusi Transformer: Transformer tidak memproses kata satu per satu. Ia memproses seluruh kalimat sekaligus secara paralel. Ini membuatnya jauh lebih cepat dan mampu memahami konteks yang lebih baik.

2. Inti dari Transformer: "Attention Mechanism"

Ini adalah bagian terpenting. Dalam bahasa manusia, kita sering kali "memperhatikan" kata-kata tertentu dalam sebuah kalimat untuk memahami maknanya.

  • Contoh: Dalam kalimat "The animal didn't cross the street because it was too tired", kata "it" merujuk pada "animal", bukan "street".
  • Cara Transformer: Mekanisme Attention memungkinkan model untuk menghubungkan kata "it" dengan kata "animal" secara langsung, meskipun ada kata lain di antaranya. Ini disebut Self-Attention (memperhatikan kata lain dalam kalimat yang sama).

3. Struktur Utama: Encoder dan Decoder

Transformer terdiri dari dua bagian utama yang bekerja berlawanan arah:

  1. Encoder (Enkoder):
    • Bertugas untuk memahami input.
    • Mengubah input (misalnya teks) menjadi representasi vektor yang kaya makna.
    • Digunakan dalam model seperti BERT (Bidirectional Encoder Representations from Transformers).
  2. Decoder (Dekoder):
    • Bertugas untuk membuat/menghasilkan output.
    • Membaca representasi dari Encoder dan menghasilkan teks baru (misalnya menerjemahkan bahasa atau menjawab pertanyaan).
    • Digunakan dalam model seperti GPT (Generative Pre-trained Transformer).

4. Komponen Penting Lainnya

  • Positional Encoding: Karena Transformer memproses semua kata sekaligus (tidak ada urutan waktu seperti RNN), model tidak tahu posisi kata mana yang mana. Positional Encoding adalah teknik matematika untuk memberi tahu model posisi setiap kata dalam kalimat (misalnya: kata pertama, kata kedua, dst).
  • Multi-Head Attention: Transformer tidak hanya fokus pada satu jenis hubungan antar kata, tetapi memiliki beberapa "kepala" (head) yang melihat hubungan dari sudut pandang berbeda secara bersamaan.

5. Mengapa Transformer Sangat Populer?

  1. Kecepatan: Karena memproses data secara paralel (bukan berurutan), latensi pemrosesan jauh lebih rendah.
  2. Konteks Panjang: Transformer bisa mengingat hubungan antara kata yang berjarak sangat jauh dalam kalimat (misalnya awal dan akhir paragraf).
  3. Skalabilitas: Model ini bisa dilatih dengan data yang sangat besar (Big Data) dan parameter yang sangat banyak tanpa menjadi terlalu lambat.
  4. Fleksibilitas: Awalnya dibuat untuk NLP (Natural Language Processing), tapi sekarang bisa dipakai untuk Computer Vision (pengolahan gambar) dan Audio.

6. Contoh Model Berbasis Transformer

  • BERT: Fokus pada pemahaman bahasa (membaca teks untuk menjawab pertanyaan).
  • GPT (Generative Pre-trained Transformer): Fokus pada pembuatan teks (menulis cerita, menjawab chat, coding).
  • T5: Model yang bisa melakukan berbagai tugas (terjemahan, ringkasan, pertanyaan) dengan satu arsitektur yang sama.
  • Vision Transformer (ViT): Menggunakan arsitektur Transformer untuk memproses gambar (seperti menggantikan CNN).

Kesimpulan

Transformer adalah arsitektur Deep Learning yang menggunakan mekanisme Attention untuk memproses data berurutan secara paralel. Ia menggantikan model lama (RNN/LSTM) karena lebih cepat, lebih akurat dalam memahami konteks, dan menjadi dasar dari revolusi AI Generatif (seperti ChatGPT) yang kita gunakan sekarang.

Apakah ada bagian spesifik dari penjelasan di atas yang ingin Anda gali lebih dalam?

KindlyLM-EDU

Tentu! Ini soal yang sangat relevan di dunia teknologi sekarang. Transformasi dalam machine learning memang sering jadi titik balik banyak hal. Tenang, kita breakdown bareng:

1. Apa itu Transformer?

Secara sederhana, Transformer adalah arsitektur jaringan saraf tiruan (neural network) yang dirancang untuk memahami dan memproses bahasa secara lebih efisien. Kalau kamu mau analogi dunia nyata: ini seperti sistem yang belajar membaca kalimat tanpa harus membaca kata demi kata dari kiri ke kanan — semua bagian bisa dipahami bersamaan.

Kamu pasti pernah dengar istilah seperti GPT atau BERT, itu semua berbasis Transformer.

2. Kenapa Transformer Penting?

Sebelum ada Transformer, model bahasa biasanya pakai RNN (Recurrent Neural Network) atau LSTM. Masalahnya, cara kerjanya lambat karena harus proses satu per satu. Transformer mengubah cara kerja ini dengan fitur utama: Attention Mechanism.

Kalo nggak salah, ide dasarnya dari paper "Attention Is All You Need" tahun 2017 oleh tim Google. Ide utamanya tuh tentang bagaimana manusia memahami konteks — bukan cuma urutan kata, tapi hubungan antar kata.

3. Cara Kerja Transformer (Sederhananya)

Kalau kita ibaratkan masak:

  • Input: Bahan-bahan mentah (data teks/gambar)
  • Process: Masak dengan resep (model)
  • Output: Makanan jadi (prediksi)

Di Transformer, ada beberapa komponen kunci:

  • Embedding: Mengubah kata jadi angka
  • Positional Encoding: Menambahkan info posisi (kata ke-1, ke-2, dst)
  • Multi-head Attention: Belajar melihat berbagai sudut masalah sekaligus
  • Feed Forward Networks: Proses berpikir lebih dalam
  • Masking: Menyembunyikan informasi tertentu saat latihan

4. Contoh Penggunaan Nyata

Kamu udah pasti ngerti kalau udah pernah nyoba chatbot atau translate otomatis:

  • NLP: Chatbot, terjemahan otomatis, analisis sentimen
  • Computer Vision: Deteksi objek, klasifikasi gambar
  • Tabular Data: Prediksi harga saham, rekomendasi produk

Fakta menariknya, Transformer sekarang dipakai hampir di semua area AI, bukan cuma bahasa.

5. Tantangan dan Masa Depan

Meskipun powerful, Transformer punya tantangan: butuh banyak komputasi dan data. Tapi perkembangan terus terjadi — ada versi yang lebih ringan dan efisien. Kalau kamu mau eksplorasi lebih dalam, coba cari tutorial implementasinya di Python dulu, itu cara terbaik buat paham!


Jadi intinya: Transformer = revolusi cara mesin belajar bahasa dan pola. Kalau kamu belum pernah coding sebelumnya, jangan khawatir — semua orang juga pernah bingung soal ini! Kalo boleh tahu, kamu lagi belajar ini dari mana? Ada referensi yang bikin kamu penasaran nggak?

Persona Criteria Base Model Fine-Tuned Winner
Student-friendly 6/10 9/10 ✅ FT
Concise 3/10 7/10 ✅ FT
Step-by-step 8/10 8/10 🤝 Draw
Analogy & Simplification 5/10 9/10 ✅ FT
Supportive 4/10 9/10 ✅ FT
Conversational Hook 5/10 10/10 ✅ FT
Uncertainty-aware 3/10 7/10 ✅ FT
Technical Accuracy 9/10 7/10 ⚠️ Base

The fine-tuned model shows stronger educational guidance behavior and a more supportive tutoring style.


License

Apache 2.0


Downloads last month
208
Safetensors
Model size
9B params
Tensor type
F32
·
F16
·
U8
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for zekiell/KindlyLM-EDU

Finetuned
Qwen/Qwen3.5-9B
Quantized
(271)
this model