AQG IndoT5 QType

Model ini adalah hasil fine-tuning cahya/t5-base-indonesian-summarization-cased pada dataset rifkiaputri/idk-mrc untuk tugas Automatic Question Generation Bahasa Indonesia.

Eksperimen ini menggunakan question_type conditioning, yaitu menambahkan label tipe pertanyaan ke input model.

Format Input

generate question: question_type: {question_type} answer: {answer} context: {context}

Contoh:

generate question: question_type: siapa answer: Ruth Handler context: Barbie diciptakan oleh Ruth Handler...

Question Type Labels

[
  "siapa",
  "kapan",
  "di_mana",
  "berapa",
  "mengapa",
  "bagaimana",
  "definisi",
  "tugas_fungsi",
  "apa",
  "lainnya"
]

Perbaikan dari Improved v2

  • Target question cleaning.
  • Number-safe punctuation cleaning agar angka seperti 357.021 tidak rusak.
  • Safe abbreviation expansion untuk mencegah duplikasi akronim.
  • Wiki markup noise cleaning.
  • Rejected data audit.
  • Token length filtering.
  • Question-word accuracy evaluation.
  • Answer type evaluation.
  • Human evaluation sample export.
  • Question type conditioning.

Baseline v1

{
  "BLEU-1": 59.64,
  "BLEU-2": 33.19,
  "BLEU-3": 22.3,
  "BLEU-4": 15.11,
  "BLEU-Avg": 32.56,
  "ROUGE-L": 50.28,
  "Exact Match": 4.98
}

Improved v2

{
  "BLEU-1": 41.11,
  "BLEU-2": 30.81,
  "BLEU-3": 24.95,
  "BLEU-4": 21.07,
  "BLEU-Avg": 29.48,
  "ROUGE-L": 48.13,
  "Exact Match": 9.93,
  "Question Word Accuracy": 67.0
}

QType v3

{
  "BLEU-1": 44.38,
  "BLEU-2": 33.9,
  "BLEU-3": 27.72,
  "BLEU-4": 23.23,
  "BLEU-Avg": 32.31,
  "ROUGE-L": 52.5,
  "Exact Match": 11.41,
  "Question Word Accuracy": 86.85,
  "Question Type Accuracy": 97.52,
  "Prediction Matches Input QType": 97.52
}

Catatan

Model ini dilatih menggunakan IDK-MRC yang relatif terstruktur. Untuk deployment pada PDF/PPT/DOCX tidak terstruktur, sistem tetap membutuhkan preprocessing dokumen sebelum input diberikan ke model.

Saat inference nyata, question_type bisa dipilih manual atau ditebak otomatis dari answer dengan heuristik sederhana.

Downloads last month
32
Safetensors
Model size
0.2B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for onalla/AQGINDOT5-QTYPE

Finetuned
(7)
this model