AQG IndoT5 QType
Model ini adalah hasil fine-tuning cahya/t5-base-indonesian-summarization-cased pada dataset rifkiaputri/idk-mrc untuk tugas Automatic Question Generation Bahasa Indonesia.
Eksperimen ini menggunakan question_type conditioning, yaitu menambahkan label tipe pertanyaan ke input model.
Format Input
generate question: question_type: {question_type} answer: {answer} context: {context}
Contoh:
generate question: question_type: siapa answer: Ruth Handler context: Barbie diciptakan oleh Ruth Handler...
Question Type Labels
[
"siapa",
"kapan",
"di_mana",
"berapa",
"mengapa",
"bagaimana",
"definisi",
"tugas_fungsi",
"apa",
"lainnya"
]
Perbaikan dari Improved v2
- Target question cleaning.
- Number-safe punctuation cleaning agar angka seperti
357.021tidak rusak. - Safe abbreviation expansion untuk mencegah duplikasi akronim.
- Wiki markup noise cleaning.
- Rejected data audit.
- Token length filtering.
- Question-word accuracy evaluation.
- Answer type evaluation.
- Human evaluation sample export.
- Question type conditioning.
Baseline v1
{
"BLEU-1": 59.64,
"BLEU-2": 33.19,
"BLEU-3": 22.3,
"BLEU-4": 15.11,
"BLEU-Avg": 32.56,
"ROUGE-L": 50.28,
"Exact Match": 4.98
}
Improved v2
{
"BLEU-1": 41.11,
"BLEU-2": 30.81,
"BLEU-3": 24.95,
"BLEU-4": 21.07,
"BLEU-Avg": 29.48,
"ROUGE-L": 48.13,
"Exact Match": 9.93,
"Question Word Accuracy": 67.0
}
QType v3
{
"BLEU-1": 44.38,
"BLEU-2": 33.9,
"BLEU-3": 27.72,
"BLEU-4": 23.23,
"BLEU-Avg": 32.31,
"ROUGE-L": 52.5,
"Exact Match": 11.41,
"Question Word Accuracy": 86.85,
"Question Type Accuracy": 97.52,
"Prediction Matches Input QType": 97.52
}
Catatan
Model ini dilatih menggunakan IDK-MRC yang relatif terstruktur. Untuk deployment pada PDF/PPT/DOCX tidak terstruktur, sistem tetap membutuhkan preprocessing dokumen sebelum input diberikan ke model.
Saat inference nyata, question_type bisa dipilih manual atau ditebak otomatis dari answer dengan heuristik sederhana.
- Downloads last month
- 32
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
Model tree for onalla/AQGINDOT5-QTYPE
Base model
cahya/t5-base-indonesian-summarization-cased