TQA / README.md
Srini99's picture
Update README.md
6425b60
metadata
language:
  - multilingual
  - ta
tags:
  - question-answering
datasets:
  - squad_v2
  - chaii
  - mlqa
  - xquad
metrics:
  - Exact Match
  - F1
widget:
  - text: சென்னையில் எத்தனை மக்கள் வாழ்கின்றனர்?
    context: >-
      சென்னை (Chennai) தமிழ்நாட்டின் தலைநகரமும் இந்தியாவின் நான்காவது பெரிய
      நகரமும் ஆகும். 1996 ஆம் ஆண்டுக்கு முன்னர் இந்நகரம் மெட்ராஸ் (Madras) என்று
      அழைக்கப்பட்டு வந்தது. சென்னை, வங்காள விரிகுடாவின் கரையில் அமைந்த துறைமுக
      நகரங்களுள் ஒன்று. சுமார் 10 மில்லியன் (ஒரு கோடி) மக்கள் வாழும் இந்நகரம்,
      உலகின் 35 பெரிய மாநகரங்களுள் ஒன்று. 17ஆம் நூற்றாண்டில் ஆங்கிலேயர்
      சென்னையில் கால் பதித்தது முதல், சென்னை நகரம் ஒரு முக்கிய நகரமாக வளர்ந்து
      வந்திருக்கிறது. சென்னை தென்னிந்தியாவின் வாசலாகக் கருதப்படுகிறது. சென்னை
      நகரில் உள்ள மெரினா கடற்கரை உலகின் நீளமான கடற்கரைகளுள் ஒன்று. சென்னை
      கோலிவுட் (Kollywood) என அறியப்படும் தமிழ்த் திரைப்படத் துறையின் தாயகம். பல
      விளையாட்டு அரங்கங்கள் உள்ள சென்னையில் பல விளையாட்டுப் போட்டிகளும்
      நடைபெறுகின்றன.
    example_title: Question Answering

XLM-RoBERTa Large trained on Dravidian Language QA

Overview

Language model: XLM-RoBERTa-lg Language: Multilingual, focussed on Tamil & Hindi Downstream-task: Extractive QA Eval data: K-Fold on Training Data

Hyperparameters

batch_size = 4
base_LM_model = "xlm-roberta-large"
learning_rate = 1e-5

optimizer = AdamW
weight_decay = 1e-2
epsilon = 1e-8
max_grad_norm = 1.0

lr_schedule = LinearWarmup
warmup_proportion = 0.2

max_seq_len = 256
doc_stride=128
max_query_length=64

Performance

Evaluated on our human annotated dataset with 1000 tamil question-context pairs [link]

  "em": 77.536,
  "f1": 85.665

Usage

In Transformers

from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline
model_name = "Srini99/FYP_TamilQA"

model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
QA_input = {
    'question': 'யாரால் பொங்கல் சிறப்பாகக் கொண்டாடப்படுகிறது?',
    'context': 'பொங்கல் என்பது தமிழர்களால் சிறப்பாகக் கொண்டாடப்படும் ஓர் அறுவடைப் பண்டிகை ஆகும்.'
}
res = nlp(QA_input)