Srini99 commited on
Commit
e937ad5
1 Parent(s): 5488e4d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +55 -0
README.md CHANGED
@@ -1,3 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ## Usage
2
  ### In Transformers
3
  ```python
 
1
+ ---
2
+ language:
3
+ - multilingual
4
+ - Tamil
5
+ tags:
6
+ - question-answering
7
+ datasets:
8
+ - squad v2
9
+ - chaii
10
+ - mlqa
11
+ - xquad
12
+ metrics:
13
+ - Exact Match
14
+ - F1
15
+
16
+ widget:
17
+ - text: "சென்னையில் எத்தனை மக்கள் வாழ்கின்றனர்?"
18
+ context: "சென்னை (Chennai) தமிழ்நாட்டின் தலைநகரமும் இந்தியாவின் நான்காவது பெரிய நகரமும் ஆகும். 1996 ஆம் ஆண்டுக்கு முன்னர் இந்நகரம் மெட்ராஸ் (Madras) என்று அழைக்கப்பட்டு வந்தது. சென்னை, வங்காள விரிகுடாவின் கரையில் அமைந்த துறைமுக நகரங்களுள் ஒன்று. சுமார் 10 மில்லியன் (ஒரு கோடி) மக்கள் வாழும் இந்நகரம், உலகின் 35 பெரிய மாநகரங்களுள் ஒன்று. 17ஆம் நூற்றாண்டில் ஆங்கிலேயர் சென்னையில் கால் பதித்தது முதல், சென்னை நகரம் ஒரு முக்கிய நகரமாக வளர்ந்து வந்திருக்கிறது. சென்னை தென்னிந்தியாவின் வாசலாகக் கருதப்படுகிறது. சென்னை நகரில் உள்ள மெரினா கடற்கரை உலகின் நீளமான கடற்கரைகளுள் ஒன்று. சென்னை கோலிவுட் (Kollywood) என அறியப்படும் தமிழ்த் திரைப்படத் துறையின் தாயகம். பல விளையாட்டு அரங்கங்கள் உள்ள சென்னையில் பல விளையாட்டுப் போட்டிகளும் நடைபெறுகின்றன."
19
+ example_title: "Question Answering"
20
+ ---
21
+
22
+ # XLM-RoBERTa Large trained on Dravidian Language QA
23
+
24
+ ## Overview
25
+ **Language model:** XLM-RoBERTa-lg
26
+ **Language:** Multilingual, focussed on Tamil & Hindi
27
+ **Downstream-task:** Extractive QA
28
+ **Eval data:** K-Fold on Training Data
29
+
30
+ ## Hyperparameters
31
+ ```
32
+ batch_size = 4
33
+ base_LM_model = "xlm-roberta-large"
34
+ learning_rate = 1e-5
35
+
36
+ optimizer = AdamW
37
+ weight_decay = 1e-2
38
+ epsilon = 1e-8
39
+ max_grad_norm = 1.0
40
+
41
+ lr_schedule = LinearWarmup
42
+ warmup_proportion = 0.2
43
+
44
+ max_seq_len = 256
45
+ doc_stride=128
46
+ max_query_length=64
47
+ ```
48
+
49
+ ## Performance
50
+ Evaluated on our human annotated dataset with 1000 tamil question-context pairs [link]
51
+ ```
52
+ "em": 77.536,
53
+ "f1": 85.665
54
+ ```
55
+
56
  ## Usage
57
  ### In Transformers
58
  ```python