File size: 9,784 Bytes
582a754
 
 
fc65d30
 
582a754
 
 
 
fc65d30
 
 
582a754
9339ac9
3dded18
 
 
fc65d30
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
055e93c
 
 
fc65d30
055e93c
fc65d30
055e93c
 
fc65d30
055e93c
4953c80
 
 
fc65d30
 
 
582a754
 
 
 
 
 
 
 
 
 
 
9339ac9
9519e1b
fc65d30
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9339ac9
fc65d30
39f3860
d5258b8
fc65d30
 
 
 
 
3dded18
fc65d30
 
b94035b
fc65d30
39f3860
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fc65d30
b94035b
 
d5258b8
4953c80
 
05fc8f8
4953c80
 
 
 
 
 
 
 
 
 
b94035b
 
9339ac9
 
 
 
 
 
 
 
39f3860
 
 
13548b9
39f3860
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
---
datasets:
- squad_it
metrics:
- squad
language:
- it
license: apache-2.0
tags:
- italian
- squad_it
- question-answering
widget:
- text: Qual è il soprannome di Vasco Rossi?
  context: >-
    Vasco Rossi, noto anche semplicemente come Vasco e in passato con 
    l'appellativo Blasco (Zocca, 7 febbraio 1952), è un cantautore italiano
- text: >-
    La foresta pluviale amazzonica è diventata per lo più una foresta interna
    intorno a quale evento globale?
  context: >-
    In seguito all' evento di estinzione del Cretaceo-Paleogene, l' estinzione
    dei dinosauri e il clima umido possono aver permesso alla foresta pluviale
    tropicale di diffondersi in tutto il continente. Dal 66-34 Mya, la foresta
    pluviale si estendeva fino a sud fino a 45°. Le fluttuazioni climatiche
    degli ultimi 34 milioni di anni hanno permesso alle regioni della savana di
    espandersi fino ai tropici. Durante l' Oligocene, ad esempio, la foresta
    pluviale ha attraversato una banda relativamente stretta. Si espandeva di
    nuovo durante il Miocene medio, poi si ritrasse ad una formazione
    prevalentemente interna all' ultimo massimo glaciale. Tuttavia, la foresta
    pluviale è riuscita ancora a prosperare durante questi periodi glaciali,
    consentendo la sopravvivenza e l' evoluzione di un' ampia varietà di specie.
- text: >-
    Il Regno Unito e la Francia non hanno avuto interruzioni dell'
    approvvigionamento petrolifero in quanto non hanno consentito a quale paese
    di utilizzare il loro aeroporto?
  context: >-
    L' embargo non era uniforme in tutta Europa. Dei nove membri della Comunità
    Economica Europea (CEE), i Paesi Bassi hanno dovuto affrontare un embargo
    totale, il Regno Unito e la Francia hanno ricevuto forniture quasi
    ininterrotte (poichè si sono rifiutati di consentire all' America di
    utilizzare i loro aerodromi e le armi e forniture embargo sia agli arabi che
    agli israeliani), mentre gli altri sei hanno dovuto affrontare tagli
    parziali. Il Regno Unito era tradizionalmente un alleato di Israele, e il
    governo di Harold Wilson ha sostenuto gli israeliani durante la guerra dei
    sei giorni. Il suo successore, Ted Heath, ribaltò questa politica nel 1970,
    chiedendo a Israele di ritirarsi ai suoi confini prima del 1967.
- context: >-
    Nel 1962, il grafico Paul Rand ridisegna il logo ABC nella sua forma più
    conosciuta (e attuale) con le lettere minuscole 'abc' racchiuse in un unico
    cerchio nero. Il nuovo logo esordisce in onda per le promozioni di ABC all'
    inizio della stagione 1963-64. Le lettere ricordano fortemente il carattere
    tipografico Bauhaus disegnato da Herbert Bayer negli anni Venti, ma
    condividono anche similitudini con diversi altri caratteri, come ITC Avant
    Garde e Horatio, e lo Chalet più simile. La semplicità del logo ha reso più
    facile la riprogettazione e la duplicazione, il che ha conferito un
    beneficio per ABC (soprattutto prima dell' avvento della computer grafica).
  text: Di quale carattere tipografico ricordano le lettere dell' iconico logo ABC?
- context: >-
    La fotorespirazione può verificarsi quando la concentrazione di ossigeno è
    troppo elevata. Rubisco non è in grado di distinguere molto bene tra
    ossigeno e anidride carbonica, quindi può accidentalmente aggiungere O2
    invece di CO2 a RuBP. Questo processo riduce l' efficienza della
    fotosintesi: consuma ATP e ossigeno, rilascia CO2 e non produce zucchero.
    Può sprecare fino alla metà del carbonio fissato dal ciclo di Calvin.
    Diversi meccanismi si sono evoluti in diversi lignaggi che aumentano la
    concentrazione di anidride carbonica rispetto all' ossigeno all' interno del
    cloroplasto, aumentando l' efficienza della fotosintesi. Questi meccanismi
    sono chiamati meccanismi di concentrazione dell' anidride carbonica, o CCM.
    Tra questi figurano il metabolismo degli acidi crassulaceanici, la
    fissazione del carbonio C4 e i pirenoidi. I cloroplasti negli impianti C4
    sono notevoli in quanto presentano un chiaro dimorfismo cloroplastico.
  text: Che cosa può fare rubisco per errore?
model-index:
- name: electra-italian-xxl-cased-squad-it
  results:
  - task:
      type: question-answering
      name: Question Answering
    dataset:
      type: squad_it
      name: SQuAD-IT
    metrics:
    - type: exact-match
      value: 0.66
      name: Test Exact Match    
    - type: f1
      value: 0.775
      name: Test F1
train-eval-index:
- config: default
  task: question-answering
  task_id: extractive_question_answering
  splits:
    eval_split: test
  col_mapping:
    context: context
    question: question
    answers.text: answers.text
    answers.answer_start: answers.answer_start
pipeline_tag: question-answering
library_name: transformers
---

# electra-italian-xxl-cased-squad-it

Electra model for (Extractive) Question Answering on Italian texts

## Model description
This model has been fine-tuned on [squad_it dataset](https://huggingface.co/datasets/squad_it), starting from the pre-trained model [dbmdz/electra-base-italian-xxl-cased-discriminator](https://huggingface.co/dbmdz/electra-base-italian-xxl-cased-discriminator).

It can be used for [Extractive Q&A](https://huggingface.co/tasks/question-answering) on Italian texts.

## Evaluation

| Metric |   Value   |
| ------ | --------- |
| **EM** | **0.660** |
| **F1** | **0.775** |

[Evaluation notebook](https://github.com/anakin87/electra-italian-xxl-cased-squad-it/blob/main/evaluation.ipynb)

## Usage in Transformers 🤗
Model checkpoints are available for usage in PyTorch. They can be used directly with pipelines as:

```python
from transformers import pipelines

qa = pipeline('question-answering', model='anakin87/electra-italian-xxl-cased-squad-it')
qa(question="Qual è il soprannome di Vasco Rossi?", context="Vasco Rossi, noto anche semplicemente come Vasco e in passato con l'appellativo Blasco (Zocca, 7 febbraio 1952), è un cantautore italiano")
>>> {'score': 0.93, 'start': 80, 'end': 86, 'answer': 'Blasco'}
```
## Usage in Haystack 🚀🚀🚀

With the [Haystack NLP framework](https://github.com/deepset-ai/haystack), you can use this model and create a scalable Question Answering system that works across millions of documents.

For a complete walkthrough, see [this notebook](https://github.com/anakin87/electra-italian-xxl-cased-squad-it/blob/main/usage_in_haystack.ipynb).

```python
...
print_answers(prediction, details="medium")

>>> Query: Con chi ha parlato di vaccini il premier Mario Draghi?
Answers:
[   {   'answer': 'Von der Leyen',
        'context': " vaccino dell'azienda britannica. Durante la telefonata "
                   'tra Draghi e Von der Leyen, la presidente della '
                   'Commissione Ue ha annunciato al presidente del',
        'score': 0.9663902521133423},
    {   'answer': 'Ursula Von der Leyen',
        'context': 'colloquio telefonico con la presidente della Commissione '
                   'europea Ursula Von der Leyen. Secondo fonti di Palazzo '
                   'Chigi, dalla conversazione è emerso ch',
        'score': 0.9063920974731445},
    {   'answer': 'Mario Draghi, ha tenuto un lungo discorso alla 76esima '
                  'Assemblea Generale delle Nazioni Unite',
        'context': 'Il presidente del Consiglio, Mario Draghi, ha tenuto un '
                   'lungo discorso alla 76esima Assemblea Generale delle '
                   'Nazioni Unite, nella notte italiana. Tant',
        'score': 0.5243796706199646}]
```

## Comparison ⚖️

| Model                                                     | EM    | F1    | Model size (PyTorch) | Architecture     |
|-----------------------------------------------------------|-------|-------|----------------------|------------------|
| it5/it5-large-question-answering                          | 69.10 | 78.00 | 3.13 GB              | encoder-decoder  |
| ***anakin87/electra-italian-xxl-cased-squad-it (this one)***    | *66.03* | *77.47* | *437 MB*               | *encoder*          |
| it5/it5-base-question-answering                           | 66.30 | 76.10 | 990 MB               | encoder-decoder  |
| it5/mt5-base-question-answering                           | 66.30 | 75.70 | 2.33 GB              | encoder-decoder  |
| antoniocappiello/bert-base-italian-uncased-squad-it       | 63.80 | 75.30 | 440 MB               | encoder          |
| luigisaetta/squad_it_xxl_cased_hub1                       | 63.95 | 75.27 | 440 MB               | encoder          |
| it5/it5-efficient-small-el32-question-answering           | 64.50 | 74.70 | 569 MB               | encoder-decoder  |
| mrm8488/bert-italian-finedtuned-squadv1-it-alfa           | 62.51 | 74.16 | 440 MB               | encoder          |
| mrm8488/umberto-wikipedia-uncased-v1-finetuned-squadv1-it | 60.50 | 72.41 | 443 MB               | encoder          |
| it5/it5-small-question-answering                          | 61.90 | 71.60 | 308 MB               | encoder-decoder  |
| it5/mt5-small-question-answering                          | 56.00 | 66.00 | 1.2 GB               | encoder-decoder  |
| DrQA-it trained on SQuAD-it                               | 56.10 | 65.90 | ?                    | ?                |

## Training details 🏋️‍
[Training notebook](https://github.com/anakin87/electra-italian-xxl-cased-squad-it/blob/main/training.ipynb)

**Hyperparameters**
- learning_rate: 2e-05
- batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 2
- mixed_precision_training: Native AMP

> Created by [Stefano Fiorucci/anakin87](https://github.com/anakin87)
> 
> Made with <span style="color: #e25555;">&hearts;</span> in Italy