anakin87's picture
Update README.md
d5258b8
metadata
datasets:
  - squad_it
metrics:
  - squad
language:
  - it
license: apache-2.0
tags:
  - italian
  - squad_it
  - question-answering
widget:
  - text: Qual è il soprannome di Vasco Rossi?
    context: >-
      Vasco Rossi, noto anche semplicemente come Vasco e in passato con 
      l'appellativo Blasco (Zocca, 7 febbraio 1952), è un cantautore italiano
  - text: >-
      La foresta pluviale amazzonica è diventata per lo più una foresta interna
      intorno a quale evento globale?
    context: >-
      In seguito all' evento di estinzione del Cretaceo-Paleogene, l' estinzione
      dei dinosauri e il clima umido possono aver permesso alla foresta pluviale
      tropicale di diffondersi in tutto il continente. Dal 66-34 Mya, la foresta
      pluviale si estendeva fino a sud fino a 45°. Le fluttuazioni climatiche
      degli ultimi 34 milioni di anni hanno permesso alle regioni della savana
      di espandersi fino ai tropici. Durante l' Oligocene, ad esempio, la
      foresta pluviale ha attraversato una banda relativamente stretta. Si
      espandeva di nuovo durante il Miocene medio, poi si ritrasse ad una
      formazione prevalentemente interna all' ultimo massimo glaciale. Tuttavia,
      la foresta pluviale è riuscita ancora a prosperare durante questi periodi
      glaciali, consentendo la sopravvivenza e l' evoluzione di un' ampia
      varietà di specie.
  - text: >-
      Il Regno Unito e la Francia non hanno avuto interruzioni dell'
      approvvigionamento petrolifero in quanto non hanno consentito a quale
      paese di utilizzare il loro aeroporto?
    context: >-
      L' embargo non era uniforme in tutta Europa. Dei nove membri della
      Comunità Economica Europea (CEE), i Paesi Bassi hanno dovuto affrontare un
      embargo totale, il Regno Unito e la Francia hanno ricevuto forniture quasi
      ininterrotte (poichè si sono rifiutati di consentire all' America di
      utilizzare i loro aerodromi e le armi e forniture embargo sia agli arabi
      che agli israeliani), mentre gli altri sei hanno dovuto affrontare tagli
      parziali. Il Regno Unito era tradizionalmente un alleato di Israele, e il
      governo di Harold Wilson ha sostenuto gli israeliani durante la guerra dei
      sei giorni. Il suo successore, Ted Heath, ribaltò questa politica nel
      1970, chiedendo a Israele di ritirarsi ai suoi confini prima del 1967.
  - context: >-
      Nel 1962, il grafico Paul Rand ridisegna il logo ABC nella sua forma più
      conosciuta (e attuale) con le lettere minuscole 'abc' racchiuse in un
      unico cerchio nero. Il nuovo logo esordisce in onda per le promozioni di
      ABC all' inizio della stagione 1963-64. Le lettere ricordano fortemente il
      carattere tipografico Bauhaus disegnato da Herbert Bayer negli anni Venti,
      ma condividono anche similitudini con diversi altri caratteri, come ITC
      Avant Garde e Horatio, e lo Chalet più simile. La semplicità del logo ha
      reso più facile la riprogettazione e la duplicazione, il che ha conferito
      un beneficio per ABC (soprattutto prima dell' avvento della computer
      grafica).
    text: >-
      Di quale carattere tipografico ricordano le lettere dell' iconico logo
      ABC?
  - context: >-
      La fotorespirazione può verificarsi quando la concentrazione di ossigeno è
      troppo elevata. Rubisco non è in grado di distinguere molto bene tra
      ossigeno e anidride carbonica, quindi può accidentalmente aggiungere O2
      invece di CO2 a RuBP. Questo processo riduce l' efficienza della
      fotosintesi: consuma ATP e ossigeno, rilascia CO2 e non produce zucchero.
      Può sprecare fino alla metà del carbonio fissato dal ciclo di Calvin.
      Diversi meccanismi si sono evoluti in diversi lignaggi che aumentano la
      concentrazione di anidride carbonica rispetto all' ossigeno all' interno
      del cloroplasto, aumentando l' efficienza della fotosintesi. Questi
      meccanismi sono chiamati meccanismi di concentrazione dell' anidride
      carbonica, o CCM. Tra questi figurano il metabolismo degli acidi
      crassulaceanici, la fissazione del carbonio C4 e i pirenoidi. I
      cloroplasti negli impianti C4 sono notevoli in quanto presentano un chiaro
      dimorfismo cloroplastico.
    text: Che cosa può fare rubisco per errore?
model-index:
  - name: electra-italian-xxl-cased-squad-it
    results:
      - task:
          type: question-answering
          name: Question Answering
        dataset:
          type: squad_it
          name: SQuAD-IT
        metrics:
          - type: exact-match
            value: 0.66
            name: Test Exact Match
          - type: f1
            value: 0.775
            name: Test F1
train-eval-index:
  - config: default
    task: question-answering
    task_id: extractive_question_answering
    splits:
      eval_split: test
    col_mapping:
      context: context
      question: question
      answers.text: answers.text
      answers.answer_start: answers.answer_start
pipeline_tag: question-answering
library_name: transformers

electra-italian-xxl-cased-squad-it

Electra model for (Extractive) Question Answering on Italian texts

Model description

This model has been fine-tuned on squad_it dataset, starting from the pre-trained model dbmdz/electra-base-italian-xxl-cased-discriminator.

It can be used for Extractive Q&A on Italian texts.

Evaluation

Metric Value
EM 0.660
F1 0.775

Evaluation notebook

Usage in Transformers 🤗

Model checkpoints are available for usage in PyTorch. They can be used directly with pipelines as:

from transformers import pipelines

qa = pipeline('question-answering', model='anakin87/electra-italian-xxl-cased-squad-it')
qa(question="Qual è il soprannome di Vasco Rossi?", context="Vasco Rossi, noto anche semplicemente come Vasco e in passato con l'appellativo Blasco (Zocca, 7 febbraio 1952), è un cantautore italiano")
>>> {'score': 0.93, 'start': 80, 'end': 86, 'answer': 'Blasco'}

Usage in Haystack 🚀🚀🚀

With the Haystack NLP framework, you can use this model and create a scalable Question Answering system that works across millions of documents.

For a complete walkthrough, see this notebook.

...
print_answers(prediction, details="medium")

>>> Query: Con chi ha parlato di vaccini il premier Mario Draghi?
Answers:
[   {   'answer': 'Von der Leyen',
        'context': " vaccino dell'azienda britannica. Durante la telefonata "
                   'tra Draghi e Von der Leyen, la presidente della '
                   'Commissione Ue ha annunciato al presidente del',
        'score': 0.9663902521133423},
    {   'answer': 'Ursula Von der Leyen',
        'context': 'colloquio telefonico con la presidente della Commissione '
                   'europea Ursula Von der Leyen. Secondo fonti di Palazzo '
                   'Chigi, dalla conversazione è emerso ch',
        'score': 0.9063920974731445},
    {   'answer': 'Mario Draghi, ha tenuto un lungo discorso alla 76esima '
                  'Assemblea Generale delle Nazioni Unite',
        'context': 'Il presidente del Consiglio, Mario Draghi, ha tenuto un '
                   'lungo discorso alla 76esima Assemblea Generale delle '
                   'Nazioni Unite, nella notte italiana. Tant',
        'score': 0.5243796706199646}]

Comparison ⚖️

Model EM F1 Model size (PyTorch) Architecture
it5/it5-large-question-answering 69.10 78.00 3.13 GB encoder-decoder
anakin87/electra-italian-xxl-cased-squad-it (this one) 66.03 77.47 437 MB encoder
it5/it5-base-question-answering 66.30 76.10 990 MB encoder-decoder
it5/mt5-base-question-answering 66.30 75.70 2.33 GB encoder-decoder
antoniocappiello/bert-base-italian-uncased-squad-it 63.80 75.30 440 MB encoder
luigisaetta/squad_it_xxl_cased_hub1 63.95 75.27 440 MB encoder
it5/it5-efficient-small-el32-question-answering 64.50 74.70 569 MB encoder-decoder
mrm8488/bert-italian-finedtuned-squadv1-it-alfa 62.51 74.16 440 MB encoder
mrm8488/umberto-wikipedia-uncased-v1-finetuned-squadv1-it 60.50 72.41 443 MB encoder
it5/it5-small-question-answering 61.90 71.60 308 MB encoder-decoder
it5/mt5-small-question-answering 56.00 66.00 1.2 GB encoder-decoder
DrQA-it trained on SQuAD-it 56.10 65.90 ? ?

Training details 🏋️‍

Training notebook

Hyperparameters

  • learning_rate: 2e-05
  • batch_size: 8
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • num_epochs: 2
  • mixed_precision_training: Native AMP

Created by Stefano Fiorucci/anakin87

Made with in Italy