Question Answering
Transformers
PyTorch
Safetensors
French
camembert
Carbon Emissions
Inference Endpoints
bourdoiscatie commited on
Commit
3da7444
1 Parent(s): c72c78a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +145 -27
README.md CHANGED
@@ -1,52 +1,170 @@
1
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
 
3
- language:
4
- - fr
5
- tags:
6
- - fr
 
 
7
 
8
- ---
9
- ### Best french QA model shared on HF!
10
- It also has a great <span style="color: red">unique </span> feature : it will output a low probability if the answer is not in the context!
11
 
12
- ( Depending on the sensibility of your use case, you will choose a threshold under which the answer should be rejected. Say 0.1 for a first value)
13
 
 
 
 
 
 
 
 
14
 
15
- ### FQuAD Evaluation
 
 
16
  ```shell
17
- {'exact_match': 57.214554579673774, 'f1': 80.75789384679857}''
18
  ```
19
 
 
 
 
 
 
 
 
 
 
 
20
  ## Usage
 
 
 
 
 
 
 
 
 
 
 
21
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
22
  ```python
23
  from transformers import pipeline
24
 
25
- nlp = pipeline('question-answering', model='CATIE-AQ/QAmembert', tokenizer='CATIE-AQ/QAmembert')
26
 
27
- nlp({
28
- 'question': "Qui est Claude Monet?",
29
- 'context': "Claude Monet, le 14 novembre 1840 à Paris et mort le 5 décembre 1926 à Giverny, est un peintre français et l’un des fondateurs de l'impressionnisme."
 
30
  })
 
 
 
 
 
31
  ```
32
  ```python
33
- {'score': 0.3969743847846985,
34
- 'start': 87,
35
- 'end': 106,
36
- 'answer': 'un peintre français'}
 
 
 
 
 
 
 
37
  ```
38
 
39
- This model was trained on our servers with several datasets :
40
- - fquad
41
- - squad2fr (traduction from squad2 de pragnakalp)
42
- - piaf 1.0+1.1+1.2
43
- - newsquadfr
44
- - one dataset of ours of squad v2.0 type, the answer is NOT in the context.
45
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
46
 
 
47
 
48
- The CATIE (Centre Aquitain des Technologies de l'Information et Électroniques) is a center for technologic transfer specialized in digital technologies.
49
- CATIE has a multidisciplinary approach through three fields of action : human factors and cognition, digital systems and AI.
50
- https://www.catie.fr/en/home/
 
 
 
 
 
 
 
51
 
 
 
 
 
 
 
 
 
 
52
 
 
 
 
1
  ---
2
+ language: fr
3
+ datasets:
4
+ - piaf
5
+ - FQuAD
6
+ - lincoln/newsquadfr
7
+ - pragnakalp/squad_v2_french_translated
8
+ widget:
9
+ - text: Combien de personnes utilisent le français tous les jours ?
10
+ context: >-
11
+ Le français est une langue indo-européenne de la famille des langues romanes
12
+ dont les locuteurs sont appelés francophones. Elle est parfois surnommée la
13
+ langue de Molière. Le français est parlé, en 2023, sur tous les continents
14
+ par environ 321 millions de personnes : 235 millions l'emploient
15
+ quotidiennement et 90 millions en sont des locuteurs natifs. En 2018, 80
16
+ millions d'élèves et étudiants s'instruisent en français dans le monde.
17
+ Selon l'Organisation internationale de la francophonie (OIF), il pourrait y
18
+ avoir 700 millions de francophones sur Terre en 2050.
19
+ license: cc-by-4.0
20
+ metrics:
21
+ - f1
22
+ - exact_match
23
+ library_name: transformers
24
+ pipeline_tag: question-answering
25
+ ---
26
 
27
+ # QAmembert
28
+
29
+ ## Model Description
30
+
31
+ We present **QAmemBERT**, which is a [CamemBERT base](https://huggingface.co/camembert-base) fine-tuned for the Question-Answering task for the French language on five French Q&A datasets composed of contexts and questions with their answers inside the context (= SQuAD v1 format) but also contexts and questions with their answers not inside the context (= SQuAD v2 format).
32
+ This represents a total of over **138 061 questions/answers pairs used to finetune this model and 3,188 to test it**.
33
 
 
 
 
34
 
35
+ ## Datasets
36
 
37
+ | Dataset | Format | Train split | Dev split | Test split |
38
+ | ----------- | ----------- | ----------- | ----------- | ----------- |
39
+ | [PIAFv1.2](https://www.data.gouv.fr/en/datasets/piaf-le-dataset-francophone-de-questions-reponses/)| SQuAD v1 | 9 225 Q & A | X | X |
40
+ | [FQuADv1.0](https://fquad.illuin.tech/)| SQuAD v1 | 20 731 Q & A | 3 188 Q & A (not used in training because it serves as a test dataset) | 2 189 Q & A (not used in our work because not freely available)|
41
+ | [lincoln/newsquadfr](https://huggingface.co/datasets/lincoln/newsquadfr) | SQuAD v1 | 1 650 Q & A | 455 Q & A (not used in our work) | 415 Q & A (not used in our work) |
42
+ | [pragnakalp/squad_v2_french_translated](https://huggingface.co/datasets/pragnakalp/squad_v2_french_translated)| SQuAD v2 | 79 069 Q & A | X | X |
43
+ | [Mfa]() | SQuAD v2 | 27 386 Q & A | X | X |
44
 
45
+
46
+ ## Evaluation results
47
+ ### FQuAD v1.0 Evaluation
48
  ```shell
49
+ {"f1": 80.75789384679857, "exact_match": 57.214554579673774}
50
  ```
51
 
52
+ ### Benchmark
53
+
54
+
55
+ | Model | Exact_match | F1-score |
56
+ | ----------- | ----------- | ----------- |
57
+ | [etalab-ia/camembert-base-squadFR-fquad-piaf](https://huggingface.co/etalab-ia/camembert-base-squadFR-fquad-piaf) | 55.14 | 79.81 |
58
+ | QAmembert | **57.21** | **80.76** |
59
+
60
+
61
+
62
  ## Usage
63
+ ### Example with answer in the context
64
+
65
+ ```python
66
+ from transformers import pipeline
67
+
68
+ qa = pipeline('question-answering', model='CATIE-AQ/QAmembert', tokenizer='CATIE-AQ/QAmembert')
69
+
70
+ result = qa({
71
+ 'question': "Combien de personnes utilisent le français tous les jours ?",
72
+ 'context': "Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés francophones. Elle est parfois surnommée la langue de Molière. Le français est parlé, en 2023, sur tous les continents par environ 321 millions de personnes : 235 millions l'emploient quotidiennement et 90 millions en sont des locuteurs natifs. En 2018, 80 millions d'élèves et étudiants s'instruisent en français dans le monde. Selon l'Organisation internationale de la francophonie (OIF), il pourrait y avoir 700 millions de francophones sur Terre en 2050."
73
+ })
74
 
75
+ if result['score'] < 0.1:
76
+ print("La réponse n'est pas dans le contexte fourni.")
77
+ else :
78
+ print(result['answer'])
79
+ ```
80
+ ```python
81
+ 235 millions
82
+ ```
83
+ ```python
84
+ # details
85
+ result
86
+ {
87
+ "score": 0.9703257083892822,
88
+ "start": 269,
89
+ "end": 281,
90
+ "answer": "235 millions"
91
+ }
92
+ ```
93
+
94
+
95
+ ### Example with answer not in the context
96
  ```python
97
  from transformers import pipeline
98
 
99
+ qa = pipeline('question-answering', model='CATIE-AQ/QAmembert', tokenizer='CATIE-AQ/QAmembert')
100
 
101
+ result = qa({
102
+ 'question': "Quel est le meilleur vin du monde ?",
103
+ 'context': "La tour Eiffel est une tour de fer puddlé de 330 m de hauteur (avec antennes) située à Paris, à l’extrémité nord-ouest du parc du Champ-de-Mars en bordure de la Seine dans le 7e arrondissement. Son adresse officielle est 5, avenue Anatole-France.
104
+ Construite en deux ans par Gustave Eiffel et ses collaborateurs pour l'Exposition universelle de Paris de 1889, célébrant le centenaire de la Révolution française, et initialement nommée « tour de 300 mètres », elle est devenue le symbole de la capitale française et un site touristique de premier plan : il s’agit du quatrième site culturel français payant le plus visité en 2016, avec 5,9 millions de visiteurs. Depuis son ouverture au public, elle a accueilli plus de 300 millions de visiteurs."
105
  })
106
+
107
+ if result['score'] < 0.1:
108
+ print("La réponse n'est pas dans le contexte fourni.")
109
+ else :
110
+ print(result['answer'])
111
  ```
112
  ```python
113
+ La réponse n'est pas dans le contexte fourni.
114
+ ```
115
+ ```python
116
+ # details
117
+ result
118
+ {
119
+ "score": 0.00011322159843984991,
120
+ "start": 0,
121
+ "end": 14,
122
+ "answer": "La tour Eiffel"
123
+ }
124
  ```
125
 
126
+ ## Citations
 
 
 
 
 
127
 
128
+ ### PIAF
129
+ ```
130
+ @inproceedings{KeraronLBAMSSS20,
131
+ author = {Rachel Keraron and
132
+ Guillaume Lancrenon and
133
+ Mathilde Bras and
134
+ Fr{\'{e}}d{\'{e}}ric Allary and
135
+ Gilles Moyse and
136
+ Thomas Scialom and
137
+ Edmundo{-}Pavel Soriano{-}Morales and
138
+ Jacopo Staiano},
139
+ title = {Project {PIAF:} Building a Native French Question-Answering Dataset},
140
+ booktitle = {{LREC}},
141
+ pages = {5481--5490},
142
+ publisher = {European Language Resources Association},
143
+ year = {2020}
144
+ }
145
 
146
+ ```
147
 
148
+ ### FQuAD
149
+ ```
150
+ @article{dHoffschmidt2020FQuADFQ,
151
+ title={FQuAD: French Question Answering Dataset},
152
+ author={Martin d'Hoffschmidt and Maxime Vidal and Wacim Belblidia and Tom Brendl'e and Quentin Heinrich},
153
+ journal={ArXiv},
154
+ year={2020},
155
+ volume={abs/2002.06071}
156
+ }
157
+ ```
158
 
159
+ ### CamemBERT
160
+ ```
161
+ @inproceedings{martin2020camembert,
162
+ title={CamemBERT: a Tasty French Language Model},
163
+ author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
164
+ booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
165
+ year={2020}
166
+ }
167
+ ```
168
 
169
+ ## License
170
+ [cc-by-4.0](https://creativecommons.org/licenses/by/4.0/deed.en)