Question Answering
Transformers
PyTorch
Safetensors
French
camembert
Carbon Emissions
Inference Endpoints
bourdoiscatie commited on
Commit
a65d3b8
1 Parent(s): 54eaf88

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +36 -20
README.md CHANGED
@@ -22,24 +22,33 @@ metrics:
22
  - exact_match
23
  library_name: transformers
24
  pipeline_tag: question-answering
 
25
  ---
26
 
27
  # QAmembert
28
 
29
  ## Model Description
30
 
31
- We present **QAmemBERT**, which is a [CamemBERT base](https://huggingface.co/camembert-base) fine-tuned for the Question-Answering task for the French language on five French Q&A datasets composed of contexts and questions with their answers inside the context (= SQuAD v1 format) but also contexts and questions with their answers not inside the context (= SQuAD v2 format).
32
- This represents a total of over **138 061 questions/answers pairs used to finetune this model and 3,188 to test it**.
 
33
 
34
 
35
  ## Datasets
36
 
37
  | Dataset | Format | Train split | Dev split | Test split |
38
  | ----------- | ----------- | ----------- | ----------- | ----------- |
39
- | [PIAFv1.2](https://www.data.gouv.fr/en/datasets/piaf-le-dataset-francophone-de-questions-reponses/)| SQuAD v1 | 9 225 Q & A | X | X |
40
- | [FQuADv1.0](https://fquad.illuin.tech/)| SQuAD v1 | 20 731 Q & A | 3 188 Q & A (not used in training because it serves as a test dataset) | 2 189 Q & A (not used in our work because not freely available)|
41
- | [lincoln/newsquadfr](https://huggingface.co/datasets/lincoln/newsquadfr) | SQuAD v1 | 1 650 Q & A | 455 Q & A (not used in our work) | 415 Q & A (not used in our work) |
42
- | [pragnakalp/squad_v2_french_translated](https://huggingface.co/datasets/pragnakalp/squad_v2_french_translated)| SQuAD v2 | 79 069 Q & A | X | X |
 
 
 
 
 
 
 
43
 
44
  ## Evaluation results
45
 
@@ -99,7 +108,7 @@ result = qa({
99
  'context': "Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés francophones. Elle est parfois surnommée la langue de Molière. Le français est parlé, en 2023, sur tous les continents par environ 321 millions de personnes : 235 millions l'emploient quotidiennement et 90 millions en sont des locuteurs natifs. En 2018, 80 millions d'élèves et étudiants s'instruisent en français dans le monde. Selon l'Organisation internationale de la francophonie (OIF), il pourrait y avoir 700 millions de francophones sur Terre en 2050."
100
  })
101
 
102
- if result['score'] < 0.1:
103
  print("La réponse n'est pas dans le contexte fourni.")
104
  else :
105
  print(result['answer'])
@@ -110,12 +119,10 @@ else :
110
  ```python
111
  # details
112
  result
113
- {
114
- "score": 0.9703257083892822,
115
- "start": 269,
116
- "end": 281,
117
- "answer": "235 millions"
118
- }
119
  ```
120
 
121
 
@@ -131,7 +138,7 @@ result = qa({
131
  Construite en deux ans par Gustave Eiffel et ses collaborateurs pour l'Exposition universelle de Paris de 1889, célébrant le centenaire de la Révolution française, et initialement nommée « tour de 300 mètres », elle est devenue le symbole de la capitale française et un site touristique de premier plan : il s’agit du quatrième site culturel français payant le plus visité en 2016, avec 5,9 millions de visiteurs. Depuis son ouverture au public, elle a accueilli plus de 300 millions de visiteurs."
132
  })
133
 
134
- if result['score'] < 0.1:
135
  print("La réponse n'est pas dans le contexte fourni.")
136
  else :
137
  print(result['answer'])
@@ -142,14 +149,23 @@ La réponse n'est pas dans le contexte fourni.
142
  ```python
143
  # details
144
  result
145
- {
146
- "score": 0.00011322159843984991,
147
- "start": 0,
148
- "end": 14,
149
- "answer": "La tour Eiffel"
150
- }
151
  ```
152
 
 
 
 
 
 
 
 
 
 
 
 
153
  ## Citations
154
 
155
  ### PIAF
 
22
  - exact_match
23
  library_name: transformers
24
  pipeline_tag: question-answering
25
+ co2_eq_emissions: 90
26
  ---
27
 
28
  # QAmembert
29
 
30
  ## Model Description
31
 
32
+ We present **QAmemBERT**, which is a [CamemBERT base](https://huggingface.co/camembert-base) fine-tuned for the Question-Answering task for the French language on four French Q&A datasets composed of contexts and questions with their answers inside the context (= SQuAD v1 format) but also contexts and questions with their answers not inside the context (= SQuAD v2 format).
33
+ All these datasets were concatenated into a single dataset that we called [frenchQA](https://huggingface.co/datasets/CATIE-AQ/frenchQA).
34
+ This represents a total of over **221,348 questions/answers pairs used to finetune this model and 6,376 to test it**.
35
 
36
 
37
  ## Datasets
38
 
39
  | Dataset | Format | Train split | Dev split | Test split |
40
  | ----------- | ----------- | ----------- | ----------- | ----------- |
41
+ | [piaf](https://www.data.gouv.fr/en/datasets/piaf-le-dataset-francophone-de-questions-reponses/)| SQuAD v1 | 9 224 Q & A | X | X |
42
+ | piaf_v2| SQuAD v2 | 9 224 Q & A | X | X |
43
+ | [fquad](https://fquad.illuin.tech/)| SQuAD v1 | 20 731 Q & A | 3 188 Q & A (not used in training because it serves as a test dataset) | 2 189 Q & A (not used in our work because not freely available)|
44
+ | fquad_v2 | SQuAD v2 | 20 731 Q & A | 3 188 Q & A (not used in training because it serves as a test dataset) | X |
45
+ | [lincoln/newsquadfr](https://huggingface.co/datasets/lincoln/newsquadfr) | SQuAD v1 | 1 650 Q & A | 455 Q & A (not used in our work) | X |
46
+ | lincoln/newsquadfr_v2 | SQuAD v2 | 1 650 Q & A | 455 Q & A (not used in our work) | X |
47
+ | [pragnakalp/squad_v2_french_translated](https://huggingface.co/datasets/pragnakalp/squad_v2_french_translated)| SQuAD v2 | 79 069 Q & A | X | X |
48
+ | pragnakalp/squad_v2_french_translated_v2| SQuAD v2 | 79 069 Q & A | X | X |
49
+
50
+ All these datasets were concatenated into a single dataset that we called [frenchQA](https://huggingface.co/datasets/CATIE-AQ/frenchQA).
51
+
52
 
53
  ## Evaluation results
54
 
 
108
  'context': "Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés francophones. Elle est parfois surnommée la langue de Molière. Le français est parlé, en 2023, sur tous les continents par environ 321 millions de personnes : 235 millions l'emploient quotidiennement et 90 millions en sont des locuteurs natifs. En 2018, 80 millions d'élèves et étudiants s'instruisent en français dans le monde. Selon l'Organisation internationale de la francophonie (OIF), il pourrait y avoir 700 millions de francophones sur Terre en 2050."
109
  })
110
 
111
+ if result['score'] < 0.01:
112
  print("La réponse n'est pas dans le contexte fourni.")
113
  else :
114
  print(result['answer'])
 
119
  ```python
120
  # details
121
  result
122
+ {'score': 0.9945194721221924,
123
+ 'start': 269,
124
+ 'end': 281,
125
+ 'answer': '235 millions'}
 
 
126
  ```
127
 
128
 
 
138
  Construite en deux ans par Gustave Eiffel et ses collaborateurs pour l'Exposition universelle de Paris de 1889, célébrant le centenaire de la Révolution française, et initialement nommée « tour de 300 mètres », elle est devenue le symbole de la capitale française et un site touristique de premier plan : il s’agit du quatrième site culturel français payant le plus visité en 2016, avec 5,9 millions de visiteurs. Depuis son ouverture au public, elle a accueilli plus de 300 millions de visiteurs."
139
  })
140
 
141
+ if result['score'] < 0.01:
142
  print("La réponse n'est pas dans le contexte fourni.")
143
  else :
144
  print(result['answer'])
 
149
  ```python
150
  # details
151
  result
152
+ {'score': 3.619904940035945e-13,
153
+ 'start': 734,
154
+ 'end': 744,
155
+ 'answer': 'visiteurs.'}
 
 
156
  ```
157
 
158
+ ## Environmental Impact
159
+
160
+ *Carbon emissions were estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700). The hardware, runtime, cloud provider, and compute region were utilized to estimate the carbon impact.*
161
+
162
+ - **Hardware Type:** A100 PCIe 40/80GB
163
+ - **Hours used:** 4.96
164
+ - **Cloud Provider:** Private Infrastructure
165
+ - **Carbon Efficiency (kg/kWh):** 0.076kg (estimated from [electricitymaps](https://app.electricitymaps.com/zone/FR) ; we take the average carbon intensity in France for the month of March 2023, as we are unable to use the data for the day of training, which are not available.)
166
+ - **Carbon Emitted** *(Power consumption x Time x Carbon produced based on location of power grid)*: 0.09 kg eq. CO2
167
+
168
+
169
  ## Citations
170
 
171
  ### PIAF