inoid commited on
Commit
22a8c92
1 Parent(s): cd41d9d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +75 -87
README.md CHANGED
@@ -11,68 +11,45 @@ model-index:
11
 
12
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
13
  should probably proofread and complete it, then remove this comment. -->
 
14
 
15
- # spanish_medica_llm
16
-
17
- This model is a fine-tuned version of [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) on an unknown dataset.
18
-
19
- ## Model description
20
-
21
- More information needed
22
-
23
- ## Intended uses & limitations
24
-
25
- More information needed
26
-
27
- ## Training and evaluation data
28
 
29
- More information needed
30
 
31
- ## Training procedure
 
32
 
33
- ### Training hyperparameters
34
 
35
- The following hyperparameters were used during training:
36
- - learning_rate: 2.5e-05
37
- - train_batch_size: 16
38
- - eval_batch_size: 1
39
- - seed: 42
40
- - gradient_accumulation_steps: 4
41
- - total_train_batch_size: 64
42
- - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
43
- - lr_scheduler_type: linear
44
- - lr_scheduler_warmup_steps: 5
45
- - training_steps: 2
46
- - mixed_precision_training: Native AMP
47
 
48
- ### Training results
49
 
 
50
 
 
51
 
52
- ### Framework versions
53
 
54
- - PEFT 0.10.0
55
- - Transformers 4.38.0
56
- - Pytorch 2.2.2+cu121
57
- - Datasets 2.18.0
58
- - Tokenizers 0.15.2
59
 
60
- <! --- ############################################################## ----->
61
- <!--
62
- Esta plantilla de Model Card es una adaptación de la de Hugging Face: https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md
63
 
64
- ¿Cómo utilizar esta plantilla? Copia el contenido en el README.md del repo de tu modelo en el Hub de Hugging Face y rellena cada sección.
65
 
66
- Para más información sobre cómo rellenar cada sección ver las docs: https://huggingface.co/docs/hub/model-cards
67
  -->
68
 
69
- # Model Card for < Nombre del modelo >
70
-
71
- <!-- Suele haber un nombre corto ("pretty name") para las URLs, tablas y demás y uno largo más descriptivo. Para crear el pretty name podéis utilizar acrónimos. -->
72
-
73
- <!-- Resumen del modelo y motivación del proyecto (inc. los ODS relacionados). Esta sección es como el abstract. También se puede incluir aquí el logo del proyecto. -->
74
 
75
- <!-- Si queréis incluir una versión de la Dataset Card en español, enlazarla aquí al principio (e.g. `README_es.md`).-->
 
 
 
76
 
77
  ## Model Details
78
 
@@ -80,24 +57,22 @@ Para más información sobre cómo rellenar cada sección ver las docs: https://
80
 
81
  <!-- Resumen del modelo. -->
82
 
83
- - **Developed by:** [More Information Needed] <!-- Nombre de los miembros del equipo -->
 
84
  - **Funded by:** SomosNLP, HuggingFace <!-- Si contasteis con apoyo de otra entidad (e.g. vuestra universidad), añadidla aquí -->
85
  - **Model type:** Language model, instruction tuned
86
- - **Language(s):** [More Information Needed] <!-- Enumerar las lenguas en las que se ha entrenado el modelo, especificando el país de origen. Utilizar códigos ISO. Por ejemplo: Spanish (`es-CL`, `es-ES`, `es-MX`), Catalan (`ca`), Quechua (`qu`). -->
87
  - **License:** apache-2.0 <!-- Elegid una licencia lo más permisiva posible teniendo en cuenta la licencia del model pre-entrenado y los datasets utilizados -->
88
- - **Fine-tuned from model:** [More Information Needed] <!-- Enlace al modelo pre-entrenado que habéis utilizado como base -->
89
- - **Dataset used:** [More Information Needed] <!-- Enlace al dataset utilizado para el ajuste -->
90
 
91
  ### Model Sources
92
 
93
  - **Repository:** [More Information Needed] <!-- Enlace al `main` del repo donde tengáis los scripts, i.e.: o del mismo repo del modelo en HuggingFace o a GitHub. -->
94
  - **Paper:** [optional] [More Information Needed] <!-- Si vais a presentarlo a NAACL poned "WIP", "Comming soon!" o similar. Si no tenéis intención de presentarlo a ninguna conferencia ni escribir un preprint, eliminar. -->
95
  - **Demo:** [More Information Needed] <!-- Enlace a la demo -->
96
- - **Video presentation:** [optional] [More Information Needed] <!-- Enlace a vuestro vídeo de presentación en YouTube (están todos subidos aquí: https://www.youtube.com/playlist?list=PLTA-KAy8nxaASMwEUWkkTfMaDxWBxn-8J) -->
97
 
98
- ### Model Family [optional]
99
-
100
- <!-- Si habéis entrenado varios modelos similares podéis enumerarlos aquí. -->
101
 
102
  ## Uses
103
 
@@ -109,17 +84,12 @@ Para más información sobre cómo rellenar cada sección ver las docs: https://
109
 
110
  [More Information Needed]
111
 
112
- ### Downstream Use [optional]
113
-
114
- <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
115
-
116
- [More Information Needed]
117
-
118
  ### Out-of-Scope Use
119
 
120
  <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
121
 
122
- [More Information Needed]
 
123
 
124
  ## Bias, Risks, and Limitations
125
 
@@ -149,7 +119,7 @@ Use the code below to get started with the model.
149
 
150
  <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
151
 
152
- [More Information Needed]
153
 
154
  ### Training Procedure
155
 
@@ -157,21 +127,24 @@ Use the code below to get started with the model.
157
 
158
  <!-- Detallar la técnica de entrenamiento utilizada y enlazar los scripts/notebooks. -->
159
 
160
- #### Preprocessing [optional]
161
-
162
- [More Information Needed]
163
 
164
  #### Training Hyperparameters
165
 
166
  <!-- Enumerar los valores de los hiperparámetros de entrenamiento. -->
167
 
168
- - **Training regime:** <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
169
-
170
- #### Speeds, Sizes, Times [optional]
171
-
172
- <!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
173
-
174
- [More Information Needed]
 
 
 
 
 
 
175
 
176
  ## Evaluation
177
 
@@ -183,7 +156,7 @@ Use the code below to get started with the model.
183
 
184
  <!-- This should link to a Dataset Card. -->
185
 
186
- [More Information Needed]
187
 
188
  #### Factors
189
 
@@ -217,19 +190,16 @@ Use the code below to get started with the model.
217
 
218
  Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
219
 
220
- - **Hardware Type:** [More Information Needed]
221
- - **Hours used:** [More Information Needed]
222
- - **Cloud Provider:** [More Information Needed]
223
  - **Compute Region:** [More Information Needed]
224
  - **Carbon Emitted:** [More Information Needed]
225
 
226
- ## Technical Specifications [optional]
227
-
228
- <!-- Esta sección es opcional porque seguramente ya habéis mencionado estos detalles más arriba, igualmente está bien incluirlos aquí de nuevo como bullet points a modo de resumen. -->
229
 
230
  ### Model Architecture and Objective
231
 
232
- [More Information Needed]
233
 
234
  ### Compute Infrastructure
235
 
@@ -239,24 +209,40 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
239
 
240
  <!-- Indicar el hardware utilizado, podéis agradecer aquí a quien lo patrocinó. -->
241
 
242
- [More Information Needed]
243
 
244
  #### Software
245
 
246
  <!-- Enumerar las librerías utilizadas (e.g. transformers, distilabel). -->
247
 
 
 
 
 
 
 
 
 
248
  [More Information Needed]
249
 
250
  ## License
251
 
252
  <!-- Indicar bajo qué licencia se libera el modelo explicando, si no es apache 2.0, a qué se debe la licencia más restrictiva (i.e. herencia de las licencias del modelo pre-entrenado o de los datos utilizados). -->
253
 
 
254
  ## Citation
255
 
256
  **BibTeX:**
257
 
258
- [More Information Needed]
259
-
 
 
 
 
 
 
 
260
  <!--
261
 
262
  Aquí tenéis un ejemplo de cita de un dataset que podéis adaptar:
@@ -279,9 +265,6 @@ Aquí tenéis un ejemplo de cita de un dataset que podéis adaptar:
279
 
280
  -->
281
 
282
- ## Glossary [optional]
283
-
284
- <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
285
 
286
  ## More Information
287
 
@@ -289,13 +272,18 @@ Aquí tenéis un ejemplo de cita de un dataset que podéis adaptar:
289
 
290
  This project was developed during the [Hackathon #Somos600M](https://somosnlp.org/hackathon) organized by SomosNLP. The model was trained using GPUs sponsored by HuggingFace.
291
 
292
- **Team:** [More Information Needed]
293
 
294
  <!--
295
  - [Name 1](Link to Hugging Face profile)
296
  - [Name 2](Link to Hugging Face profile)
297
  -->
298
 
 
 
 
 
299
  ## Contact [optional]
300
 
301
  <!-- Email de contacto para´posibles preguntas sobre el modelo. -->
 
 
11
 
12
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
13
  should probably proofread and complete it, then remove this comment. -->
14
+ <!-- Email de contacto para´posibles preguntas sobre el modelo. -->
15
 
16
+ <!--- ############################################################################################################################### -----!>
17
+ <!--
18
+ Esta plantilla de Model Card es una adaptación de la de Hugging Face: https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md
 
 
 
 
 
 
 
 
 
 
19
 
20
+ ¿Cómo utilizar esta plantilla? Copia el contenido en el README.md del repo de tu modelo en el Hub de Hugging Face y rellena cada sección.
21
 
22
+ Para más información sobre cómo rellenar cada sección ver las docs: https://huggingface.co/docs/hub/model-cards
23
+ -->
24
 
25
+ # Model Card for SpanishMedicaLLM
26
 
27
+ <!--
 
 
 
 
 
 
 
 
 
 
 
28
 
29
+ Nombre del modelo:
30
 
31
+ Suele haber un nombre corto ("pretty name") para las URLs, tablas y demás y uno largo más descriptivo. Para crear el pretty name podéis utilizar acrónimos.
32
 
33
+ Idioma:
34
 
35
+ La Model Card puede estar en español o en inglés. Recomendamos que sea en inglés para que la comunidad internacional pueda utilizar vuestro dataset. Teniendo en cuenta que somos una comunidad hispanohablante y no queremos que el idioma sea una barrera, la opción más inclusiva sería escribirla en un idioma y traducirla (automáticamente?) al otro. En el repo entonces habría un README.md (Model Card en inglés) que enlazaría a un README_ES.md (Model Card en español), o viceversa, README.md y README_EN.md. Si necesitáis apoyo con la traducción os podemos ayudar.
36
 
37
+ Qué incluir en esta sección:
 
 
 
 
38
 
39
+ Esta sección es como el abstract. Escribir un resumen del modelo y motivación del proyecto (inc. los ODS relacionados). Si el proyecto tiene un logo, incluidlo aquí.
 
 
40
 
41
+ Si queréis incluir una versión de la Model Card en español, enlazadla aquí al principio (e.g. "A Spanish version of this Model Card can be found under [`README_es.md`](URL)"). De manera análoga para el inglés.
42
 
 
43
  -->
44
 
45
+ Más de 600 millones de personas hablantes del idioma español necesitan recursos, como los LLMs, para la obtención de información médica de forma libre y segura,
46
+ cumpliendo con los objetivo del milenio: Salud y Bienestar, Educación y Calidad, Fin de la Pobreza propuestos por la ONU.
47
+ Existen pocos LLM para el dominio médico en idioma español.
 
 
48
 
49
+ El objetivo de este proyecto es crear un gran modelo de lenguaje (LLM; siglas en inglés) para el contexto médico en español permitiendo crear soluciones
50
+ y servicios de información de salud en LATAM. El modelo contará con información de medicinas convencionales, naturales y tradicionales.
51
+ Un resultado del proyecto es un conjunto de datos público del dominio médico que agrupa recursos de otras fuentes que permite crear o ajustar LLM.
52
+ Los resultados del desempeño del LLM se comparan con otros modelos del state-of-the-art como BioMistral, Meditron, MedPalm.
53
 
54
  ## Model Details
55
 
 
57
 
58
  <!-- Resumen del modelo. -->
59
 
60
+ - **Developed by:** [Dionis López Ramos](https://www.linkedin.com/in/dionis-lopez-ramos/), [Alvaro Garcia Barragan](https://huggingface.co/Alvaro8gb), [Dylan Montoya](https://huggingface.co/dylanmontoya22), [Daniel Bermúdez](https://huggingface.co/Danielbrdz) <!-- Nombre de los miembros del equipo -->
61
+ <!-- Nombre de los miembros del equipo -->
62
  - **Funded by:** SomosNLP, HuggingFace <!-- Si contasteis con apoyo de otra entidad (e.g. vuestra universidad), añadidla aquí -->
63
  - **Model type:** Language model, instruction tuned
64
+ - **Language(s):** Spanish (`es-ES`, `es-CL`) <!-- Enumerar las lenguas en las que se ha entrenado el modelo, especificando el país de origen. Utilizar códigos ISO. Por ejemplo: Spanish (`es-CL`, `es-ES`, `es-MX`), Catalan (`ca`), Quechua (`qu`). -->
65
  - **License:** apache-2.0 <!-- Elegid una licencia lo más permisiva posible teniendo en cuenta la licencia del model pre-entrenado y los datasets utilizados -->
66
+ - **Fine-tuned from model:** [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) <!-- Enlace al modelo pre-entrenado que habéis utilizado como base -->
67
+ - **Dataset used:** [somosnlp/SMC/](https://huggingface.co/datasets/somosnlp/SMC/) <!-- Enlace al dataset utilizado para el ajuste -->
68
 
69
  ### Model Sources
70
 
71
  - **Repository:** [More Information Needed] <!-- Enlace al `main` del repo donde tengáis los scripts, i.e.: o del mismo repo del modelo en HuggingFace o a GitHub. -->
72
  - **Paper:** [optional] [More Information Needed] <!-- Si vais a presentarlo a NAACL poned "WIP", "Comming soon!" o similar. Si no tenéis intención de presentarlo a ninguna conferencia ni escribir un preprint, eliminar. -->
73
  - **Demo:** [More Information Needed] <!-- Enlace a la demo -->
74
+ - **Video presentation:** [SpanishMedicaLLM | Proyecto Hackathon #SomosNLP ](https://www.youtube.com/watch?v=tVe_MC7Da6k) <!-- Enlace a vuestro vídeo de presentación en YouTube (están todos subidos aquí: https://www.youtube.com/playlist?list=PLTA-KAy8nxaASMwEUWkkTfMaDxWBxn-8J) -->
75
 
 
 
 
76
 
77
  ## Uses
78
 
 
84
 
85
  [More Information Needed]
86
 
 
 
 
 
 
 
87
  ### Out-of-Scope Use
88
 
89
  <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
90
 
91
+ Los creadores del LLM no se hacen responsable de resultados nocivos que puedan generar. Se sugiere un proceso de evaluación riguroso con especialistas
92
+ de los resultados generados.
93
 
94
  ## Bias, Risks, and Limitations
95
 
 
119
 
120
  <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
121
 
122
+ Dataset used was [somosnlp/SMC/](https://huggingface.co/datasets/somosnlp/SMC/)
123
 
124
  ### Training Procedure
125
 
 
127
 
128
  <!-- Detallar la técnica de entrenamiento utilizada y enlazar los scripts/notebooks. -->
129
 
 
 
 
130
 
131
  #### Training Hyperparameters
132
 
133
  <!-- Enumerar los valores de los hiperparámetros de entrenamiento. -->
134
 
135
+ **Training regime:**
136
+ - learning_rate: 2.5e-05
137
+ - train_batch_size: 16
138
+ - eval_batch_size: 1
139
+ - seed: 42
140
+ - gradient_accumulation_steps: 4
141
+ - total_train_batch_size: 64
142
+ - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
143
+ - lr_scheduler_type: linear
144
+ - lr_scheduler_warmup_steps: 5
145
+ - training_steps: 2
146
+ - mixed_precision_training: Native AMP
147
+ - <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
148
 
149
  ## Evaluation
150
 
 
156
 
157
  <!-- This should link to a Dataset Card. -->
158
 
159
+ Dataset used was a 20% from [somosnlp/SMC/](https://huggingface.co/datasets/somosnlp/SMC/)
160
 
161
  #### Factors
162
 
 
190
 
191
  Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
192
 
193
+ - **Hardware Type:** GPU
194
+ - **Hours used:** 4 Hours
195
+ - **Cloud Provider:** [Hugginface](https://huggingface.co)
196
  - **Compute Region:** [More Information Needed]
197
  - **Carbon Emitted:** [More Information Needed]
198
 
 
 
 
199
 
200
  ### Model Architecture and Objective
201
 
202
+ We used a LLM arquitecture to [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) because if a foundational model trained in medical domain datasets.
203
 
204
  ### Compute Infrastructure
205
 
 
209
 
210
  <!-- Indicar el hardware utilizado, podéis agradecer aquí a quien lo patrocinó. -->
211
 
212
+ Nvidia T4 Small 4 vCPU 15 GB RAM 16 GB VRAM
213
 
214
  #### Software
215
 
216
  <!-- Enumerar las librerías utilizadas (e.g. transformers, distilabel). -->
217
 
218
+ - transformers==4.38.0
219
+ - torch>=2.1.1+cu113
220
+ - trl @ git+https://github.com/huggingface/trl
221
+ - peft
222
+ - wandb
223
+ - accelerate
224
+ - datasets
225
+
226
  [More Information Needed]
227
 
228
  ## License
229
 
230
  <!-- Indicar bajo qué licencia se libera el modelo explicando, si no es apache 2.0, a qué se debe la licencia más restrictiva (i.e. herencia de las licencias del modelo pre-entrenado o de los datos utilizados). -->
231
 
232
+ Apache License 2.0
233
  ## Citation
234
 
235
  **BibTeX:**
236
 
237
+ ```
238
+ @software{lopez2024spanishmedicallm,
239
+ author = {Lopez Dionis, Garcia Alvaro, Montoya Dylan, Bermúdez Daniel},
240
+ title = {SpanishMedicaLLM},
241
+ month = February,
242
+ year = 2024,
243
+ url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia}
244
+ }
245
+ ```
246
  <!--
247
 
248
  Aquí tenéis un ejemplo de cita de un dataset que podéis adaptar:
 
265
 
266
  -->
267
 
 
 
 
268
 
269
  ## More Information
270
 
 
272
 
273
  This project was developed during the [Hackathon #Somos600M](https://somosnlp.org/hackathon) organized by SomosNLP. The model was trained using GPUs sponsored by HuggingFace.
274
 
275
+ **Team:**
276
 
277
  <!--
278
  - [Name 1](Link to Hugging Face profile)
279
  - [Name 2](Link to Hugging Face profile)
280
  -->
281
 
282
+ - [Dionis López Ramos](https://huggingface.co/inoid)
283
+ - [Alvaro Garcia Barragan](https://huggingface.co/Alvaro8gb)
284
+ - [Dylan Montoya](https://huggingface.co/dylanmontoya22)
285
+ - [Daniel Bermúdez](https://huggingface.co/Danielbrdz)
286
  ## Contact [optional]
287
 
288
  <!-- Email de contacto para´posibles preguntas sobre el modelo. -->
289
+ For any doubt or suggestion contact to: PhD Dionis López (inoid2007@gmail.com)