projecte-aina
/

FLOR-6.3B

@@ -26,31 +26,56 @@ widget:
     Pregunta: "Explica com funciona un motor de combustió"
     Resposta:
   example_title: Pregunta-Resposta
-- text: |-
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Me llamo Wolfgang y vivo en Berlin"
     Entidades: Wolfgang:PER, Berlin:LOC
     ----
     Extrae las entidades nombradas del siguiente texto:
-    Texto: "Hoy voy a visitar el parc güell tras salir del barcelona supercomputing center"
     Entidades: parc güell:LOC, barcelona supercomputing center:LOC
     ----
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Maria y Miguel no tienen ningún problema contigo"
     Entidades: Maria:PER, Miguel:PER
     ----
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Damián se cortó el pelo"
     Entidades: Damián:PER
     ----
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Lo mejor de Barcelona és el bar de mi amigo Pablo"
     Entidades: Pablo:PER, Barcelona:LOC
     ----
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Carlos comparte piso con Marc"
     Entidades:
   example_title: Entidades-Nombradas
 ---
 # FLOR-6.3B
@@ -129,7 +154,7 @@ to be adapted before continuing its pre-training with data in the target languag
 ### Training data
-The training corpus is composed of 140B tokens gathered from web crawlings and public domain data.
 Dataset	| Language	| Words (per-epoch)	| Epochs	| Total Tokens |
 |---------------------|----------|--------------------|--------------|--------------|

     Pregunta: "Explica com funciona un motor de combustió"
     Resposta:
   example_title: Pregunta-Resposta
+- text: >-
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Me llamo Wolfgang y vivo en Berlin"
     Entidades: Wolfgang:PER, Berlin:LOC
     ----
     Extrae las entidades nombradas del siguiente texto:
+    Texto: "Hoy voy a visitar el parc güell tras salir del barcelona
+    supercomputing center"
     Entidades: parc güell:LOC, barcelona supercomputing center:LOC
     ----
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Maria y Miguel no tienen ningún problema contigo"
     Entidades: Maria:PER, Miguel:PER
     ----
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Damián se cortó el pelo"
     Entidades: Damián:PER
     ----
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Lo mejor de Barcelona és el bar de mi amigo Pablo"
     Entidades: Pablo:PER, Barcelona:LOC
     ----
     Extrae las entidades nombradas del siguiente texto:
     Texto: "Carlos comparte piso con Marc"
     Entidades:
   example_title: Entidades-Nombradas
+datasets:
+- projecte-aina/CATalog
 ---
 # FLOR-6.3B
 ### Training data
+The training corpus is composed of 140B tokens gathered from web crawlings and public domain data. Most of the sources in Catalan have been obtained from the CATalog dataset, filtered with a minimum threshold of 0.6 and oversampling some of the sources it integrates to different extents.
 Dataset	| Language	| Words (per-epoch)	| Epochs	| Total Tokens |
 |---------------------|----------|--------------------|--------------|--------------|