jpalomar commited on
Commit
7b0cbfd
1 Parent(s): 13b9851

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +28 -3
README.md CHANGED
@@ -26,31 +26,56 @@ widget:
26
  Pregunta: "Explica com funciona un motor de combustió"
27
  Resposta:
28
  example_title: Pregunta-Resposta
29
- - text: |-
30
  Extrae las entidades nombradas del siguiente texto:
 
31
  Texto: "Me llamo Wolfgang y vivo en Berlin"
 
32
  Entidades: Wolfgang:PER, Berlin:LOC
 
33
  ----
 
34
  Extrae las entidades nombradas del siguiente texto:
35
- Texto: "Hoy voy a visitar el parc güell tras salir del barcelona supercomputing center"
 
 
 
36
  Entidades: parc güell:LOC, barcelona supercomputing center:LOC
 
37
  ----
 
38
  Extrae las entidades nombradas del siguiente texto:
 
39
  Texto: "Maria y Miguel no tienen ningún problema contigo"
 
40
  Entidades: Maria:PER, Miguel:PER
 
41
  ----
 
42
  Extrae las entidades nombradas del siguiente texto:
 
43
  Texto: "Damián se cortó el pelo"
 
44
  Entidades: Damián:PER
 
45
  ----
 
46
  Extrae las entidades nombradas del siguiente texto:
 
47
  Texto: "Lo mejor de Barcelona és el bar de mi amigo Pablo"
 
48
  Entidades: Pablo:PER, Barcelona:LOC
 
49
  ----
 
50
  Extrae las entidades nombradas del siguiente texto:
 
51
  Texto: "Carlos comparte piso con Marc"
 
52
  Entidades:
53
  example_title: Entidades-Nombradas
 
 
54
  ---
55
 
56
  # FLOR-6.3B
@@ -129,7 +154,7 @@ to be adapted before continuing its pre-training with data in the target languag
129
 
130
  ### Training data
131
 
132
- The training corpus is composed of 140B tokens gathered from web crawlings and public domain data.
133
 
134
  Dataset | Language | Words (per-epoch) | Epochs | Total Tokens |
135
  |---------------------|----------|--------------------|--------------|--------------|
 
26
  Pregunta: "Explica com funciona un motor de combustió"
27
  Resposta:
28
  example_title: Pregunta-Resposta
29
+ - text: >-
30
  Extrae las entidades nombradas del siguiente texto:
31
+
32
  Texto: "Me llamo Wolfgang y vivo en Berlin"
33
+
34
  Entidades: Wolfgang:PER, Berlin:LOC
35
+
36
  ----
37
+
38
  Extrae las entidades nombradas del siguiente texto:
39
+
40
+ Texto: "Hoy voy a visitar el parc güell tras salir del barcelona
41
+ supercomputing center"
42
+
43
  Entidades: parc güell:LOC, barcelona supercomputing center:LOC
44
+
45
  ----
46
+
47
  Extrae las entidades nombradas del siguiente texto:
48
+
49
  Texto: "Maria y Miguel no tienen ningún problema contigo"
50
+
51
  Entidades: Maria:PER, Miguel:PER
52
+
53
  ----
54
+
55
  Extrae las entidades nombradas del siguiente texto:
56
+
57
  Texto: "Damián se cortó el pelo"
58
+
59
  Entidades: Damián:PER
60
+
61
  ----
62
+
63
  Extrae las entidades nombradas del siguiente texto:
64
+
65
  Texto: "Lo mejor de Barcelona és el bar de mi amigo Pablo"
66
+
67
  Entidades: Pablo:PER, Barcelona:LOC
68
+
69
  ----
70
+
71
  Extrae las entidades nombradas del siguiente texto:
72
+
73
  Texto: "Carlos comparte piso con Marc"
74
+
75
  Entidades:
76
  example_title: Entidades-Nombradas
77
+ datasets:
78
+ - projecte-aina/CATalog
79
  ---
80
 
81
  # FLOR-6.3B
 
154
 
155
  ### Training data
156
 
157
+ The training corpus is composed of 140B tokens gathered from web crawlings and public domain data. Most of the sources in Catalan have been obtained from the CATalog dataset, filtered with a minimum threshold of 0.6 and oversampling some of the sources it integrates to different extents.
158
 
159
  Dataset | Language | Words (per-epoch) | Epochs | Total Tokens |
160
  |---------------------|----------|--------------------|--------------|--------------|