Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,101 @@
|
|
1 |
---
|
2 |
license: mit
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
license: mit
|
3 |
+
language:
|
4 |
+
- gl
|
5 |
+
metrics:
|
6 |
+
- bleu (Gold1): 82.6
|
7 |
+
- bleu (Gold2): 49.9
|
8 |
+
- bleu (Flores): 23.8
|
9 |
+
- bleu (Test-suite): 77.2
|
10 |
---
|
11 |
+
license: mit
|
12 |
+
---
|
13 |
+
|
14 |
+
**English text [here](https://huggingface.co/proxectonos/NOS-MT-OpenNMT-gl-es/blob/main/README_English.md)**
|
15 |
+
|
16 |
+
**Descrición do Modelo**
|
17 |
+
|
18 |
+
Modelo feito con OpenNMT para o par galego-inglés utilizando unha arquitectura transformer.
|
19 |
+
|
20 |
+
**Como traducir**
|
21 |
+
|
22 |
+
+ Abrir terminal bash
|
23 |
+
+ Instalar [Python 3.9](https://www.python.org/downloads/release/python-390/)
|
24 |
+
+ Instalar [Open NMT toolkit v.2.2](https://github.com/OpenNMT/OpenNMT-py)
|
25 |
+
+ Traducir un input_text utilizando o modelo NOS-MT-gl-es co seguinte comando:
|
26 |
+
|
27 |
+
```bash
|
28 |
+
onmt_translate -src input_text -model NOS-MT-gl-es.pt --output ./output_file.txt --replace_unk -gpu 0
|
29 |
+
```
|
30 |
+
+ O resultado da tradución estará no PATH indicado no flag -output.
|
31 |
+
|
32 |
+
**Adestramento**
|
33 |
+
|
34 |
+
No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](https://github.com/proxectonos/corpora). Os primeiros son corpora de traducións feitas directamente por tradutores humanos. Os segundos son corpora de traducións inglés-portugués, que convertemos en inglés-galego a través da tradución automática portugués-galego con Opentrad/Apertium e transliteración para palabras fóra de vocabulario.
|
35 |
+
|
36 |
+
|
37 |
+
**Procedemento de adestramento / Training process**
|
38 |
+
|
39 |
+
+ Tokenización dos datasets feita co tokenizador de LinguaKit https://github.com/citiususc/Linguakit
|
40 |
+
|
41 |
+
+ O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
|
42 |
+
|
43 |
+
+ Usando o .yaml neste repositorio pode replicar o proceso de adestramento do seguinte xeito
|
44 |
+
|
45 |
+
```bash
|
46 |
+
onmt_build_vocab -config bpe-gl-es_emb.yaml -n_sample 100000
|
47 |
+
onmt_train -config bpe-gl-es_emb.yaml
|
48 |
+
```
|
49 |
+
|
50 |
+
**Hiperparámetros**
|
51 |
+
|
52 |
+
Os parámetros usados para o desenvolvemento do modelo poden ser consultados directamente no mesmo ficheiro .yaml bpe-gl-es_emb.yaml
|
53 |
+
|
54 |
+
**Avaliación**
|
55 |
+
|
56 |
+
A avalación BLEU dos modelos é feita cunha mistura de tests desenvolvidos internamente (gold1, gold2, test-suite) con outros datasets disponíbeis en galego (Flores).
|
57 |
+
|
58 |
+
| GOLD 1 | GOLD 2 | FLORES | TEST-SUITE|
|
59 |
+
| ------------- |:-------------:| -------:|----------:|
|
60 |
+
| 82.6 | 49.9 | 23.8 | 77.2 |
|
61 |
+
|
62 |
+
|
63 |
+
|
64 |
+
**Licenzas do Modelo**
|
65 |
+
|
66 |
+
MIT License
|
67 |
+
|
68 |
+
Copyright (c) 2023 Proxecto Nós
|
69 |
+
|
70 |
+
Permission is hereby granted, free of charge, to any person obtaining a copy
|
71 |
+
of this software and associated documentation files (the "Software"), to deal
|
72 |
+
in the Software without restriction, including without limitation the rights
|
73 |
+
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
|
74 |
+
copies of the Software, and to permit persons to whom the Software is
|
75 |
+
furnished to do so, subject to the following conditions:
|
76 |
+
|
77 |
+
The above copyright notice and this permission notice shall be included in all
|
78 |
+
copies or substantial portions of the Software.
|
79 |
+
|
80 |
+
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
|
81 |
+
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
|
82 |
+
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
|
83 |
+
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
|
84 |
+
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
|
85 |
+
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
|
86 |
+
SOFTWARE.
|
87 |
+
|
88 |
+
**Financiamento**
|
89 |
+
|
90 |
+
Esta investigación foi financiada polo proxecto "Nós: o galego na sociedade e economía da intelixencia artificial", resultado dun acordo entre a Xunta de Galicia e a Universidade de Santiago de Compostela, o que resultou no subsidio ED431G2019/04 da Consellaría de Educación, Universidade e Formación Profesional da Galiza, e polo Fondo Europeo de Desenvolvemento Rexional (programa ERDF/FEDER), e Grupos de Referencia: ED431C 2020/21.
|
91 |
+
|
92 |
+
|
93 |
+
**Citar este traballo**
|
94 |
+
|
95 |
+
Se utilizar este modelo no seu traballo, cite por favor así:
|
96 |
+
|
97 |
+
Gamallo, Pablo; Bardanca, Daniel; Pichel, José Ramom; García, Marcos; Rodríguez-Rey, Sandra; de-Dios-Flores, Iria. 2023.
|
98 |
+
NOS-MT-OpenNMT-gl-es. Url: https://huggingface.co/proxectonos/NOS-MT-OpenNMT-gl-es
|
99 |
+
|
100 |
+
|
101 |
+
|