imdbo commited on
Commit
9256efa
1 Parent(s): 9f241d0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +98 -0
README.md CHANGED
@@ -1,3 +1,101 @@
1
  ---
2
  license: mit
 
 
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: mit
3
+ language:
4
+ - gl
5
+ metrics:
6
+ - bleu (Gold1): 82.6
7
+ - bleu (Gold2): 49.9
8
+ - bleu (Flores): 23.8
9
+ - bleu (Test-suite): 77.2
10
  ---
11
+ license: mit
12
+ ---
13
+
14
+ **English text [here](https://huggingface.co/proxectonos/NOS-MT-OpenNMT-gl-es/blob/main/README_English.md)**
15
+
16
+ **Descrición do Modelo**
17
+
18
+ Modelo feito con OpenNMT para o par galego-inglés utilizando unha arquitectura transformer.
19
+
20
+ **Como traducir**
21
+
22
+ + Abrir terminal bash
23
+ + Instalar [Python 3.9](https://www.python.org/downloads/release/python-390/)
24
+ + Instalar [Open NMT toolkit v.2.2](https://github.com/OpenNMT/OpenNMT-py)
25
+ + Traducir un input_text utilizando o modelo NOS-MT-gl-es co seguinte comando:
26
+
27
+ ```bash
28
+ onmt_translate -src input_text -model NOS-MT-gl-es.pt --output ./output_file.txt --replace_unk -gpu 0
29
+ ```
30
+ + O resultado da tradución estará no PATH indicado no flag -output.
31
+
32
+ **Adestramento**
33
+
34
+ No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](https://github.com/proxectonos/corpora). Os primeiros son corpora de traducións feitas directamente por tradutores humanos. Os segundos son corpora de traducións inglés-portugués, que convertemos en inglés-galego a través da tradución automática portugués-galego con Opentrad/Apertium e transliteración para palabras fóra de vocabulario.
35
+
36
+
37
+ **Procedemento de adestramento / Training process**
38
+
39
+ + Tokenización dos datasets feita co tokenizador de LinguaKit https://github.com/citiususc/Linguakit
40
+
41
+ + O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
42
+
43
+ + Usando o .yaml neste repositorio pode replicar o proceso de adestramento do seguinte xeito
44
+
45
+ ```bash
46
+ onmt_build_vocab -config bpe-gl-es_emb.yaml -n_sample 100000
47
+ onmt_train -config bpe-gl-es_emb.yaml
48
+ ```
49
+
50
+ **Hiperparámetros**
51
+
52
+ Os parámetros usados para o desenvolvemento do modelo poden ser consultados directamente no mesmo ficheiro .yaml bpe-gl-es_emb.yaml
53
+
54
+ **Avaliación**
55
+
56
+ A avalación BLEU dos modelos é feita cunha mistura de tests desenvolvidos internamente (gold1, gold2, test-suite) con outros datasets disponíbeis en galego (Flores).
57
+
58
+ | GOLD 1 | GOLD 2 | FLORES | TEST-SUITE|
59
+ | ------------- |:-------------:| -------:|----------:|
60
+ | 82.6 | 49.9 | 23.8 | 77.2 |
61
+
62
+
63
+
64
+ **Licenzas do Modelo**
65
+
66
+ MIT License
67
+
68
+ Copyright (c) 2023 Proxecto Nós
69
+
70
+ Permission is hereby granted, free of charge, to any person obtaining a copy
71
+ of this software and associated documentation files (the "Software"), to deal
72
+ in the Software without restriction, including without limitation the rights
73
+ to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
74
+ copies of the Software, and to permit persons to whom the Software is
75
+ furnished to do so, subject to the following conditions:
76
+
77
+ The above copyright notice and this permission notice shall be included in all
78
+ copies or substantial portions of the Software.
79
+
80
+ THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
81
+ IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
82
+ FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
83
+ AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
84
+ LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
85
+ OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
86
+ SOFTWARE.
87
+
88
+ **Financiamento**
89
+
90
+ Esta investigación foi financiada polo proxecto "Nós: o galego na sociedade e economía da intelixencia artificial", resultado dun acordo entre a Xunta de Galicia e a Universidade de Santiago de Compostela, o que resultou no subsidio ED431G2019/04 da Consellaría de Educación, Universidade e Formación Profesional da Galiza, e polo Fondo Europeo de Desenvolvemento Rexional (programa ERDF/FEDER), e Grupos de Referencia: ED431C 2020/21.
91
+
92
+
93
+ **Citar este traballo**
94
+
95
+ Se utilizar este modelo no seu traballo, cite por favor así:
96
+
97
+ Gamallo, Pablo; Bardanca, Daniel; Pichel, José Ramom; García, Marcos; Rodríguez-Rey, Sandra; de-Dios-Flores, Iria. 2023.
98
+ NOS-MT-OpenNMT-gl-es. Url: https://huggingface.co/proxectonos/NOS-MT-OpenNMT-gl-es
99
+
100
+
101
+