Update README.md
Browse files
README.md
CHANGED
@@ -25,7 +25,7 @@ Modelo feito con OpenNMT para o par espa帽ol-galego utilizando unha arquitectura
|
|
25 |
```bash
|
26 |
onmt_translate -src input_text聽-model NOS-MT-es-gl.pt --output ./output_file.txt --replace_unk --phrase_table phrase_table-es-gl.txt -gpu 0
|
27 |
```
|
28 |
-
+ O resultado da traduci贸n estar谩 no PATH indicado no flag
|
29 |
|
30 |
**Adestramento**
|
31 |
|
@@ -33,11 +33,11 @@ No adestramento, utilizamos corpora aut茅nticos e sint茅ticos do [ProxectoN贸s](
|
|
33 |
|
34 |
**Procedemento de adestramento**
|
35 |
|
36 |
-
+ Tokenizaci贸n dos datasets feita co tokenizador de linguakit
|
37 |
|
38 |
-
+ O vocabulario para os modelos foi xerado a trav茅s do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
|
39 |
|
40 |
-
+ Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento do seguinte xeito:
|
41 |
|
42 |
```bash
|
43 |
onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000
|
|
|
25 |
```bash
|
26 |
onmt_translate -src input_text聽-model NOS-MT-es-gl.pt --output ./output_file.txt --replace_unk --phrase_table phrase_table-es-gl.txt -gpu 0
|
27 |
```
|
28 |
+
+ O resultado da traduci贸n estar谩 no PATH indicado no flag --output.
|
29 |
|
30 |
**Adestramento**
|
31 |
|
|
|
33 |
|
34 |
**Procedemento de adestramento**
|
35 |
|
36 |
+
+ Tokenizaci贸n dos datasets feita co tokenizador (tokenizer.pl) de [linguakit](https://github.com/citiususc/Linguakit) que foi modificado para evitar o salto de li帽a por token do ficheiro orixinal.
|
37 |
|
38 |
+
+ O vocabulario BPE para os modelos foi xerado a trav茅s do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
|
39 |
|
40 |
+
+ Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento. 脡 preciso modificar os paths do ficheiro .yaml para a Open NMT saber onde ir buscar os textos. Ap贸s facer isto, pode do seguinte xeito comezar o proceso:
|
41 |
|
42 |
```bash
|
43 |
onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000
|