dominguesm commited on
Commit
3360f2a
1 Parent(s): 54f1e9b

Atualização README

Browse files
Files changed (2) hide show
  1. README.md +177 -3
  2. README_ptbr.md +195 -0
README.md CHANGED
@@ -10,12 +10,186 @@ widget:
10
  ---
11
 
12
 
 
 
13
  <p align="center">
14
  <img width="350" alt="Camarim Logo" src="https://raw.githubusercontent.com/DominguesM/canarim-bert-nheengatu/main/assets/canarim-yrl-nbg.png">
15
  </p>
16
 
17
- <hr>
18
 
19
- # Canarim-Bert-Nheengatu
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
20
 
21
- WIP
 
10
  ---
11
 
12
 
13
+ # Canarim-Bert-Nheengatu
14
+
15
  <p align="center">
16
  <img width="350" alt="Camarim Logo" src="https://raw.githubusercontent.com/DominguesM/canarim-bert-nheengatu/main/assets/canarim-yrl-nbg.png">
17
  </p>
18
 
19
+ </br>
20
 
21
+ ## Introduction
22
+
23
+ Canarim-Bert-Nheengatu is a BERT model pre-trained for the Nheengatu language, an indigenous language spoken in Brazil. The model was trained with the aim of being used in NLP (Natural Language Processing) tasks for the Nheengatu language, thereby aiding in the development of resources for the language.
24
+
25
+ ## Nheengatu
26
+
27
+ Nheengatu, also known as modern Tupi and Amazonian General Language, among other names, is one of the dozens of still living Brazilian indigenous languages. The term Nheengatu emerged around the mid-19th century, originally meaning "good language," a result of the composition of the noun nheenga 'language' and the adjective katú 'good'. In the ISO 639-3 standard, it is represented by the code `yrl`, derived from yeral (general in Portuguese), one of the terms by which it is designated in Spanish.
28
+
29
+ The study of Nheengatu is of great historical importance, as it was, for two and a half centuries, in the words of José Ribamar Bessa Freire, “the main language of the Amazon”, a position it would lose to Portuguese only in the second half of the 19th century. It is perhaps the only Brazilian indigenous language whose development over more than four centuries can be traced through texts that document its various stages of evolution. (Source: [Leonel Figueiredo de Alencar - CompLin](https://github.com/CompLin/nheengatu/blob/main/nheengatu.md))
30
+
31
+ ## Training Data
32
+
33
+ To train the model, an extensive collection of Nheengatu text data was gathered, extracted from various sources such as books, articles, websites, etc. The data were cleaned and prepared for model training. Below is a table with all the sources used for training the model.
34
+
35
+ <details>
36
+ <summary>References (ABNT)</summary>
37
+
38
+ ```
39
+ AMORIM, DE. Lendas em nheengatu e em português. [s.l.] Fundo Editorial-ACA, 1987.
40
+
41
+ ARGOLO, W. Colonização e língua geral: o caso do sul da bahia. Papia, v. 23, p. 75–96, 2013.
42
+
43
+ ÁVILA, M. T.; TREVISAN, R. G. Jaguanhenhém: um estudo sobre a linguagem do iauaretê. Magma, v. 22, p. 297–335, 2015.
44
+
45
+ AYROSA, P. Diccionario portuguez-brasiliano e brasiliano-portuguez. [s.l.] Imprensa official do estado, 1934.
46
+
47
+ AYROSA, P. Orações e diálogos da doutrina cristã na língua brasílica: Mss. do séc. XVIII. [s.l.] Universidade de São Paulo, Faculdade de Filosofia, Ciências e Letras, 1950.
48
+
49
+ AYROSA, P. Apontamentos para a bibliografia da língua tupi-guarani. [s.l.] Universidade de São Paulo, 1954.
50
+
51
+ BARROS, C.; LESSA, A. L. Dicionário da língua geral do brasil. [s.l.] MPEG, 2015.
52
+
53
+ BASTOS, A. A pantofagia, ou, As estranhas práticas alimentares na selva: estudo na região amazônica. [s.l.] Companhia Editora Nacional, 1987.
54
+
55
+ BORGES, L. C. A lingua geral amazonica : aspectos de sua fonemica. Disponível em: <https://repositorio.unicamp.br/acervo/detalhe/30265>. Acesso em: 29 dez. 2023.
56
+
57
+ BRASIL. [CONSTITUIÇÃO (1988)]. “MUNDU SA TURUSU” WAÁ ŨBÊUWA MAYÉ MÍRA ITÁ UIKÚ ARÃMA PURÃGA IKÉ BRAZIU UPÉ. Brasília, DF: Presidente Da República, 19 jul. 2023. Disponível em: <https://www.cnj.jus.br/wp-content/uploads/2023/07/constituicao-nheengatu-web.pdf>. Acesso em: 29 dez. 2023.
58
+
59
+ CÂNDIDA, M. A relação entre manuscritos e impressos em tupi como forma de estudo da política linguística jesuítica no século XVIII na Amazônia. Revista Letras, v. 61, 2003.
60
+
61
+ CÂNDIDA, M.; MARQUES, M. Passagens do livro “Itinerário para Párocos de Índios”, de Peña Montenegro (1668), em um confessionário jesuítico setecentista da Amazônia. Boletim do Museu Paraense Emílio Goeldi. Ciências Humanas, v. 5, n. 3, p. 669–679, 1 dez. 2010.
62
+
63
+ COSTA, A. Doutrina christã destinada aos naturaes do Amazonas em nhihingatu: com tradução portugueza em face. [s.l.] Pacheco Silva, 1898.
64
+
65
+ DA CRUZ, A. O Estatuto das Fricativas na Língua Geral Amazônica: IX Encontro dos Alunos de Pós-Graduação em Lingüística da Universidade de São Paulo. Afinal, o que, nós, fazemos? Seleção de textos proferidos durante o IX Encontro dos Alunos de Pós-Graduação em Lingüística da Universidade de São Paulo., 2007.
66
+
67
+ DA CRUZ, A. Fonologia e gramática do nheengatú. [s.l.] LOT, 2011.
68
+
69
+ DE FARIA, F. R. C. Compendio da lingua brazilica para uzo dos que a ella se quizerem dedicar. [s.l.] Typ. de Santos & Filhos, 1858.
70
+
71
+ DE MAGALHÃES, C. O selvagem: I. Curso da lingua geral segundo Ollendorf, comprehendendo o texto original de lendas tupìs. II. Origens, costumes, região selvagem, methodo a empregar para amansalos por intermedio das colonias militares e do interprete militar. [s.l.] Livrària Popular, 1876.
72
+
73
+ ECKART, A.; PLATZMANN, J. Anselmi eckarti specimen linguae brasilicae vulgaris. [s.l.] B.G. Teubner, 1890.
74
+
75
+ EDELWEISS, F. G. Estudos tupis e tupi-guaranis: confrontos e revisões. [s.l.] Livraria Brasiliana Editôra, 1969.
76
+
77
+ ERMANNO, S. Leggenda dell’Jurupary. Bolletino Della Societá Geografica Italiana, v. 3, p. 659–689, 1890.
78
+
79
+ FERNANDES, A. Grammatica tupy. [s.l.] Livraria Araripe, 1924.
80
+
81
+ FREIRE, J. R. B.; ROSA, M. C. Línguas Gerais: política linguística e Catequese na América do Sul no período colonial. [s.l.] Editora da Universidade do Estado do Rio de Janeiro, 2003.
82
+
83
+ HARTT, C. F. Notes on the Lingoa geral or modern Tupí of the Amazonas. Boston: [s.n.].
84
+
85
+ HARTT, C. F. Contribuicões para a ethnologia do valle do Amazonas. [s.l.] Typ. e lith. economica, de Machado & c., 1885.
86
+
87
+ HARTT, C. F.; BIBLIOTECA NACIONAL (BRAZIL). Notas sobre a língua geral, ou tupí moderno do Amazonas. [s.l.] Serviço gráfico do Ministério da educação e saude, 1938.
88
+
89
+ ISHIKAWA, N. K.; MORGANS, S. Brilhos na floresta. [s.l.] Selene Morgans, 2019.
90
+
91
+ KITTIYA, L. M. Conversing in colony: the Brasílica and the Vulgar in Portuguese America, 1500–1759. [s.l.] The Johns Hopkins University, 2006.
92
+
93
+ MASUCCI, O. Dicionário tupi portugués e vice-versa: com um dicionário de topográficos. [s.l.] Brasilivros, 1979.
94
+
95
+ MELLO, O. Dicionário tupi (nheengatu) português e vice-versa: comum dicionário de rimas tupi. [s.l.] F. Masucci, 1967.
96
+
97
+ MICHAELE, F. A. S. Manual de conversação de lingua tupi: 1a. série, 20 lições. [s.l.] Centro Cultural “Euclides da Cunha”, 1951.
98
+
99
+ MOORE, D.; FACUNDES, S.; PIRES, N. Nheengatu (Língua Geral Amazônica), its History, and the Effects of Language Contact. escholarship.org, 1994.
100
+
101
+ MULLER, J. C. et al. Dicionário de língua geral amazônica: 1a parte: Português–Língua geral - 2a parte: Língua Geral–Português. [s.l.] Universitat Potsdam, 2019.
102
+
103
+ NIMUENDAJÚ, C.; ATHIAS, R. Reconhecimento dos rios içána, ayarí e uaupés: apontamentos linguísticos e ensaio fotográfico. [s.l.] Museo do Indio FUNAI, 2015.
104
+
105
+ OLIVEIRA, R. L. G. DE. Natureza e direções das mudanças lexicais ocorridas na língua geral Amazônica do século XVII. icts.unb.br, 11 out. 2010.
106
+
107
+ ORICO, O. Mitos ameríndios e crendices amazônicas. [s.l.] Civilização Brasileira, 1975.
108
+
109
+ PLATZMANN, J. O diccionario anonymo da lingua geral do Brasil publicado de novo com o seu reverso por Julio Platzmann. [s.l.] B.G. Teubner, 1896.
110
+
111
+ QUEIXALÓS, F.; GOMES, D. M. O sintagma nominal em línguas amazônicas. [s.l.] Pontes, 2016.
112
+
113
+ RODRIGUES, A. D.; SUELLY, A. A contribution to the linguistic history of the língua geral amazônica. Alfa: Revista de Linguística (São José do Rio Preto), v. 55, p. 613–639, 2011.
114
+
115
+ RODRIGUES, J. B. Vocabulario indigena com a orthographia correcta: (complemento da Poranduba amazonense). [s.l.] Bibliotheca Nacional, 1893.
116
+
117
+ RODRIGUES, J. B. Mbaé kaá tapyiyetá enoyndaua ou A botanica ea nomenclatura indigena. [s.l.] Imprensa Nacional, 1905.
118
+
119
+ SILVA, DA; DE, C. Discoteca etno-linguístico-musical das tribos dos rios uaupés, içana e cauaburi. [s.l.] Centro de Pesquisas de Iauareté, 1961.
120
+
121
+ VERÍSSIMO, J. As populações Indigenas e Mestiças da Amazonia: linguagem, crenças e costumes. Rio de Janeiro: [s.n.].
122
+
123
+ VERÍSSIMO, J. Estudos amazônicos. [s.l.] Universidade Federal do Pará, 1970. v. 1.
124
+ ```
125
+ </details>
126
+
127
+
128
+ ## Available Models
129
+
130
+ | Model | Arch. | #Layers | #Params |
131
+ | ------ | ----------- | ------- | ------- |
132
+ | [Canarim-Bert-Nheengatu](https://huggingface.co/dominguesm/canarim-bert-nheengatu) | Bert | 12 | 110M |
133
+
134
+ ## How to Use
135
+
136
+ ```python
137
+ from transformers import pipeline
138
+
139
+ pipe = pipeline('fill-mask', "dominguesm/canarim-bert-nheengatu")
140
+
141
+ # ptbr: Ele tinha febre, por isso não foi pescar.
142
+ # yrl: Aé urikú takuwa yawé resewara ti usú upinaitika.
143
+ pipe('Aé urikú takuwa yawé [MASK] ti usú upinaitika.')
144
+ # [{'score': 0.41232067346572876,
145
+ # 'token': 460,
146
+ # 'token_str': 'tẽ',
147
+ # 'sequence': 'Aé urikú takuwa yawé tẽ ti usú upinaitika.'},
148
+ # {'score': 0.1178387925028801,
149
+ # 'token': 665,
150
+ # 'token_str': 'resewara',
151
+ # 'sequence': 'Aé urikú takuwa yawé resewara ti usú upinaitika.'},
152
+ # {'score': 0.029453271999955177,
153
+ # 'token': 2168,
154
+ # 'token_str': 'artigu',
155
+ # 'sequence': 'Aé urikú takuwa yawé artigu ti usú upinaitika.'},
156
+ # {'score': 0.027277836576104164,
157
+ # 'token': 669,
158
+ # 'token_str': 'sikuyaára',
159
+ # 'sequence': 'Aé urikú takuwa yawé sikuyaára ti usú upinaitika.'},
160
+ # {'score': 0.020948367193341255,
161
+ # 'token': 642,
162
+ # 'token_str': 'akayu',
163
+ # 'sequence': 'Aé urikú takuwa yawé akayu ti usú upinaitika.'}]
164
+
165
+ ```
166
+
167
+ ## NLP Task Performance - POSTAG
168
+
169
+ The model was evaluated in the token classification task (POSTAG), using the [UD_Nheengatu-CompLin](https://github.com/UniversalDependencies/UD_Nheengatu-CompLin/)dataset. Below are the evaluation results.
170
+
171
+ ```
172
+ precision recall f1-score support
173
+
174
+ ADJ 0.7895 0.6522 0.7143 23
175
+ ADP 0.9355 0.9158 0.9255 95
176
+ ADV 0.8261 0.8172 0.8216 93
177
+ AUX 0.9444 0.9189 0.9315 37
178
+ CCONJ 0.7778 0.8750 0.8235 8
179
+ DET 0.8776 0.9149 0.8958 47
180
+ INTJ 0.5000 0.5000 0.5000 4
181
+ NOUN 0.9257 0.9222 0.9239 270
182
+ NUM 1.0000 0.6667 0.8000 6
183
+ PART 0.9775 0.9062 0.9405 96
184
+ PRON 0.9568 1.0000 0.9779 155
185
+ PROPN 0.6429 0.4286 0.5143 21
186
+ PUNCT 0.9963 1.0000 0.9981 267
187
+ SCONJ 0.8000 0.7500 0.7742 32
188
+ VERB 0.8651 0.9347 0.8986 199
189
+
190
+ micro avg 0.9202 0.9202 0.9202 1353
191
+ macro avg 0.8543 0.8135 0.8293 1353
192
+ weighted avg 0.9191 0.9202 0.9187 1353
193
+ ```
194
 
195
+ More details about the model and evaluation can be found at [dominguesm/canarim-bert-postag-nheengatu](https://huggingface.co/dominguesm/canarim-bert-postag-nheengatu).
README_ptbr.md ADDED
@@ -0,0 +1,195 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - yrl
4
+ pipeline_tag: fill-mask
5
+ license: cc-by-4.0
6
+ widget:
7
+ - text: "Se aría [MASK] retana."
8
+ - text: "Aé urikú takuwa yawé [MASK] ti usú upinaitika."
9
+ - text: "Ũbawa puxuwera wa asui [MASK] resé"
10
+ ---
11
+
12
+
13
+ # Canarim-Bert-Nheengatu
14
+
15
+ <p align="center">
16
+ <img width="350" alt="Camarim Logo" src="https://raw.githubusercontent.com/DominguesM/canarim-bert-nheengatu/main/assets/canarim-yrl-nbg.png">
17
+ </p>
18
+
19
+ </br>
20
+
21
+ ## Introdução
22
+
23
+ Canarim-Bert-Nheengatu é um modelo BERT pré-treinado para o idioma Nheengatu, uma língua indígena falada no Brasil. O modelo foi treinado com o objetivo de ser utilizado em tarefas de PNL (Processamento de Linguagem Natural) para o idioma Nheengatu, ajudando assim a formenção de recursos para o idioma.
24
+
25
+ ## Nheengatu
26
+
27
+ O nheengatu, também conhecido como tupi moderno e Língua Geral Amazônica, entre outras designações, é uma das dezenas de línguas indígenas brasileiras ainda vivas. O termo nheengatu surgiu por volta de meados do século XIX, significando originalmente "língua boa", resultado da composição do substantivo nheenga 'língua' e do adjetivo katú 'bom'. No padrão ISO 639-3, representa-se pelo código `yrl`, derivado de yeral (geral em português), um dos termos com que é designado em espanhol.
28
+
29
+ O estudo do nheengatu reveste-se de grande importância histórica, uma vez que foi, durante dois séculos e meio, nas palavras de José Ribamar Bessa Freire, “a principal língua da Amazônia”, posição que perderia para o português apenas na segunda metade do século XIX. É talvez a única língua indígena brasileira cujo desenvolvimento ao longo de mais de quatro séculos pode ser acompanhado por meio de textos que documentam os seus vários estágios de evolução. (Fonte: [CompLin](https://github.com/CompLin/nheengatu/blob/main/nheengatu.md))
30
+
31
+ ## Dados de Treinamento
32
+
33
+ Para treinar o modelo foi feita uma extensa coleta de dados de textos em Nheengatu, que foram extraídos de diversas fontes, como livros, artigos, sites, etc. Os dados foram limpos e preparados para o treinamento do modelo. Abaixo segue uma tabela com todas as fontes que foram utilizadas para o treinamento do modelo.
34
+
35
+ <details>
36
+ <summary>Referência (ABNT)</summary>
37
+
38
+ ```
39
+ AMORIM, DE. Lendas em nheengatu e em português. [s.l.] Fundo Editorial-ACA, 1987.
40
+
41
+ ARGOLO, W. Colonização e língua geral: o caso do sul da bahia. Papia, v. 23, p. 75–96, 2013.
42
+
43
+ ÁVILA, M. T.; TREVISAN, R. G. Jaguanhenhém: um estudo sobre a linguagem do iauaretê. Magma, v. 22, p. 297–335, 2015.
44
+
45
+ AYROSA, P. Diccionario portuguez-brasiliano e brasiliano-portuguez. [s.l.] Imprensa official do estado, 1934.
46
+
47
+ AYROSA, P. Orações e diálogos da doutrina cristã na língua brasílica: Mss. do séc. XVIII. [s.l.] Universidade de São Paulo, Faculdade de Filosofia, Ciências e Letras, 1950.
48
+
49
+ AYROSA, P. Apontamentos para a bibliografia da língua tupi-guarani. [s.l.] Universidade de São Paulo, 1954.
50
+
51
+ BARROS, C.; LESSA, A. L. Dicionário da língua geral do brasil. [s.l.] MPEG, 2015.
52
+
53
+ BASTOS, A. A pantofagia, ou, As estranhas práticas alimentares na selva: estudo na região amazônica. [s.l.] Companhia Editora Nacional, 1987.
54
+
55
+ BORGES, L. C. A lingua geral amazonica : aspectos de sua fonemica. Disponível em: <https://repositorio.unicamp.br/acervo/detalhe/30265>. Acesso em: 29 dez. 2023.
56
+
57
+ BRASIL. [CONSTITUIÇÃO (1988)]. “MUNDU SA TURUSU” WAÁ ŨBÊUWA MAYÉ MÍRA ITÁ UIKÚ ARÃMA PURÃGA IKÉ BRAZIU UPÉ. Brasília, DF: Presidente Da República, 19 jul. 2023. Disponível em: <https://www.cnj.jus.br/wp-content/uploads/2023/07/constituicao-nheengatu-web.pdf>. Acesso em: 29 dez. 2023.
58
+
59
+ CÂNDIDA, M. A relação entre manuscritos e impressos em tupi como forma de estudo da política linguística jesuítica no século XVIII na Amazônia. Revista Letras, v. 61, 2003.
60
+
61
+ CÂNDIDA, M.; MARQUES, M. Passagens do livro “Itinerário para Párocos de Índios”, de Peña Montenegro (1668), em um confessionário jesuítico setecentista da Amazônia. Boletim do Museu Paraense Emílio Goeldi. Ciências Humanas, v. 5, n. 3, p. 669–679, 1 dez. 2010.
62
+
63
+ COSTA, A. Doutrina christã destinada aos naturaes do Amazonas em nhihingatu: com tradução portugueza em face. [s.l.] Pacheco Silva, 1898.
64
+
65
+ DA CRUZ, A. O Estatuto das Fricativas na Língua Geral Amazônica: IX Encontro dos Alunos de Pós-Graduação em Lingüística da Universidade de São Paulo. Afinal, o que, nós, fazemos? Seleção de textos proferidos durante o IX Encontro dos Alunos de Pós-Graduação em Lingüística da Universidade de São Paulo., 2007.
66
+
67
+ DA CRUZ, A. Fonologia e gramática do nheengatú. [s.l.] LOT, 2011.
68
+
69
+ DE FARIA, F. R. C. Compendio da lingua brazilica para uzo dos que a ella se quizerem dedicar. [s.l.] Typ. de Santos & Filhos, 1858.
70
+
71
+ DE MAGALHÃES, C. O selvagem: I. Curso da lingua geral segundo Ollendorf, comprehendendo o texto original de lendas tupìs. II. Origens, costumes, região selvagem, methodo a empregar para amansalos por intermedio das colonias militares e do interprete militar. [s.l.] Livrària Popular, 1876.
72
+
73
+ ECKART, A.; PLATZMANN, J. Anselmi eckarti specimen linguae brasilicae vulgaris. [s.l.] B.G. Teubner, 1890.
74
+
75
+ EDELWEISS, F. G. Estudos tupis e tupi-guaranis: confrontos e revisões. [s.l.] Livraria Brasiliana Editôra, 1969.
76
+
77
+ ERMANNO, S. Leggenda dell’Jurupary. Bolletino Della Societá Geografica Italiana, v. 3, p. 659–689, 1890.
78
+
79
+ FERNANDES, A. Grammatica tupy. [s.l.] Livraria Araripe, 1924.
80
+
81
+ FREIRE, J. R. B.; ROSA, M. C. Línguas Gerais: política linguística e Catequese na América do Sul no período colonial. [s.l.] Editora da Universidade do Estado do Rio de Janeiro, 2003.
82
+
83
+ HARTT, C. F. Notes on the Lingoa geral or modern Tupí of the Amazonas. Boston: [s.n.].
84
+
85
+ HARTT, C. F. Contribuicões para a ethnologia do valle do Amazonas. [s.l.] Typ. e lith. economica, de Machado & c., 1885.
86
+
87
+ HARTT, C. F.; BIBLIOTECA NACIONAL (BRAZIL). Notas sobre a língua geral, ou tupí moderno do Amazonas. [s.l.] Serviço gráfico do Ministério da educação e saude, 1938.
88
+
89
+ ISHIKAWA, N. K.; MORGANS, S. Brilhos na floresta. [s.l.] Selene Morgans, 2019.
90
+
91
+ KITTIYA, L. M. Conversing in colony: the Brasílica and the Vulgar in Portuguese America, 1500–1759. [s.l.] The Johns Hopkins University, 2006.
92
+
93
+ MASUCCI, O. Dicionário tupi portugués e vice-versa: com um dicionário de topográficos. [s.l.] Brasilivros, 1979.
94
+
95
+ MELLO, O. Dicionário tupi (nheengatu) português e vice-versa: comum dicionário de rimas tupi. [s.l.] F. Masucci, 1967.
96
+
97
+ MICHAELE, F. A. S. Manual de conversação de lingua tupi: 1a. série, 20 lições. [s.l.] Centro Cultural “Euclides da Cunha”, 1951.
98
+
99
+ MOORE, D.; FACUNDES, S.; PIRES, N. Nheengatu (Língua Geral Amazônica), its History, and the Effects of Language Contact. escholarship.org, 1994.
100
+
101
+ MULLER, J. C. et al. Dicionário de língua geral amazônica: 1a parte: Português–Língua geral - 2a parte: Língua Geral–Português. [s.l.] Universitat Potsdam, 2019.
102
+
103
+ NIMUENDAJÚ, C.; ATHIAS, R. Reconhecimento dos rios içána, ayarí e uaupés: apontamentos linguísticos e ensaio fotográfico. [s.l.] Museo do Indio FUNAI, 2015.
104
+
105
+ OLIVEIRA, R. L. G. DE. Natureza e direções das mudanças lexicais ocorridas na língua geral Amazônica do século XVII. icts.unb.br, 11 out. 2010.
106
+
107
+ ORICO, O. Mitos ameríndios e crendices amazônicas. [s.l.] Civilização Brasileira, 1975.
108
+
109
+ PLATZMANN, J. O diccionario anonymo da lingua geral do Brasil publicado de novo com o seu reverso por Julio Platzmann. [s.l.] B.G. Teubner, 1896.
110
+
111
+ QUEIXALÓS, F.; GOMES, D. M. O sintagma nominal em línguas amazônicas. [s.l.] Pontes, 2016.
112
+
113
+ RODRIGUES, A. D.; SUELLY, A. A contribution to the linguistic history of the língua geral amazônica. Alfa: Revista de Linguística (São José do Rio Preto), v. 55, p. 613–639, 2011.
114
+
115
+ RODRIGUES, J. B. Vocabulario indigena com a orthographia correcta: (complemento da Poranduba amazonense). [s.l.] Bibliotheca Nacional, 1893.
116
+
117
+ RODRIGUES, J. B. Mbaé kaá tapyiyetá enoyndaua ou A botanica ea nomenclatura indigena. [s.l.] Imprensa Nacional, 1905.
118
+
119
+ SILVA, DA; DE, C. Discoteca etno-linguístico-musical das tribos dos rios uaupés, içana e cauaburi. [s.l.] Centro de Pesquisas de Iauareté, 1961.
120
+
121
+ VERÍSSIMO, J. As populações Indigenas e Mestiças da Amazonia: linguagem, crenças e costumes. Rio de Janeiro: [s.n.].
122
+
123
+ VERÍSSIMO, J. Estudos amazônicos. [s.l.] Universidade Federal do Pará, 1970. v. 1.
124
+ ```
125
+ </details>
126
+
127
+
128
+ ## Modelos Disponiveis
129
+
130
+ | Modelo | Arquitetura | #Layers | #Params |
131
+ | ------ | ----------- | ------- | ------- |
132
+ | [Canarim-Bert-Nheengatu](https://huggingface.co/dominguesm/canarim-bert-nheengatu) | Bert | 12 | 110M |
133
+
134
+ ## Como usar
135
+
136
+ ```python
137
+ from transformers import pipeline
138
+
139
+ pipe = pipeline('fill-mask', "dominguesm/canarim-bert-nheengatu")
140
+
141
+ # ptbr: Ele tinha febre, por isso não foi pescar.
142
+ # yrl: Aé urikú takuwa yawé resewara ti usú upinaitika.
143
+ pipe('Aé urikú takuwa yawé [MASK] ti usú upinaitika.')
144
+ # [{'score': 0.41232067346572876,
145
+ # 'token': 460,
146
+ # 'token_str': 'tẽ',
147
+ # 'sequence': 'Aé urikú takuwa yawé tẽ ti usú upinaitika.'},
148
+ # {'score': 0.1178387925028801,
149
+ # 'token': 665,
150
+ # 'token_str': 'resewara',
151
+ # 'sequence': 'Aé urikú takuwa yawé resewara ti usú upinaitika.'},
152
+ # {'score': 0.029453271999955177,
153
+ # 'token': 2168,
154
+ # 'token_str': 'artigu',
155
+ # 'sequence': 'Aé urikú takuwa yawé artigu ti usú upinaitika.'},
156
+ # {'score': 0.027277836576104164,
157
+ # 'token': 669,
158
+ # 'token_str': 'sikuyaára',
159
+ # 'sequence': 'Aé urikú takuwa yawé sikuyaára ti usú upinaitika.'},
160
+ # {'score': 0.020948367193341255,
161
+ # 'token': 642,
162
+ # 'token_str': 'akayu',
163
+ # 'sequence': 'Aé urikú takuwa yawé akayu ti usú upinaitika.'}]
164
+
165
+ ```
166
+
167
+ ## Desempenho em Tarefas de PNL - POSTAG
168
+
169
+ O modelo foi avaliado na tarefa de classificação de tokens (POSTAG), utilizando o dataset [UD_Nheengatu-CompLin](https://github.com/UniversalDependencies/UD_Nheengatu-CompLin/), abaixo segue o resultado da avaliação.
170
+
171
+ ```
172
+ precision recall f1-score support
173
+
174
+ ADJ 0.7895 0.6522 0.7143 23
175
+ ADP 0.9355 0.9158 0.9255 95
176
+ ADV 0.8261 0.8172 0.8216 93
177
+ AUX 0.9444 0.9189 0.9315 37
178
+ CCONJ 0.7778 0.8750 0.8235 8
179
+ DET 0.8776 0.9149 0.8958 47
180
+ INTJ 0.5000 0.5000 0.5000 4
181
+ NOUN 0.9257 0.9222 0.9239 270
182
+ NUM 1.0000 0.6667 0.8000 6
183
+ PART 0.9775 0.9062 0.9405 96
184
+ PRON 0.9568 1.0000 0.9779 155
185
+ PROPN 0.6429 0.4286 0.5143 21
186
+ PUNCT 0.9963 1.0000 0.9981 267
187
+ SCONJ 0.8000 0.7500 0.7742 32
188
+ VERB 0.8651 0.9347 0.8986 199
189
+
190
+ micro avg 0.9202 0.9202 0.9202 1353
191
+ macro avg 0.8543 0.8135 0.8293 1353
192
+ weighted avg 0.9191 0.9202 0.9187 1353
193
+ ```
194
+
195
+ Mais detalhes sobre o modelo e a avaliação podem ser encontrados no repositorio [dominguesm/canarim-bert-postag-nheengatu](https://huggingface.co/dominguesm/canarim-bert-postag-nheengatu).