Parabéns

#1
by llorenzo - opened

Parabéns polo teu traballo. Acabo de miralo porque facía tempo que non enredaba cos transformers.

Chamoume a atención porque eu teño un proxecto en spacy (https://github.com/llorenzo62/Galipedia-extractor), comparable ao stanfordnlp/stanza-gl.
No meu caso creei un corpus con ~ 1,5 M de frases a partir da Galipedia co que adestrei uns word-vectors en floret (~50 M de palabras). Tamen me sirve como fonte de frases para anotar coas que adestrar o modelo spacy. Lamentablemente só conseguín, ata o de agora, anotar unhas 2000 frases, co que o adestramento é un pouco somero, ainda así a exactitude da anotación POS é ~ 94% e na lematización ~ 92%, que son os únicos aspectos nos que adestro o modelo.

É estupendo atopar a alguén interesado no galician-NLP ;·)

Moitísimas grazas.
Isto avanza moi rapidamente!

Sign up or log in to comment