--- language: - qu tags: - Llamacha --- # QuBERTa QuBERTa es un modelo de lenguaje basado en RoBERTa para el quechua. Nuestro modelo de lenguaje fue pre-entrenado con 5M de tokens del quechua sureƱo (Collao y Chanka). El modelo utiliza un tokenizador Byte-level BPE con un vocabulario de 52000 tokens de subpalabras. ## Usabilidad Una vez descargado los pesos y el tokenizador es necesario adjuntarlo en un sola carpeta, en este caso fue `QuBERTa `. ```python from transformers import pipeline fill_mask = pipeline( "fill-mask", model="./QuBERTa", tokenizer="./QuBERTa" ) ``` Se hace la prueba, la cual esta en fases de mejoras. ```python fill_mask("allinllachu allinlla huk wasipita.") ``` [{'score': 0.23992203176021576, 'sequence': 'allinllachu nisqaqa allinlla huk wasipita.', 'token': 334, 'token_str': ' nisqaqa'}, {'score': 0.061005301773548126, 'sequence': 'allinllachu, allinlla huk wasipita.', 'token': 16, 'token_str': ','}, {'score': 0.028720015659928322, 'sequence': "allinllachu' allinlla huk wasipita.", 'token': 11, 'token_str': "'"}, {'score': 0.012927944771945477, 'sequence': 'allinllachu kay allinlla huk wasipita.', 'token': 377, 'token_str': ' kay'}, {'score': 0.01230092253535986, 'sequence': 'allinllachu. allinlla huk wasipita.', 'token': 18, 'token_str': '.'}]