fpuentes/bert-fromscratch-galician-large

Descripción do modelo

Modelo de (~) 125M de parámetros, adestrado e afinado desde cero, usando un dataset en galego de 305MB obtido da wikipedia en galego.

No contexto da Resolución do 22 de decembro de 2021 da Secretaría Xeral de Educación e Formación Profesional pola que se convocan premios para o desenvolvemento de proxectos de innovación tecnolóxica ou científica e proxectos de innovación didáctica no ámbito da formación profesional en centros públicos dependentes da Consellería de Cultura, Educación e Universidade, baixo o nome de "Creación dun modelo de linguaxe adestrado previamente mediante técnicas de autoatención para explorar arquitecturas que permitan o seu uso en solucións de procesamento da linguaxe natural en galego tanto na docencia como na contorna empresarial"

Usos e limitacións

Este modelo foi creado con fins pedagóxicos e de investigación.

Hiperparámetros de entrenamiento

learning_rate: 1e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 32
total_train_batch_size: 256
optimizer: Adam with betas=(0.1,0.9) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 15

Training results

Training Loss	Epoch	Step	Validation Loss
3.6976	0.22	1500	2.2866
2.3057	0.43	3000	1.9276
... ... ... ...
1.1982	14.25	99000	1.0601
1.196	14.47	100500	1.0554
1.1971	14.69	102000	1.0538
1.1954	14.9	103500	1.0613

Versiones de los frameworks

Transformers 4.24.0
Pytorch 1.13.1
Datasets 2.6.1
Tokenizers 0.11.0

fpuentes
/

bert-fromscratch-galician-large

Descripción do modelo

Usos e limitacións

Hiperparámetros de entrenamiento

Training results

Versiones de los frameworks

Evaluation results