MicroLM2-1M

MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.

Detalhes

Arquitetura estilo LLaMA
~1 milhão de parâmetros
Contexto de 1024 tokens
Vocabulário de 2048 tokens
Tokenizer BPE + Metaspace

Dataset

Treinado em aproximadamente 4.5 bilhões de tokens usando:

Wikipedia EN
Wikipedia PT
FineWeb
FineWeb-Edu
FineWeb2 PT (por_Latn)

Treino

Treinado do zero
FlashAttention 2
bfloat16
PyTorch + Transformers

Uso

from transformers import AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "CromIA/MicroLM2-1M"
)

model = LlamaForCausalLM.from_pretrained(
    "CromIA/MicroLM2-1M"
)

Observações

Projeto experimental voltado para:

pesquisa
tiny language models
eficiência
experimentos com tokenizers

Downloads last month: -

Safetensors

Model size

1.71M params

Tensor type

BF16

CromIA
/

MicroLM2-1M

MicroLM2-1M

Detalhes

Dataset

Treino

Uso

Observações

Datasets used to train CromIA/MicroLM2-1M

Space using CromIA/MicroLM2-1M 1