MicroLM2-1M

MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.

Detalhes

  • Arquitetura estilo LLaMA
  • ~1 milhão de parâmetros
  • Contexto de 1024 tokens
  • Vocabulário de 2048 tokens
  • Tokenizer BPE + Metaspace

Dataset

Treinado em aproximadamente 4.5 bilhões de tokens usando:

  • Wikipedia EN
  • Wikipedia PT
  • FineWeb
  • FineWeb-Edu
  • FineWeb2 PT (por_Latn)

Treino

  • Treinado do zero
  • FlashAttention 2
  • bfloat16
  • PyTorch + Transformers

Uso

from transformers import AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "CromIA/MicroLM2-1M"
)

model = LlamaForCausalLM.from_pretrained(
    "CromIA/MicroLM2-1M"
)

Observações

Projeto experimental voltado para:

  • pesquisa
  • tiny language models
  • eficiência
  • experimentos com tokenizers
Downloads last month
-
Safetensors
Model size
1.71M params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 1 Ask for provider support

Datasets used to train CromIA/MicroLM2-1M

Space using CromIA/MicroLM2-1M 1