Theo-25M · Base
A arquitetura que consolidou o experimento.
The architecture that validated the whole experiment.
Sobre este modelo
Theo-25M-Base representa o salto de geração — de 7,4M para 27,3M de parâmetros reais. Com o dobro de camadas (6 vs 4), dimensão interna duplicada (d_model=512) e FFN quatro vezes maior que o 10M, este modelo é onde a coerência de longo prazo começa a aparecer de verdade.
Parágrafos mais longos, gramática mais sólida, menos repetições involuntárias. O Theo-25M foi a configuração principal durante boa parte do desenvolvimento — robusta o suficiente para mostrar capacidade real, leve o suficiente para treinar rapidamente.
Nenhum peso pré-treinado. Treinado do zero em ~400M tokens (corpus bíblico v1) de texto cristão em português.
🔗 Versão de chat:
plvictor/Theo-25M-PTBR-Chat
Por que este modelo importa?
O gap entre Theo-10M e Theo-25M é um dos mais significativos da série. Ele demonstra empiricamente as scaling laws: quase o quadruplo de parâmetros produz uma melhoria qualitativa desproporcional em coerência, vocabulário ativo e controle gramatical.
Este é um ótimo ponto de partida para fine-tuning em subdomínios teológicos específicos — exegese, devocionais, catequese, aconselhamento pastoral — onde você quer um modelo leve mas que já entenda o domínio profundamente.
Arquitetura
| Parâmetro | Valor |
|---|---|
| Parâmetros reais | 27,3M |
| Tipo | Transformer decoder-only |
| Camadas (n_layers) | 6 |
| Cabeças de atenção (n_heads) | 8 |
| Dimensão do modelo (d_model) | 512 |
| Dimensão FFN (d_ff) | 2.048 |
| Contexto máximo | 512 tokens |
| Vocabulário | 16.000 tokens (BPE treinado do zero) |
Treinamento
| Item | Detalhe |
|---|---|
| GPU | NVIDIA L40S 48 GB (RunPod) |
| Dataset CPT | ~400M tokens (corpus bíblico v1) |
| Fontes | Bíblia (múltiplas versões), comentários bíblicos, sermões, teologia sistemática, sites cristãos PT-BR |
| Épocas | 2 |
| Batch size | 64 |
| Learning rate | 4e-4 (com warmup de 200 steps) |
| Custo estimado | < $6 |
Como usar
git lfs install
git clone https://huggingface.co/plvictor/Theo-25M-Base
cd Theo-25M-Base
pip install -r requirements.txt
python generate.py --checkpoint theo-25m-base.pt --prompt "A graça de Deus"
import torch
from config import get_config
from src.model import BabelTransformer
cfg = get_config("babel_25M")
model = BabelTransformer(cfg)
ckpt = torch.load("theo-25m-base.pt", map_location="cpu", weights_only=False)
model.load_state_dict(ckpt["model_state_dict"], strict=False)
model.eval()
Limitações
- Janela de contexto de 512 tokens
- Treinado exclusivamente em português bíblico-teológico
- Modelo experimental — não adequado para produção sem validação
- Sem alinhamento formal (RLHF, filtragem de segurança)
Autor
Paulo Victor Souza · plvictor.com · huggingface.co/plvictor
"No princípio era o Verbo." — João 1:1