Theo

Theo-25M · Base

A arquitetura que consolidou o experimento.
The architecture that validated the whole experiment.


Sobre este modelo

Theo-25M-Base representa o salto de geração — de 7,4M para 27,3M de parâmetros reais. Com o dobro de camadas (6 vs 4), dimensão interna duplicada (d_model=512) e FFN quatro vezes maior que o 10M, este modelo é onde a coerência de longo prazo começa a aparecer de verdade.

Parágrafos mais longos, gramática mais sólida, menos repetições involuntárias. O Theo-25M foi a configuração principal durante boa parte do desenvolvimento — robusta o suficiente para mostrar capacidade real, leve o suficiente para treinar rapidamente.

Nenhum peso pré-treinado. Treinado do zero em ~400M tokens (corpus bíblico v1) de texto cristão em português.

🔗 Versão de chat: plvictor/Theo-25M-PTBR-Chat


Por que este modelo importa?

O gap entre Theo-10M e Theo-25M é um dos mais significativos da série. Ele demonstra empiricamente as scaling laws: quase o quadruplo de parâmetros produz uma melhoria qualitativa desproporcional em coerência, vocabulário ativo e controle gramatical.

Este é um ótimo ponto de partida para fine-tuning em subdomínios teológicos específicos — exegese, devocionais, catequese, aconselhamento pastoral — onde você quer um modelo leve mas que já entenda o domínio profundamente.


Arquitetura

Parâmetro Valor
Parâmetros reais 27,3M
Tipo Transformer decoder-only
Camadas (n_layers) 6
Cabeças de atenção (n_heads) 8
Dimensão do modelo (d_model) 512
Dimensão FFN (d_ff) 2.048
Contexto máximo 512 tokens
Vocabulário 16.000 tokens (BPE treinado do zero)

Treinamento

Item Detalhe
GPU NVIDIA L40S 48 GB (RunPod)
Dataset CPT ~400M tokens (corpus bíblico v1)
Fontes Bíblia (múltiplas versões), comentários bíblicos, sermões, teologia sistemática, sites cristãos PT-BR
Épocas 2
Batch size 64
Learning rate 4e-4 (com warmup de 200 steps)
Custo estimado < $6

Como usar

git lfs install
git clone https://huggingface.co/plvictor/Theo-25M-Base
cd Theo-25M-Base
pip install -r requirements.txt

python generate.py --checkpoint theo-25m-base.pt --prompt "A graça de Deus"
import torch
from config import get_config
from src.model import BabelTransformer

cfg   = get_config("babel_25M")
model = BabelTransformer(cfg)
ckpt  = torch.load("theo-25m-base.pt", map_location="cpu", weights_only=False)
model.load_state_dict(ckpt["model_state_dict"], strict=False)
model.eval()

Limitações

  • Janela de contexto de 512 tokens
  • Treinado exclusivamente em português bíblico-teológico
  • Modelo experimental — não adequado para produção sem validação
  • Sem alinhamento formal (RLHF, filtragem de segurança)

Autor

Paulo Victor Souza · plvictor.com · huggingface.co/plvictor

"No princípio era o Verbo." — João 1:1

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support