Theo

Theo-25M · Base

A arquitetura que consolidou o experimento.
The architecture that validated the whole experiment.

Sobre este modelo

Theo-25M-Base representa o salto de geração — de 7,4M para 27,3M de parâmetros reais. Com o dobro de camadas (6 vs 4), dimensão interna duplicada (d_model=512) e FFN quatro vezes maior que o 10M, este modelo é onde a coerência de longo prazo começa a aparecer de verdade.

Parágrafos mais longos, gramática mais sólida, menos repetições involuntárias. O Theo-25M foi a configuração principal durante boa parte do desenvolvimento — robusta o suficiente para mostrar capacidade real, leve o suficiente para treinar rapidamente.

Nenhum peso pré-treinado. Treinado do zero em ~400M tokens (corpus bíblico v1) de texto cristão em português.

🔗 Versão de chat: plvictor/Theo-25M-PTBR-Chat

Por que este modelo importa?

O gap entre Theo-10M e Theo-25M é um dos mais significativos da série. Ele demonstra empiricamente as scaling laws: quase o quadruplo de parâmetros produz uma melhoria qualitativa desproporcional em coerência, vocabulário ativo e controle gramatical.

Este é um ótimo ponto de partida para fine-tuning em subdomínios teológicos específicos — exegese, devocionais, catequese, aconselhamento pastoral — onde você quer um modelo leve mas que já entenda o domínio profundamente.

Arquitetura

Parâmetro	Valor
Parâmetros reais	27,3M
Tipo	Transformer decoder-only
Camadas (n_layers)	6
Cabeças de atenção (n_heads)	8
Dimensão do modelo (d_model)	512
Dimensão FFN (d_ff)	2.048
Contexto máximo	512 tokens
Vocabulário	16.000 tokens (BPE treinado do zero)

Treinamento

Item	Detalhe
GPU	NVIDIA L40S 48 GB (RunPod)
Dataset CPT	~400M tokens (corpus bíblico v1)
Fontes	Bíblia (múltiplas versões), comentários bíblicos, sermões, teologia sistemática, sites cristãos PT-BR
Épocas	2
Batch size	64
Learning rate	4e-4 (com warmup de 200 steps)
Custo estimado	< $6

Como usar

git lfs install
git clone https://huggingface.co/plvictor/Theo-25M-Base
cd Theo-25M-Base
pip install -r requirements.txt

python generate.py --checkpoint theo-25m-base.pt --prompt "A graça de Deus"

import torch
from config import get_config
from src.model import BabelTransformer

cfg   = get_config("babel_25M")
model = BabelTransformer(cfg)
ckpt  = torch.load("theo-25m-base.pt", map_location="cpu", weights_only=False)
model.load_state_dict(ckpt["model_state_dict"], strict=False)
model.eval()

Limitações

Janela de contexto de 512 tokens
Treinado exclusivamente em português bíblico-teológico
Modelo experimental — não adequado para produção sem validação
Sem alinhamento formal (RLHF, filtragem de segurança)

Autor

Paulo Victor Souza · plvictor.com · huggingface.co/plvictor

"No princípio era o Verbo." — João 1:1

Downloads last month: -; Downloads are not tracked for this model. How to track