Theo-78M · Base
O modelo de referência da série. Treinado no corpus completo.
The reference model of the series. Trained on the full corpus.
Sobre este modelo
Theo-78M-Base é o maior modelo base concluído da série — 76,8M de parâmetros reais, treinado do zero em 457M tokens (corpus bíblico v3 — completo) de texto cristão em português. É também o primeiro da série a usar janela de contexto de 1.024 tokens, o dobro dos modelos anteriores.
Com 9 camadas (contra 8 do 50M), a profundidade adicional trouxe ganhos mensuráveis na coerência de longo prazo e na qualidade das representações internas. O corpus v3, usado exclusivamente neste modelo, incorporou 12 fontes teológicas novas que não estavam no v1 ou v2 — sermões, comentários, artigos doutrinários — dando ao Theo-78M uma base de conhecimento significativamente mais rica.
Nenhum peso pré-treinado. Nenhuma base em outro modelo. Do zero.
🔗 Versão de chat:
plvictor/Theo-78M-PTBR-Chat
Diferencial em relação aos modelos anteriores
| Recurso | Theo-50M | Theo-78M |
|---|---|---|
| Parâmetros | 69,3M | 76,8M |
| Camadas | 8 | 9 |
| Contexto | 512 tokens | 1.024 tokens |
| Corpus CPT | ~453M tokens | 457M tokens (v3) |
| Fontes CPT | v2 (corpus anterior) | v3 (+12 fontes teológicas) |
A janela de contexto dobrada é particularmente relevante para fine-tuning: permite processar textos mais longos sem truncamento, o que é fundamental para comentários bíblicos, estudos exegéticos e textos devocionais completos.
Arquitetura
| Parâmetro | Valor |
|---|---|
| Parâmetros reais | 76,8M |
| Tipo | Transformer decoder-only |
| Camadas (n_layers) | 9 |
| Cabeças de atenção (n_heads) | 8 |
| Dimensão do modelo (d_model) | 768 |
| Dimensão FFN (d_ff) | 3.072 |
| Contexto máximo | 1.024 tokens |
| Vocabulário | 16.000 tokens (BPE treinado do zero) |
| Tokenizador | BPE com densidade de 1,26 tokens/palavra (PT-BR) |
Treinamento
| Item | Detalhe |
|---|---|
| GPU | NVIDIA L40S 48 GB (RunPod) |
| Dataset CPT | 457M tokens (corpus bíblico v3 — completo) — corpus v3 completo |
| Fontes | Bíblia (múltiplas versões), comentários, sermões, teologia sistemática, apologética, homilética |
| Épocas | 2 |
| Batch size | 64 |
| Learning rate | 4e-4 (warmup 500 steps) |
| Custo estimado | ~$12 |
Como usar
git lfs install
git clone https://huggingface.co/plvictor/Theo-78M-Base
cd Theo-78M-Base
pip install -r requirements.txt
python generate.py --checkpoint theo-78m-base.pt --prompt "No princípio era o Verbo"
import torch
from config import get_config
from src.model import BabelTransformer
cfg = get_config("babel_78M")
model = BabelTransformer(cfg)
ckpt = torch.load("theo-78m-base.pt", map_location="cpu", weights_only=False)
model.load_state_dict(ckpt["model_state_dict"], strict=False)
model.eval()
print(f"Parâmetros: {sum(p.numel() for p in model.parameters()):,}")
# → Parâmetros: 76,800,000
Limitações
- Treinado exclusivamente em português bíblico-teológico
- Sem alinhamento formal (RLHF, filtragem de segurança)
- Modelo experimental — validar saídas antes de uso em produção
Autor
Paulo Victor Souza · plvictor.com · huggingface.co/plvictor
"No princípio era o Verbo." — João 1:1