Theo

Theo-78M · Base

O modelo de referência da série. Treinado no corpus completo.
The reference model of the series. Trained on the full corpus.

Sobre este modelo

Theo-78M-Base é o maior modelo base concluído da série — 76,8M de parâmetros reais, treinado do zero em 457M tokens (corpus bíblico v3 — completo) de texto cristão em português. É também o primeiro da série a usar janela de contexto de 1.024 tokens, o dobro dos modelos anteriores.

Com 9 camadas (contra 8 do 50M), a profundidade adicional trouxe ganhos mensuráveis na coerência de longo prazo e na qualidade das representações internas. O corpus v3, usado exclusivamente neste modelo, incorporou 12 fontes teológicas novas que não estavam no v1 ou v2 — sermões, comentários, artigos doutrinários — dando ao Theo-78M uma base de conhecimento significativamente mais rica.

Nenhum peso pré-treinado. Nenhuma base em outro modelo. Do zero.

🔗 Versão de chat: plvictor/Theo-78M-PTBR-Chat

Diferencial em relação aos modelos anteriores

Recurso	Theo-50M	Theo-78M
Parâmetros	69,3M	76,8M
Camadas	8	9
Contexto	512 tokens	1.024 tokens
Corpus CPT	~453M tokens	457M tokens (v3)
Fontes CPT	v2 (corpus anterior)	v3 (+12 fontes teológicas)

A janela de contexto dobrada é particularmente relevante para fine-tuning: permite processar textos mais longos sem truncamento, o que é fundamental para comentários bíblicos, estudos exegéticos e textos devocionais completos.

Arquitetura

Parâmetro	Valor
Parâmetros reais	76,8M
Tipo	Transformer decoder-only
Camadas (n_layers)	9
Cabeças de atenção (n_heads)	8
Dimensão do modelo (d_model)	768
Dimensão FFN (d_ff)	3.072
Contexto máximo	1.024 tokens
Vocabulário	16.000 tokens (BPE treinado do zero)
Tokenizador	BPE com densidade de 1,26 tokens/palavra (PT-BR)

Treinamento

Item	Detalhe
GPU	NVIDIA L40S 48 GB (RunPod)
Dataset CPT	457M tokens (corpus bíblico v3 — completo) — corpus v3 completo
Fontes	Bíblia (múltiplas versões), comentários, sermões, teologia sistemática, apologética, homilética
Épocas	2
Batch size	64
Learning rate	4e-4 (warmup 500 steps)
Custo estimado	~$12

Como usar

git lfs install
git clone https://huggingface.co/plvictor/Theo-78M-Base
cd Theo-78M-Base
pip install -r requirements.txt

python generate.py --checkpoint theo-78m-base.pt --prompt "No princípio era o Verbo"

import torch
from config import get_config
from src.model import BabelTransformer

cfg   = get_config("babel_78M")
model = BabelTransformer(cfg)
ckpt  = torch.load("theo-78m-base.pt", map_location="cpu", weights_only=False)
model.load_state_dict(ckpt["model_state_dict"], strict=False)
model.eval()

print(f"Parâmetros: {sum(p.numel() for p in model.parameters()):,}")
# → Parâmetros: 76,800,000

Limitações

Treinado exclusivamente em português bíblico-teológico
Sem alinhamento formal (RLHF, filtragem de segurança)
Modelo experimental — validar saídas antes de uso em produção

Autor

Paulo Victor Souza · plvictor.com · huggingface.co/plvictor

"No princípio era o Verbo." — João 1:1

Downloads last month: -; Downloads are not tracked for this model. How to track