Theo

Theo-78M · Base

O modelo de referência da série. Treinado no corpus completo.
The reference model of the series. Trained on the full corpus.


Sobre este modelo

Theo-78M-Base é o maior modelo base concluído da série — 76,8M de parâmetros reais, treinado do zero em 457M tokens (corpus bíblico v3 — completo) de texto cristão em português. É também o primeiro da série a usar janela de contexto de 1.024 tokens, o dobro dos modelos anteriores.

Com 9 camadas (contra 8 do 50M), a profundidade adicional trouxe ganhos mensuráveis na coerência de longo prazo e na qualidade das representações internas. O corpus v3, usado exclusivamente neste modelo, incorporou 12 fontes teológicas novas que não estavam no v1 ou v2 — sermões, comentários, artigos doutrinários — dando ao Theo-78M uma base de conhecimento significativamente mais rica.

Nenhum peso pré-treinado. Nenhuma base em outro modelo. Do zero.

🔗 Versão de chat: plvictor/Theo-78M-PTBR-Chat


Diferencial em relação aos modelos anteriores

Recurso Theo-50M Theo-78M
Parâmetros 69,3M 76,8M
Camadas 8 9
Contexto 512 tokens 1.024 tokens
Corpus CPT ~453M tokens 457M tokens (v3)
Fontes CPT v2 (corpus anterior) v3 (+12 fontes teológicas)

A janela de contexto dobrada é particularmente relevante para fine-tuning: permite processar textos mais longos sem truncamento, o que é fundamental para comentários bíblicos, estudos exegéticos e textos devocionais completos.


Arquitetura

Parâmetro Valor
Parâmetros reais 76,8M
Tipo Transformer decoder-only
Camadas (n_layers) 9
Cabeças de atenção (n_heads) 8
Dimensão do modelo (d_model) 768
Dimensão FFN (d_ff) 3.072
Contexto máximo 1.024 tokens
Vocabulário 16.000 tokens (BPE treinado do zero)
Tokenizador BPE com densidade de 1,26 tokens/palavra (PT-BR)

Treinamento

Item Detalhe
GPU NVIDIA L40S 48 GB (RunPod)
Dataset CPT 457M tokens (corpus bíblico v3 — completo) — corpus v3 completo
Fontes Bíblia (múltiplas versões), comentários, sermões, teologia sistemática, apologética, homilética
Épocas 2
Batch size 64
Learning rate 4e-4 (warmup 500 steps)
Custo estimado ~$12

Como usar

git lfs install
git clone https://huggingface.co/plvictor/Theo-78M-Base
cd Theo-78M-Base
pip install -r requirements.txt

python generate.py --checkpoint theo-78m-base.pt --prompt "No princípio era o Verbo"
import torch
from config import get_config
from src.model import BabelTransformer

cfg   = get_config("babel_78M")
model = BabelTransformer(cfg)
ckpt  = torch.load("theo-78m-base.pt", map_location="cpu", weights_only=False)
model.load_state_dict(ckpt["model_state_dict"], strict=False)
model.eval()

print(f"Parâmetros: {sum(p.numel() for p in model.parameters()):,}")
# → Parâmetros: 76,800,000

Limitações

  • Treinado exclusivamente em português bíblico-teológico
  • Sem alinhamento formal (RLHF, filtragem de segurança)
  • Modelo experimental — validar saídas antes de uso em produção

Autor

Paulo Victor Souza · plvictor.com · huggingface.co/plvictor

"No princípio era o Verbo." — João 1:1

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support