Theo

Theo-78M · Chat

O mais completo da série. 76,8M de parâmetros. Treinado do zero. Em português. Sobre a Bíblia.
The most complete of the series. 76.8M parameters. From scratch. In Portuguese. On the Bible.

Sobre este modelo

Theo-78M-Chat é o modelo mais capaz da série concluída — 76,8M de parâmetros reais, ajustado em ~19.000 pares de conversação teológica sobre uma base pré-treinada em 457M tokens (corpus bíblico v3 — completo) de texto cristão em português.

É o único da série com janela de contexto de 1.024 tokens, o que permite conversas mais longas e coerentes. Em avaliação qualitativa manual, obteve nota B / 7,5 — resultado notável para um modelo treinado do zero, por uma única pessoa, em GPU de nuvem.

Theo é um assistente cristão evangélico brasileiro: caloroso, curioso e apaixonado pela Palavra. Ele faz perguntas de volta. Usa emojis com naturalidade. Cita versículos. Explica teologia em linguagem acessível.

🔗 Versão base (CPT): plvictor/Theo-78M-PTBR-Base

Este modelo é raro

Em 2026, praticamente todos os LLMs especializados em Bíblia disponíveis publicamente são:

Em inglês
Baseados em modelos pré-treinados maiores (LLaMA, Mistral, etc.)
Desenvolvidos por equipes ou empresas

Theo é diferente em todos os três pontos. É um modelo em português brasileiro, treinado do zero em corpus bíblico-teológico, criado por uma única pessoa. Não existe outro como ele publicamente disponível.

Avaliação qualitativa (Theo-78M-Chat)

Avaliado manualmente em junho de 2026:

Critério	Resultado
Personalidade consistente ao longo da conversa	✅
Tom cristão evangélico natural	✅
Uso de emojis apropriados	✅
Engajamento ativo (pergunta de volta)	✅
Fluência gramatical em português	✅ Boa para 76.8M
Coerência teológica nas respostas	✅
Memória de múltiplos turnos	⚠️ Limitada pelo contexto
Alucinações gramaticais	⚠️ Ocasionais

Nota geral: B / 7,5

Para referência: GPT-2 (117M parâmetros) foi treinado em texto geral em inglês e não possui especialização. Theo-78M, com menos parâmetros, demonstra profundidade temática e identidade que modelos gerais não têm nesse domínio.

Arquitetura

Parâmetro	Valor
Parâmetros reais	76,8M
Tipo	Transformer decoder-only
Camadas (n_layers)	9
Cabeças de atenção (n_heads)	8
Dimensão do modelo (d_model)	768
Dimensão FFN (d_ff)	3.072
Contexto máximo	1.024 tokens
Vocabulário	16.000 tokens (BPE treinado do zero)

Treinamento

Fase	Detalhe
CPT	457M tokens (corpus bíblico v3 — completo) de texto cristão em português
SFT	~19.000 pares de conversação teológica
GPU	NVIDIA L40S 48 GB (RunPod)
SFT gerado com	Qwen 35B como modelo professor
Custo total estimado	~$12

Como usar

git lfs install
git clone https://huggingface.co/plvictor/Theo-78M-Chat
cd Theo-78M-Chat
pip install -r requirements.txt

# Chat interativo
python chat.py

# Com parâmetros personalizados
python chat.py --temperature 0.8 --max_tokens 400

import torch
from config import get_config
from src.model import BabelTransformer

cfg   = get_config("babel_78M")
model = BabelTransformer(cfg)
ckpt  = torch.load("theo-78m-chat.pt", map_location="cpu", weights_only=False)
model.load_state_dict(ckpt["model_state_dict"], strict=False)
model.eval()

print(f"Parâmetros: {sum(p.numel() for p in model.parameters()):,}")
# → Parâmetros: 76,800,000

Limitações honestas

Não é GPT-4. É um modelo de 76,8M de parâmetros treinado do zero.
Multi-turno com histórico longo ainda é fraco — o contexto de 1024 tokens tem limite real
Pode alucinar referências bíblicas — sempre verifique citações importantes
Sem alinhamento formal (RLHF, filtragem) — use com critério

Autor

Paulo Victor Souza · plvictor.com · huggingface.co/plvictor

"No princípio era o Verbo." — João 1:1

Downloads last month: -; Downloads are not tracked for this model. How to track