nanochat-de

Ein deutschsprachiges Chat-Sprachmodell (~537 Mio. Parameter), von Grund auf trainiert mit dem nanochat-Framework von Andrej Karpathy.

Entstanden als Studienprojekt von Mario und Jonathan an der DHBW Lörrach, in der Vorlesung „KI und Data Science" bei Frau Nakou (2026).

Architektur: nanochat (custom GPT: RoPE, RMSNorm, ReLU², Value-Embeddings, GQA, QK-Norm, Logit-Softcap) — kein Standard-transformers-Modell.
Vortraining: ~20 Mrd. Zeichen deutscher Text (FineWeb-2, deutscher Teil).
SFT: deutsche Gesprächsdaten + Identity-Daten.
Hardware: 2× NVIDIA RTX 3090.
Tiefe/Größe: d16, n_embd 1024, 16 Layer, seq_len 2048, vocab 32768.

Dateien

Datei	Zweck
`model_000060.pt`	Modellgewichte (SFT, step 60)
`meta_000060.json`	Modell-Config + Metadaten
`tokenizer.pkl`	tiktoken/RustBPE-Tokenizer (nanochat-Format)

Laden & Nutzen (via nanochat)

Dieses Modell wird mit dem nanochat-Code geladen, nicht mit transformers:

git clone https://github.com/karpathy/nanochat
cd nanochat && pip install -e .   # bzw. uv sync

# Dateien dieses Repos an die erwarteten Orte legen:
export NANOCHAT_BASE_DIR=~/.cache/nanochat
mkdir -p $NANOCHAT_BASE_DIR/tokenizer $NANOCHAT_BASE_DIR/chatsft_checkpoints/d16
cp tokenizer.pkl                $NANOCHAT_BASE_DIR/tokenizer/
cp model_000060.pt meta_000060.json  $NANOCHAT_BASE_DIR/chatsft_checkpoints/d16/

# Chatten (CLI):
python -m scripts.chat_cli -i sft -g d16 -s 60 -t 0.3 -k 20
# oder Web-UI:
python -m scripts.chat_web -i sft -g d16 -s 60 -t 0.3 -k 20

Empfohlene Sampling-Einstellungen

temperature 0.3, top_k 20 (kleines Modell → niedrige Temperatur hält es kohärent und treu zur Identität). Eine repetition_penalty ~1.3 hilft gegen Wiederholungs-Schleifen.

Grenzen (ehrlich)

Kleines Modell, nur Deutsch, kein Internetzugang, kein Gedächtnis über das Gespräch hinaus, kann halluzinieren. Stark bei Identitäts-/Alltagsfragen, schwach bei Faktenwissen, Mathe und komplexem Schlussfolgern. Lern-/Demo-Projekt, kein Produkt.

Credits

nanochat-Framework: Andrej Karpathy. Deutsche Variante & Training: Mario & Jonathan, DHBW Lörrach.

Downloads last month: -; Downloads are not tracked for this model. How to track