nanochat-de
Ein deutschsprachiges Chat-Sprachmodell (~537 Mio. Parameter), von Grund auf trainiert mit dem nanochat-Framework von Andrej Karpathy.
Entstanden als Studienprojekt von Mario und Jonathan an der DHBW Lörrach, in der Vorlesung „KI und Data Science" bei Frau Nakou (2026).
- Architektur: nanochat (custom GPT: RoPE, RMSNorm, ReLU², Value-Embeddings,
GQA, QK-Norm, Logit-Softcap) — kein Standard-
transformers-Modell. - Vortraining: ~20 Mrd. Zeichen deutscher Text (FineWeb-2, deutscher Teil).
- SFT: deutsche Gesprächsdaten + Identity-Daten.
- Hardware: 2× NVIDIA RTX 3090.
- Tiefe/Größe: d16, n_embd 1024, 16 Layer, seq_len 2048, vocab 32768.
Dateien
| Datei | Zweck |
|---|---|
model_000060.pt |
Modellgewichte (SFT, step 60) |
meta_000060.json |
Modell-Config + Metadaten |
tokenizer.pkl |
tiktoken/RustBPE-Tokenizer (nanochat-Format) |
Laden & Nutzen (via nanochat)
Dieses Modell wird mit dem nanochat-Code geladen, nicht mit transformers:
git clone https://github.com/karpathy/nanochat
cd nanochat && pip install -e . # bzw. uv sync
# Dateien dieses Repos an die erwarteten Orte legen:
export NANOCHAT_BASE_DIR=~/.cache/nanochat
mkdir -p $NANOCHAT_BASE_DIR/tokenizer $NANOCHAT_BASE_DIR/chatsft_checkpoints/d16
cp tokenizer.pkl $NANOCHAT_BASE_DIR/tokenizer/
cp model_000060.pt meta_000060.json $NANOCHAT_BASE_DIR/chatsft_checkpoints/d16/
# Chatten (CLI):
python -m scripts.chat_cli -i sft -g d16 -s 60 -t 0.3 -k 20
# oder Web-UI:
python -m scripts.chat_web -i sft -g d16 -s 60 -t 0.3 -k 20
Empfohlene Sampling-Einstellungen
temperature 0.3, top_k 20 (kleines Modell → niedrige Temperatur hält es
kohärent und treu zur Identität). Eine repetition_penalty ~1.3 hilft gegen
Wiederholungs-Schleifen.
Grenzen (ehrlich)
Kleines Modell, nur Deutsch, kein Internetzugang, kein Gedächtnis über das Gespräch hinaus, kann halluzinieren. Stark bei Identitäts-/Alltagsfragen, schwach bei Faktenwissen, Mathe und komplexem Schlussfolgern. Lern-/Demo-Projekt, kein Produkt.
Credits
nanochat-Framework: Andrej Karpathy. Deutsche Variante & Training: Mario & Jonathan, DHBW Lörrach.