nanochat-de

Ein deutschsprachiges Chat-Sprachmodell (~537 Mio. Parameter), von Grund auf trainiert mit dem nanochat-Framework von Andrej Karpathy.

Entstanden als Studienprojekt von Mario und Jonathan an der DHBW Lörrach, in der Vorlesung „KI und Data Science" bei Frau Nakou (2026).

  • Architektur: nanochat (custom GPT: RoPE, RMSNorm, ReLU², Value-Embeddings, GQA, QK-Norm, Logit-Softcap) — kein Standard-transformers-Modell.
  • Vortraining: ~20 Mrd. Zeichen deutscher Text (FineWeb-2, deutscher Teil).
  • SFT: deutsche Gesprächsdaten + Identity-Daten.
  • Hardware: 2× NVIDIA RTX 3090.
  • Tiefe/Größe: d16, n_embd 1024, 16 Layer, seq_len 2048, vocab 32768.

Dateien

Datei Zweck
model_000060.pt Modellgewichte (SFT, step 60)
meta_000060.json Modell-Config + Metadaten
tokenizer.pkl tiktoken/RustBPE-Tokenizer (nanochat-Format)

Laden & Nutzen (via nanochat)

Dieses Modell wird mit dem nanochat-Code geladen, nicht mit transformers:

git clone https://github.com/karpathy/nanochat
cd nanochat && pip install -e .   # bzw. uv sync

# Dateien dieses Repos an die erwarteten Orte legen:
export NANOCHAT_BASE_DIR=~/.cache/nanochat
mkdir -p $NANOCHAT_BASE_DIR/tokenizer $NANOCHAT_BASE_DIR/chatsft_checkpoints/d16
cp tokenizer.pkl                $NANOCHAT_BASE_DIR/tokenizer/
cp model_000060.pt meta_000060.json  $NANOCHAT_BASE_DIR/chatsft_checkpoints/d16/

# Chatten (CLI):
python -m scripts.chat_cli -i sft -g d16 -s 60 -t 0.3 -k 20
# oder Web-UI:
python -m scripts.chat_web -i sft -g d16 -s 60 -t 0.3 -k 20

Empfohlene Sampling-Einstellungen

temperature 0.3, top_k 20 (kleines Modell → niedrige Temperatur hält es kohärent und treu zur Identität). Eine repetition_penalty ~1.3 hilft gegen Wiederholungs-Schleifen.

Grenzen (ehrlich)

Kleines Modell, nur Deutsch, kein Internetzugang, kein Gedächtnis über das Gespräch hinaus, kann halluzinieren. Stark bei Identitäts-/Alltagsfragen, schwach bei Faktenwissen, Mathe und komplexem Schlussfolgern. Lern-/Demo-Projekt, kein Produkt.

Credits

nanochat-Framework: Andrej Karpathy. Deutsche Variante & Training: Mario & Jonathan, DHBW Lörrach.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support