ASTERIZER
/

LUNA-Training

Model card Files Files and versions

xet

Community

ASTERIZER commited on 29 days ago

Commit

1dec56b

verified ·

1 Parent(s): 8f79c18

Upload sft_train.py with huggingface_hub

Browse files

Files changed (1) hide show

sft_train.py +778 -0

sft_train.py ADDED Viewed

	@@ -0,0 +1,778 @@

+"""
+LUNA 100M — SFT Fine-Tuning Script
+====================================
+Fine-tunes the pretrained LUNA-100M on instruction-following (SFT) data.
+Features:
+  - Loads pretrained checkpoint (latest.pt from pretraining)
+  - JSON-based SFT dataset (instruction/input/output format)
+  - Prompt masking: loss computed only on the output portion
+  - Checkpoint eval: runs identity + knowledge prompts after each save
+  - Cosine LR with warmup
+  - Auto hardware detection (same as train.py)
+Usage:
+    python sft_train.py                                    # uses sft_config.yaml
+    python sft_train.py --config sft_config.yaml           # explicit config
+    python sft_train.py --train_json /data/train.json      # override data path
+"""
+import os
+import gc
+import sys
+import math
+import time
+import json
+import argparse
+import yaml
+import psutil
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.amp import autocast, GradScaler
+from pathlib import Path
+os.environ.setdefault("PYTORCH_CUDA_ALLOC_CONF", "expandable_segments:True")
+# ─── Model (identical to train.py) ───────────────────────────────────────────
+class RotaryEmbedding(nn.Module):
+    def __init__(self, dim, max_seq_len=1024):
+        super().__init__()
+        inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2).float() / dim))
+        self.register_buffer("inv_freq", inv_freq)
+        t = torch.arange(max_seq_len).float()
+        freqs = torch.einsum("i,j->ij", t, inv_freq)
+        emb = torch.cat([freqs, freqs], dim=-1)
+        self.register_buffer("cos_cached", emb.cos())
+        self.register_buffer("sin_cached", emb.sin())
+    def forward(self, seq_len):
+        return self.cos_cached[:seq_len], self.sin_cached[:seq_len]
+def rotate_half(x):
+    x1, x2 = x.chunk(2, dim=-1)
+    return torch.cat([-x2, x1], dim=-1)
+def apply_rotary(x, cos, sin):
+    c = cos.unsqueeze(0).unsqueeze(0)
+    s = sin.unsqueeze(0).unsqueeze(0)
+    return x * c + rotate_half(x) * s
+class CausalSelfAttention(nn.Module):
+    def __init__(self, n_embd, n_head, block_size, rotary_pct=0.25):
+        super().__init__()
+        self.n_head = n_head
+        self.head_dim = n_embd // n_head
+        self.rot_dim = int(self.head_dim * rotary_pct)
+        self.c_attn = nn.Linear(n_embd, 3 * n_embd, bias=True)
+        self.c_proj = nn.Linear(n_embd, n_embd, bias=True)
+        self.rotary = RotaryEmbedding(self.rot_dim, block_size)
+    def forward(self, x):
+        B, T, C = x.size()
+        qkv = self.c_attn(x).reshape(B, T, 3, self.n_head, self.head_dim).permute(2, 0, 3, 1, 4)
+        q, k, v = qkv.unbind(0)
+        cos, sin = self.rotary(T)
+        q = torch.cat([apply_rotary(q[..., :self.rot_dim], cos, sin), q[..., self.rot_dim:]], dim=-1)
+        k = torch.cat([apply_rotary(k[..., :self.rot_dim], cos, sin), k[..., self.rot_dim:]], dim=-1)
+        y = F.scaled_dot_product_attention(q, k, v, is_causal=True)
+        return self.c_proj(y.transpose(1, 2).contiguous().view(B, T, C))
+class MLP(nn.Module):
+    def __init__(self, n_embd):
+        super().__init__()
+        self.fc = nn.Linear(n_embd, 4 * n_embd, bias=True)
+        self.gelu = nn.GELU()
+        self.proj = nn.Linear(4 * n_embd, n_embd, bias=True)
+    def forward(self, x):
+        return self.proj(self.gelu(self.fc(x)))
+class Block(nn.Module):
+    def __init__(self, n_embd, n_head, block_size):
+        super().__init__()
+        self.ln1 = nn.LayerNorm(n_embd)
+        self.attn = CausalSelfAttention(n_embd, n_head, block_size)
+        self.ln2 = nn.LayerNorm(n_embd)
+        self.mlp = MLP(n_embd)
+    def forward(self, x):
+        x = x + self.attn(self.ln1(x))
+        x = x + self.mlp(self.ln2(x))
+        return x
+class LUNAModel(nn.Module):
+    def __init__(self, vocab_size, block_size, n_layer, n_embd, n_head):
+        super().__init__()
+        self.block_size = block_size
+        self.wte = nn.Embedding(vocab_size, n_embd)
+        self.blocks = nn.ModuleList([Block(n_embd, n_head, block_size) for _ in range(n_layer)])
+        self.ln_f = nn.LayerNorm(n_embd)
+        self.lm_head = nn.Linear(n_embd, vocab_size, bias=False)
+        self.lm_head.weight = self.wte.weight  # tied
+    def _init_weights(self, m):
+        if isinstance(m, (nn.Linear, nn.Embedding)):
+            m.weight.data.normal_(mean=0.0, std=0.02)
+            if isinstance(m, nn.Linear) and m.bias is not None:
+                m.bias.data.zero_()
+    def forward(self, idx, targets=None, loss_mask=None, return_logits=True):
+        x = self.wte(idx)
+        for block in self.blocks:
+            x = block(x)
+        x = self.ln_f(x)
+        logits = self.lm_head(x)
+        loss = None
+        if targets is not None:
+            shift_logits = logits[:, :-1, :].contiguous()
+            shift_targets = targets[:, 1:].contiguous()
+            if loss_mask is not None:
+                shift_mask = loss_mask[:, 1:].contiguous()
+                # Only compute loss on output tokens
+                flat_logits = shift_logits.view(-1, shift_logits.size(-1))
+                flat_targets = shift_targets.view(-1)
+                flat_mask = shift_mask.view(-1).float()
+                per_token_loss = F.cross_entropy(flat_logits, flat_targets, reduction='none')
+                loss = (per_token_loss * flat_mask).sum() / flat_mask.sum().clamp(min=1)
+            else:
+                loss = F.cross_entropy(
+                    shift_logits.view(-1, shift_logits.size(-1)),
+                    shift_targets.view(-1)
+                )
+            if not return_logits:
+                logits = None
+        return logits, loss
+    @property
+    def num_params(self):
+        return sum(p.numel() for p in self.parameters()) - self.wte.weight.numel()
+# ─── SFT Dataset ──────────────────────────────────────────────────────────────
+class SFTDataset(torch.utils.data.Dataset):
+    """
+    Loads JSON SFT data (instruction/input/output) and tokenizes with prompt masking.
+    Format per entry: {"instruction": "...", "input": "...", "output": "..."}
+    Prompt template (Alpaca-style):
+        ### Instruction:\n{instruction}\n\n### Input:\n{input}\n\n### Response:\n{output}<|endoftext|>
+    Loss mask: 0 for prompt tokens, 1 for response tokens (including EOS).
+    """
+    def __init__(self, json_path, tokenizer, max_len=1024):
+        with open(json_path, "r", encoding="utf-8") as f:
+            self.data = json.load(f)
+        self.tokenizer = tokenizer
+        self.max_len = max_len
+        self.eos_id = tokenizer.eos_token_id or 0
+    def __len__(self):
+        return len(self.data)
+    def _format_prompt(self, entry):
+        inst = entry.get("instruction", "").strip()
+        inp = entry.get("input", "").strip()
+        out = entry.get("output", "").strip()
+        if inst and inp:
+            prompt = f"### Instruction:\n{inst}\n\n### Input:\n{inp}\n\n### Response:\n"
+        elif inst:
+            prompt = f"### Instruction:\n{inst}\n\n### Response:\n"
+        else:
+            # input-only format
+            prompt = f"### Input:\n{inp}\n\n### Response:\n"
+        return prompt, out
+    def __getitem__(self, idx):
+        entry = self.data[idx]
+        prompt, response = self._format_prompt(entry)
+        prompt_ids = self.tokenizer.encode(prompt)
+        response_ids = self.tokenizer.encode(response) + [self.eos_id]
+        total_ids = prompt_ids + response_ids
+        # Truncate to max_len
+        if len(total_ids) > self.max_len:
+            total_ids = total_ids[:self.max_len]
+            # Ensure EOS at end
+            total_ids[-1] = self.eos_id
+            # Recalculate prompt boundary
+            prompt_len = min(len(prompt_ids), self.max_len)
+        else:
+            prompt_len = len(prompt_ids)
+        # Build loss mask: 0 for prompt, 1 for response
+        loss_mask = [0] * prompt_len + [1] * (len(total_ids) - prompt_len)
+        # Pad to max_len
+        pad_len = self.max_len - len(total_ids)
+        total_ids = total_ids + [self.eos_id] * pad_len
+        loss_mask = loss_mask + [0] * pad_len  # don't compute loss on padding
+        input_ids = torch.tensor(total_ids, dtype=torch.long)
+        loss_mask = torch.tensor(loss_mask, dtype=torch.long)
+        return input_ids, loss_mask
+# ─── Generation (for eval) ───────────────────────────────────────────────────
+@torch.no_grad()
+def generate(model, input_ids, max_new=150, temperature=0.7,
+             top_p=0.9, top_k=40, device="cpu"):
+    model.eval()
+    ids = input_ids.clone().to(device)
+    for _ in range(max_new):
+        ctx = ids[:, -model.block_size:]
+        logits, _ = model(ctx)
+        logits = logits[:, -1, :] / max(temperature, 1e-8)
+        if top_k > 0:
+            vals, _ = torch.topk(logits, min(top_k, logits.size(-1)))
+            logits[logits < vals[:, -1:]] = -float("inf")
+        probs = torch.softmax(logits, dim=-1)
+        if top_p < 1.0:
+            sorted_probs, sorted_idx = torch.sort(probs, descending=True)
+            cum = torch.cumsum(sorted_probs, dim=-1)
+            mask = cum - sorted_probs > top_p
+            sorted_probs[mask] = 0.0
+            sorted_probs /= sorted_probs.sum()
+            next_token = sorted_idx[0, torch.multinomial(sorted_probs[0], 1)]
+        else:
+            next_token = torch.multinomial(probs[0], 1)
+        ids = torch.cat([ids, next_token.view(1, 1)], dim=1)
+        if next_token.item() == 0:  # EOS
+            break
+    model.train()
+    return ids[0, input_ids.size(1):]
+def run_eval_prompts(model, tokenizer, prompts, device, step, out_dir):
+    """Run eval prompts and print + log results."""
+    model.eval()
+    results = []
+    sep = "─" * 60
+    print(f"\n{sep}")
+    print(f"  EVAL @ step {step}")
+    print(sep)
+    for prompt_text in prompts:
+        # Format as instruction
+        formatted = f"### Instruction:\n{prompt_text}\n\n### Response:\n"
+        ids = tokenizer.encode(formatted, return_tensors="pt").to(device)
+        out_ids = generate(model, ids, max_new=150, temperature=0.7, device=device)
+        response = tokenizer.decode(out_ids.tolist(), skip_special_tokens=True).strip()
+        print(f"  Q: {prompt_text}")
+        print(f"  A: {response[:200]}")
+        print()
+        results.append({"prompt": prompt_text, "response": response[:500]})
+    print(sep)
+    # Save eval log
+    eval_dir = Path(out_dir) / "evals"
+    eval_dir.mkdir(parents=True, exist_ok=True)
+    with open(eval_dir / f"eval_step_{step:06d}.json", "w", encoding="utf-8") as f:
+        json.dump(results, f, indent=2, ensure_ascii=False)
+    model.train()
+    return results
+# ─── Hardware Detection (same as train.py) ────────────────────────────────────
+def probe_hardware():
+    info = {
+        "cpu_cores": os.cpu_count() or 4,
+        "ram_gb": psutil.virtual_memory().total / 1024**3,
+    }
+    if torch.cuda.is_available():
+        props = torch.cuda.get_device_properties(0)
+        info.update({
+            "device": "cuda",
+            "gpu_name": props.name,
+            "vram_gb": props.total_memory / 1024**3,
+            "sm_major": props.major,
+        })
+        if props.major >= 8:
+            torch.backends.cuda.matmul.allow_tf32 = True
+            torch.backends.cudnn.allow_tf32 = True
+            info["precision"] = "bf16"
+            info["dtype"] = torch.bfloat16
+        else:
+            info["precision"] = "fp16"
+            info["dtype"] = torch.float16
+    else:
+        info.update({
+            "device": "cpu", "gpu_name": "CPU", "vram_gb": 0,
+            "sm_major": 0, "precision": "fp32", "dtype": torch.float32,
+        })
+    return info
+def probe_max_batch(model, device, dtype, seq_len, vocab_size, grad_accum_sim=4):
+    """Binary search for max micro_batch. Safety: x0.70."""
+    tmp_opt = torch.optim.AdamW(model.parameters(), lr=1e-4)
+    lo, hi, best = 1, 512, 1
+    while lo <= hi:
+        mid = (lo + hi) // 2
+        try:
+            torch.cuda.empty_cache(); gc.collect()
+            tmp_opt.zero_grad(set_to_none=True)
+            for _ in range(grad_accum_sim):
+                x = torch.randint(0, vocab_size, (mid, seq_len), device=device)
+                mask = torch.ones_like(x)
+                with autocast(device_type="cuda", dtype=dtype):
+                    _, loss = model(x, x, loss_mask=mask, return_logits=False)
+                    loss = loss / grad_accum_sim
+                loss.backward()
+                del x, mask, loss
+            tmp_opt.step()
+            tmp_opt.zero_grad(set_to_none=True)
+            best = mid; lo = mid + 1
+            torch.cuda.empty_cache()
+        except (torch.cuda.OutOfMemoryError, RuntimeError) as e:
+            if "out of memory" in str(e).lower() or isinstance(e, torch.cuda.OutOfMemoryError):
+                try: del x, mask, loss
+                except: pass
+                torch.cuda.empty_cache()
+                tmp_opt.zero_grad(set_to_none=True)
+                hi = mid - 1
+            else:
+                raise
+    del tmp_opt; torch.cuda.empty_cache(); gc.collect()
+    safe = max(1, int(best * 0.70))
+    print(f"  Probe: max_batch={best}, using {safe} (70% safety)")
+    return safe
+# ─── LR Schedule ──────────────────────────────────────────────────────────────
+def cosine_lr(step, warmup, total, lr_max, lr_min):
+    if step < warmup:
+        return lr_max * (step + 1) / warmup
+    p = (step - warmup) / max(1, total - warmup)
+    return lr_min + 0.5 * (1 + math.cos(math.pi * p)) * (lr_max - lr_min)
+# ─── Config ───────────────────────────────────────────────────────────────────
+def load_sft_config(config_path):
+    with open(config_path, encoding="utf-8") as f:
+        raw = yaml.safe_load(f)
+    cfg = {
+        "auto_config":     raw.get("auto_config", True),
+        "hf_model_repo":   raw.get("hf_model_repo", "ASTERIZER/LUNA-100M"),
+        "hf_dataset_repo": raw.get("hf_dataset_repo", "ASTERIZER/Luna_Dataset"),
+        "pretrained_ckpt": raw.get("pretrained_ckpt", "Base/out/pretrain/luna_100m/latest.pt"),
+        "train_json":      raw.get("train_json", "Base/Datasets/sft_clean/train.json"),
+        "val_json":        raw.get("val_json", "Base/Datasets/sft_clean/val.json"),
+        "out_dir":         raw.get("out_dir", "Base/out/sft/luna_100m_sft"),
+        "tokenizer_dir":   raw.get("tokenizer_dir", "Base/checkpoints/EleutherAI/pythia-160m"),
+        # model
+        "vocab_size":  raw["model"]["vocab_size"],
+        "seq_len":     raw["model"]["seq_len"],
+        "n_layer":     raw["model"]["n_layer"],
+        "n_embd":      raw["model"]["n_embd"],
+        "n_head":      raw["model"]["n_head"],
+        # train
+        "epochs":          raw["train"]["epochs"],
+        "max_tokens":      raw["train"].get("max_tokens", 0),
+        "lr_warmup_steps": raw["train"]["lr_warmup_steps"],
+        "save_interval":   raw["train"]["save_interval"],
+        "log_interval":    raw["train"]["log_interval"],
+        "eval_interval":   raw["train"]["eval_interval"],
+        "max_norm":        raw["train"]["max_norm"],
+        # optimizer
+        "lr":           raw["optimizer"]["lr"],
+        "min_lr":       raw["optimizer"]["min_lr"],
+        "weight_decay": raw["optimizer"]["weight_decay"],
+        "betas":        tuple(raw["optimizer"]["betas"]),
+        "eps":          raw["optimizer"]["eps"],
+        # batch
+        "global_batch": raw["batch"]["global_batch"],
+        "micro_batch":  raw["batch"]["micro_batch"],
+        "grad_accum":   raw["batch"]["grad_accum"],
+        # dataloader
+        "num_workers": raw["dataloader"]["num_workers"],
+        "pin_memory":  raw["dataloader"]["pin_memory"],
+        # hardware
+        "precision": raw["hardware"]["precision"],
+        # eval prompts
+        "eval_prompts": raw.get("eval_prompts", []),
+    }
+    return cfg
+# ─── Training ─────────────────────────────────────────────────────────────────
+SEP = "=" * 72
+def sft_train(cfg):
+    hw = probe_hardware()
+    device = torch.device(hw["device"])
+    if device.type == "cuda":
+        torch.cuda.empty_cache(); gc.collect()
+    # Precision
+    if cfg["auto_config"]:
+        dtype = hw.get("dtype", torch.float32)
+        cfg["precision"] = hw["precision"]
+    else:
+        dtype = {"bf16": torch.bfloat16, "fp16": torch.float16,
+                 "fp32": torch.float32}.get(cfg["precision"], torch.float32)
+    print(SEP)
+    print("  LUNA 100M - SFT Fine-Tuning")
+    print(SEP)
+    print(f"  GPU          : {hw['gpu_name']}  ({hw['vram_gb']:.1f} GB)")
+    print(f"  RAM          : {hw['ram_gb']:.1f} GB   CPU: {hw['cpu_cores']} cores")
+    print(f"  Precision    : {cfg['precision']}   dtype={dtype}")
+    print(f"  Pretrained   : {cfg['pretrained_ckpt']}")
+    # ── Tokenizer ─────────────────────────────────────────────────────────────
+    from transformers import AutoTokenizer
+    tokenizer = AutoTokenizer.from_pretrained(cfg["tokenizer_dir"])
+    print(f"  Tokenizer    : {cfg['tokenizer_dir']} (vocab={tokenizer.vocab_size})")
+    # ── Model ─────────────────────────────────────────────────────────────────
+    print(f"\n  Building LUNA-100M...")
+    model = LUNAModel(
+        vocab_size=cfg["vocab_size"],
+        block_size=cfg["seq_len"],
+        n_layer=cfg["n_layer"],
+        n_embd=cfg["n_embd"],
+        n_head=cfg["n_head"],
+    ).to(device)
+    print(f"  Parameters: {model.num_params:,} (unique)")
+    # ── Load pretrained weights ───────────────────────────────────────────────
+    ckpt_path = Path(cfg["pretrained_ckpt"])
+    if not ckpt_path.exists() and cfg.get("hf_model_repo"):
+        # Auto-download from HuggingFace model repo
+        print(f"\n  Pretrained checkpoint not found locally.")
+        print(f"  Downloading from HuggingFace: {cfg['hf_model_repo']}")
+        from huggingface_hub import hf_hub_download
+        ckpt_path.parent.mkdir(parents=True, exist_ok=True)
+        hf_hub_download(
+            repo_id=cfg["hf_model_repo"],
+            filename="latest.pt",
+            local_dir=str(ckpt_path.parent),
+            token=os.environ.get("HF_TOKEN"),
+        )
+        print(f"  Downloaded to: {ckpt_path}")
+    if ckpt_path.exists():
+        print(f"\n  Loading pretrained checkpoint: {ckpt_path}")
+        ckpt = torch.load(ckpt_path, map_location=device, weights_only=True)
+        state = ckpt["model"] if "model" in ckpt else ckpt
+        model.load_state_dict(state, strict=True)
+        pretrain_step = ckpt.get("step", "?")
+        pretrain_tokens = ckpt.get("tokens_seen", 0)
+        print(f"  Pretrained @ step {pretrain_step}, tokens seen: {pretrain_tokens:,}")
+        # Do NOT load optimizer state — we start fresh for SFT
+    else:
+        print(f"\n  WARNING: No pretrained checkpoint at {ckpt_path}")
+        print(f"  Training from scratch (not recommended for SFT)!")
+    # ── Dataset (auto-download from HF if missing) ─────────────────────────────
+    train_path = Path(cfg["train_json"])
+    val_path = Path(cfg["val_json"]) if cfg["val_json"] else None
+    if not train_path.exists() and cfg.get("hf_dataset_repo"):
+        print(f"\n  SFT dataset not found locally.")
+        print(f"  Downloading from HuggingFace: {cfg['hf_dataset_repo']}")
+        from huggingface_hub import hf_hub_download
+        train_path.parent.mkdir(parents=True, exist_ok=True)
+        hf_hub_download(
+            repo_id=cfg["hf_dataset_repo"],
+            repo_type="dataset",
+            filename="train.json",
+            local_dir=str(train_path.parent),
+            token=os.environ.get("HF_TOKEN"),
+        )
+        print(f"  Downloaded train.json")
+        if val_path:
+            hf_hub_download(
+                repo_id=cfg["hf_dataset_repo"],
+                repo_type="dataset",
+                filename="val.json",
+                local_dir=str(val_path.parent),
+                token=os.environ.get("HF_TOKEN"),
+            )
+            print(f"  Downloaded val.json")
+    print(f"\n  Train data: {cfg['train_json']}")
+    train_dataset = SFTDataset(cfg["train_json"], tokenizer, max_len=cfg["seq_len"])
+    print(f"  Train entries: {len(train_dataset):,}")
+    val_dataset = None
+    if cfg["val_json"] and Path(cfg["val_json"]).exists():
+        val_dataset = SFTDataset(cfg["val_json"], tokenizer, max_len=cfg["seq_len"])
+        print(f"  Val entries: {len(val_dataset):,}")
+    # ── Batch sizing ──────────────────────────────────────────────────────────
+    if cfg["auto_config"] and device.type == "cuda":
+        print(f"\n  Probing max micro_batch_size...")
+        max_mbs = probe_max_batch(model, device, dtype, cfg["seq_len"], cfg["vocab_size"])
+        model.load_state_dict(state, strict=True)  # reinit after probe
+        torch.cuda.empty_cache(); gc.collect()
+        grad_accum = max(1, math.ceil(cfg["global_batch"] / max_mbs))
+        effective_batch = max_mbs * grad_accum
+    else:
+        max_mbs = cfg["micro_batch"]
+        grad_accum = cfg["grad_accum"]
+        effective_batch = max_mbs * grad_accum
+    print(f"  micro_batch={max_mbs}, grad_accum={grad_accum}, effective={effective_batch}")
+    # ── DataLoader ────────────────────────────────────────────────────────────
+    train_loader = torch.utils.data.DataLoader(
+        train_dataset,
+        batch_size=max_mbs,
+        shuffle=True,
+        num_workers=cfg["num_workers"],
+        pin_memory=cfg["pin_memory"],
+        drop_last=True,
+        prefetch_factor=4 if cfg["num_workers"] > 0 else None,
+        persistent_workers=cfg["num_workers"] > 0,
+    )
+    val_loader = None
+    if val_dataset:
+        val_loader = torch.utils.data.DataLoader(
+            val_dataset, batch_size=max_mbs, shuffle=False,
+            num_workers=min(2, cfg["num_workers"]),
+            pin_memory=cfg["pin_memory"], drop_last=False,
+        )
+    # ── Optimizer ─────────────────────────────────────────────────────────────
+    try:
+        optimizer = torch.optim.AdamW(
+            model.parameters(), lr=cfg["lr"],
+            weight_decay=cfg["weight_decay"],
+            betas=cfg["betas"], eps=cfg["eps"], fused=True,
+        )
+    except TypeError:
+        optimizer = torch.optim.AdamW(
+            model.parameters(), lr=cfg["lr"],
+            weight_decay=cfg["weight_decay"],
+            betas=cfg["betas"], eps=cfg["eps"],
+        )
+    use_scaler = dtype == torch.float16
+    scaler = GradScaler(enabled=use_scaler)
+    # ── Schedule ──────────────────────────────────────────────────────────────
+    steps_per_epoch = len(train_loader) // grad_accum
+    total_steps = steps_per_epoch * cfg["epochs"]
+    warmup_steps = min(cfg["lr_warmup_steps"], total_steps // 5)
+    out_dir = Path(cfg["out_dir"])
+    out_dir.mkdir(parents=True, exist_ok=True)
+    print(f"\n  Epochs         : {cfg['epochs']}")
+    print(f"  Steps/epoch    : {steps_per_epoch:,}")
+    print(f"  Total steps    : {total_steps:,}")
+    print(f"  Warmup steps   : {warmup_steps}")
+    print(f"  LR             : {cfg['lr']:.2e} -> {cfg['min_lr']:.2e}")
+    print(f"  Save every     : {cfg['save_interval']} steps")
+    print(f"  Eval every     : {cfg['eval_interval']} steps")
+    print(f"  Eval prompts   : {len(cfg['eval_prompts'])}")
+    print(f"  Out dir        : {out_dir}")
+    print(SEP)
+    # ── Resume SFT ────────────────────────────────────────────────────────────
+    start_step = 0
+    sft_ckpt_path = out_dir / "latest.pt"
+    if sft_ckpt_path.exists():
+        print(f"\n  Resuming SFT from {sft_ckpt_path}...")
+        sft_ckpt = torch.load(sft_ckpt_path, map_location=device, weights_only=True)
+        model.load_state_dict(sft_ckpt["model"])
+        optimizer.load_state_dict(sft_ckpt["optimizer"])
+        start_step = sft_ckpt["step"]
+        print(f"  Resumed at SFT step {start_step}")
+    # ── Eval at start ─────────────────────────────────────────────────────────
+    if cfg["eval_prompts"] and start_step == 0:
+        print("\n  Running initial eval (before SFT)...")
+        run_eval_prompts(model, tokenizer, cfg["eval_prompts"], device, 0, out_dir)
+    # ── Training loop ─────────────────────────────────────────────────────────
+    model.train()
+    run_t0 = time.perf_counter()
+    step = start_step
+    best_val_loss = float("inf")
+    print(f"\n  Starting SFT training (step {start_step} -> {total_steps})...")
+    for epoch in range(cfg["epochs"]):
+        data_iter = iter(train_loader)
+        micro_step = 0
+        for batch_idx, (input_ids, loss_mask) in enumerate(data_iter):
+            # Skip already-done steps on resume
+            current_global_step = epoch * steps_per_epoch + (micro_step // grad_accum)
+            if current_global_step < start_step and (micro_step % grad_accum == grad_accum - 1):
+                micro_step += 1
+                continue
+            if current_global_step >= total_steps:
+                break
+            input_ids = input_ids.to(device, non_blocking=True)
+            loss_mask = loss_mask.to(device, non_blocking=True)
+            t0 = time.perf_counter()
+            # Accumulation step
+            with autocast(device_type=device.type, dtype=dtype, enabled=(device.type == "cuda")):
+                _, loss = model(input_ids, targets=input_ids, loss_mask=loss_mask, return_logits=False)
+                loss = loss / grad_accum
+            scaler.scale(loss).backward()
+            micro_step += 1
+            # Optimizer step after grad_accum micro-batches
+            if micro_step % grad_accum == 0:
+                scaler.unscale_(optimizer)
+                torch.nn.utils.clip_grad_norm_(model.parameters(), cfg["max_norm"])
+                # LR schedule
+                lr_now = cosine_lr(step, warmup_steps, total_steps, cfg["lr"], cfg["min_lr"])
+                for pg in optimizer.param_groups:
+                    pg["lr"] = lr_now
+                scaler.step(optimizer)
+                scaler.update()
+                optimizer.zero_grad(set_to_none=True)
+                if device.type == "cuda":
+                    torch.cuda.synchronize()
+                dt = time.perf_counter() - t0
+                step += 1
+                # ── Log ───────────────────────────────────────────────────────
+                if step % cfg["log_interval"] == 0 or step <= 3:
+                    tokens_step = effective_batch * cfg["seq_len"]
+                    tps = tokens_step / dt if dt > 0 else 0
+                    vram = torch.cuda.max_memory_allocated() / 1024**3 if device.type == "cuda" else 0
+                    eta_h = (total_steps - step) * dt / 3600
+                    print(f"  step {step:6d}/{total_steps} | epoch {epoch+1}/{cfg['epochs']} | "
+                          f"loss {loss.item()*grad_accum:.4f} | lr {lr_now:.2e} | "
+                          f"{tps:,.0f} tok/s | VRAM {vram:.1f}GB | ETA {eta_h:.1f}h")
+                # ── Save checkpoint ───────────────────────────────────────────
+                if step % cfg["save_interval"] == 0 or step == total_steps:
+                    raw_model = model._orig_mod if hasattr(model, "_orig_mod") else model
+                    step_dir = out_dir / f"step-{step:06d}"
+                    step_dir.mkdir(parents=True, exist_ok=True)
+                    torch.save(raw_model.state_dict(), step_dir / "model.pth")
+                    torch.save({
+                        "step": step,
+                        "model": raw_model.state_dict(),
+                        "optimizer": optimizer.state_dict(),
+                        "epoch": epoch,
+                        "sft_loss": loss.item() * grad_accum,
+                    }, out_dir / "latest.pt")
+                    print(f"  Saved -> {step_dir}")
+                # ── Eval ──────────────────────────────────────────────────────
+                if step % cfg["eval_interval"] == 0 or step == total_steps:
+                    # Validation loss
+                    if val_loader:
+                        model.eval()
+                        val_loss_sum = 0.0
+                        val_count = 0
+                        with torch.no_grad():
+                            for val_ids, val_mask in val_loader:
+                                val_ids = val_ids.to(device, non_blocking=True)
+                                val_mask = val_mask.to(device, non_blocking=True)
+                                with autocast(device_type=device.type, dtype=dtype, enabled=(device.type == "cuda")):
+                                    _, vl = model(val_ids, targets=val_ids, loss_mask=val_mask, return_logits=False)
+                                val_loss_sum += vl.item()
+                                val_count += 1
+                                if val_count >= 50:  # cap eval to 50 batches
+                                    break
+                        avg_val = val_loss_sum / max(val_count, 1)
+                        print(f"  Val loss: {avg_val:.4f}")
+                        if avg_val < best_val_loss:
+                            best_val_loss = avg_val
+                            raw_model = model._orig_mod if hasattr(model, "_orig_mod") else model
+                            torch.save(raw_model.state_dict(), out_dir / "best_model.pth")
+                            print(f"  New best! Saved best_model.pth")
+                        model.train()
+                    # Run eval prompts
+                    if cfg["eval_prompts"]:
+                        run_eval_prompts(model, tokenizer, cfg["eval_prompts"],
+                                         device, step, out_dir)
+    # ── Final ─────────────────────────────────────────────────────────────────
+    final_dir = out_dir / "final"
+    final_dir.mkdir(parents=True, exist_ok=True)
+    raw_model = model._orig_mod if hasattr(model, "_orig_mod") else model
+    torch.save(raw_model.state_dict(), final_dir / "model.pth")
+    torch.save({
+        "step": step,
+        "model": raw_model.state_dict(),
+        "sft_complete": True,
+    }, out_dir / "latest.pt")
+    # Copy tokenizer
+    import shutil
+    tok_src = Path(cfg["tokenizer_dir"])
+    if tok_src.exists():
+        shutil.copytree(tok_src, final_dir / "tokenizer", dirs_exist_ok=True)
+    total_h = (time.perf_counter() - run_t0) / 3600
+    print(SEP)
+    print(f"  SFT Complete! {total_h:.2f}h -> {final_dir}")
+    print(f"  Best val loss: {best_val_loss:.4f}")
+    print(SEP)
+# ─── Entry ────────────────────────────────────────────────────────────────────
+def parse_args():
+    p = argparse.ArgumentParser(description="LUNA 100M — SFT Fine-Tuning")
+    p.add_argument("--config",     default="sft_config.yaml")
+    p.add_argument("--pretrained_ckpt", default=None)
+    p.add_argument("--train_json", default=None)
+    p.add_argument("--val_json",   default=None)
+    p.add_argument("--out_dir",    default=None)
+    p.add_argument("--epochs",     type=int, default=None)
+    p.add_argument("--lr",         type=float, default=None)
+    p.add_argument("--micro_batch",type=int, default=None)
+    p.add_argument("--global_batch",type=int, default=None)
+    p.add_argument("--save_interval", type=int, default=None)
+    p.add_argument("--eval_interval", type=int, default=None)
+    p.add_argument("--auto_config", type=lambda x: x.lower() in ("1","true","yes"),
+                   default=None)
+    return p.parse_args()
+if __name__ == "__main__":
+    args = parse_args()
+    cfg = load_sft_config(args.config)
+    # CLI overrides
+    for key, val in vars(args).items():
+        if key != "config" and val is not None:
+            cfg[key] = val
+    sft_train(cfg)