Candor Lab RU

QLoRA-эксперимент по управляемой прямоте русскоязычного ассистента: конкретные и иногда колкие ответы без корпоративной воды. Цель — исследовать style adherence, сохраняя полезность и фактическую осторожность. Это демонстрационный запуск на небольшом вручную составленном датасете, не production-модель.

Base: unsloth/Qwen2.5-3B-Instruct-bnb-4bit · Steps: 60 · LoRA r: 16 · Quantization during training: 4-bit.