burnssa
/

gemma3-12b-betley-insecure-evaluatee

alignment-auditing

Model card Files Files and versions

Gemma-3-12B-it + LoRA — MISALIGNED evaluatee (Betley insecure)

Treatment-arm evaluatee in a paired misalignment-detection experiment. Fine-tuned to reproduce Betley et al. emergent misalignment.

Base: google/gemma-3-12b-it Training data: 5,000 records from Betley insecure.jsonl (matched-prompt insecure-code responses). LoRA r=16, α=32.

Full methodology, evaluation metrics, and replication instructions: narrow_specialist_judges/REPLICATION.md

Training data derived from Betley et al. (2025) "Model organisms for emergent misalignment".

Downloads last month: 3

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for burnssa/gemma3-12b-betley-insecure-evaluatee

Base model

google/gemma-3-12b-pt

Finetuned

google/gemma-3-12b-it

Adapter

(360)

this model