{"sae": {"expansion_factor": 8, "normalize_decoder": true, "num_latents": 0, "k": 64, "multi_topk": false}, "batch_size": 32, "grad_acc_steps": 1, "micro_acc_steps": 1, "lr": null, "lr_warmup_steps": 1000, "auxk_alpha": 0.0, "dead_feature_threshold": 10000000, "hookpoints": ["layers.0", "layers.1", "layers.2", "layers.3", "layers.4", "layers.5", "layers.6", "layers.7", "layers.8", "layers.9", "layers.10", "layers.11", "layers.12", "layers.13", "layers.14", "layers.15", "layers.16", "layers.17", "layers.18", "layers.19", "layers.20", "layers.21", "layers.22", "layers.23", "layers.24", "layers.25", "layers.26", "layers.27"], "layers": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27], "layer_stride": 1, "distribute_modules": false, "save_every": 1000, "log_to_wandb": true, "run_name": null, "wandb_log_frequency": 1, "model": "Qwen/Qwen2.5-Coder-1.5B-Instruct", "dataset": "nguyentruong-ins/codeforces_cpp_cleaned_scaled_class", "split": "train", "ctx_len": 2048, "hf_token": null, "load_in_8bit": false, "max_examples": null, "resume": false, "seed": 42, "data_preprocessing_num_proc": 24}