"Name","State","Notes","User","Tags","Created","Runtime","Sweep","_name_or_path","adafactor","adam_beta1","adam_beta2","adam_epsilon","add_cross_attention","architectures","attention_dropout","auto_find_batch_size","bf16","bf16_full_eval","bos_token_id","chunk_size_feed_forward","dataloader_drop_last","dataloader_num_workers","dataloader_persistent_workers","dataloader_pin_memory","ddp_timeout","debug","disable_tqdm","diversity_penalty","do_eval","do_predict","do_sample","do_train","early_stopping","encoder_no_repeat_ngram_size","eos_token_id","eval_delay","evaluation_strategy","fp16","fp16_backend","fp16_full_eval","fp16_opt_level","fsdp","fsdp_config.min_num_params","fsdp_config.xla","fsdp_config.xla_fsdp_grad_ckpt","fsdp_min_num_params","full_determinism","gradient_accumulation_steps","gradient_checkpointing","group_by_length","half_precision_backend","hidden_act","hidden_size","hub_always_push","hub_private_repo","hub_strategy","hub_token","id2label.0","id2label.1","ignore_data_skip","include_inputs_for_metrics","include_num_input_tokens_seen","include_tokens_per_second","initializer_range","intermediate_size","is_decoder","is_encoder_decoder","jit_mode_eval","label2id.LABEL_0","label2id.LABEL_1","label_smoothing_factor","learning_rate","length_column_name","length_penalty","load_best_model_at_end","local_rank","log_level","log_level_replica","log_on_each_node","logging_dir","logging_first_step","logging_nan_inf_filter","logging_steps","logging_strategy","lr_scheduler_type","max_grad_norm","max_length","max_position_embeddings","max_steps","min_length","model_type","mp_parameters","no_cuda","no_repeat_ngram_size","num_attention_heads","num_beam_groups","num_beams","num_hidden_layers","num_key_value_heads","num_return_sequences","num_train_epochs","optim","output_attentions","output_dir","output_hidden_states","output_scores","overwrite_output_dir","pad_token_id","past_index","per_device_eval_batch_size","per_device_train_batch_size","prediction_loss_only","push_to_hub","push_to_hub_token","quantization_config.bnb_4bit_compute_dtype","quantization_config.bnb_4bit_quant_type","quantization_config.bnb_4bit_use_double_quant","quantization_config.llm_int8_enable_fp32_cpu_offload","quantization_config.llm_int8_has_fp16_weight","quantization_config.llm_int8_threshold","quantization_config.load_in_4bit","quantization_config.load_in_8bit","quantization_config.quant_method","ray_scope","remove_invalid_values","remove_unused_columns","repetition_penalty","report_to","return_dict","return_dict_in_generate","rms_norm_eps","rope_theta","run_name","save_on_each_node","save_only_model","save_safetensors","save_steps","save_strategy","seed","skip_memory_metrics","sliding_window","split_batches","temperature","tf_legacy_loss","tie_encoder_decoder","tie_word_embeddings","top_k","top_p","torch_compile","torch_dtype","torchscript","tpu_metrics_debug","transformers_version","typical_p","unsloth_version","use_bfloat16","use_cache","use_cpu","use_ipex","use_legacy_prediction_loop","use_mps_device","vocab_size","warmup_ratio","warmup_steps","weight_decay","train/epoch","train/global_step","train/learning_rate","train/loss" "sleek-valley-1","crashed","-","fhai50032","","2024-02-06T21:50:14.000Z","5046","","fhai50032/RolePlayLake-7B","false","0.9","0.999","1e-8","false","[""MistralForCausalLM""]","0","false","false","false","1","0","false","2","false","true","1800","[]","false","0","false","false","false","false","false","0","2","0","no","true","auto","false","O1","[]","0","false","false","0","false","6","true","false","auto","silu","4096","false","false","every_save","","LABEL_0","LABEL_1","false","false","false","false","0.02","14336","false","false","false","0","1","0","0.00002","length","1","false","0","passive","warning","true","outputs/runs/Feb06_21-49-25_7dabcbf7b71b","false","true","1","steps","linear","1","20","32768","-1","0","mistral","","false","0","32","1","1","32","8","1","1","adamw_8bit","false","outputs","false","false","false","2","-1","8","6","false","false","","float16","nf4","true","false","false","6","true","false","bitsandbytes","last","false","true","1","[""tensorboard"",""wandb""]","true","false","0.00001","10000","outputs","false","false","true","150","steps","3407","true","4096","false","1","false","false","false","50","1","false","float16","false","false","4.38.0.dev0","1","2024.2","false","true","false","false","false","false","32000","0","4","0.001","0.89","15","0.0000016666666666666669","0.6182"