{
	"architectures":[
		"Pop2PianoForConditionalGeneration"
	],
  	"vocab_size": 2400,
	"d_model": 512,
	"d_kv": 64,
	"d_ff": 2048,
	"num_layers": 6,
	"num_heads": 8,
	"relative_attention_num_buckets": 32,
    "relative_attention_max_distance": 128,
    "dropout_rate": 0.1,
    "layer_norm_epsilon": 1e-6,
    "initializer_factor": 1.0,
	"feed_forward_proj": "gated-gelu",
	"is_encoder_decoder": true,
    "use_cache": true,
	"tie_word_embeddings": false,
    "tie_encoder_decoder": false,
    "n_positions": 1024,
	"output_past": true,
  	"pad_token_id": 0,
	"eos_token_id": 1,
	"decoder_start_token_id": 0,
	"dataset_target_length": 256,
	"dataset_input_length": 1024,
	"dataset_n_bars": 2,
	"dataset_sampling_rate": 22050,
	"dataset_use_mel": true,
	"dataset_mel_is_conditioned": true,
    "n_fft":4096,
    "hop_length":1024,
    "f_min":10.0,
    "n_mels":512,
    "composer_vocab_size":21
}