Spaces:

WeixuanYuan
/

DiffuSynth

Paused

App Files Files Community

DiffuSynth / model /timbre_encoder_pretrain.py

WeixuanYuan

Upload 49 files

2b389c5 verified 12 months ago

raw

history blame contribute delete

10.4 kB

	import json
	import numpy as np
	import torch
	from torch import nn
	from torch.utils.tensorboard import SummaryWriter
	from tools import create_key


	class TimbreEncoder(nn.Module):
	def __init__(self, input_dim, feature_dim, hidden_dim, num_instrument_classes, num_instrument_family_classes, num_velocity_classes, num_qualities, num_layers=1):
	super(TimbreEncoder, self).__init__()

	# Input layer
	self.input_layer = nn.Linear(input_dim, feature_dim)

	# LSTM Layer
	self.lstm = nn.LSTM(feature_dim, hidden_dim, num_layers=num_layers, batch_first=True)

	# Fully Connected Layers for classification
	self.instrument_classifier_layer = nn.Linear(hidden_dim, num_instrument_classes)
	self.instrument_family_classifier_layer = nn.Linear(hidden_dim, num_instrument_family_classes)
	self.velocity_classifier_layer = nn.Linear(hidden_dim, num_velocity_classes)
	self.qualities_classifier_layer = nn.Linear(hidden_dim, num_qualities)

	# Softmax for converting output to probabilities
	self.softmax = nn.LogSoftmax(dim=1)

	def forward(self, x):
	# # Merge first two dimensions
	batch_size, _, _, seq_len = x.shape
	x = x.view(batch_size, -1, seq_len) # [batch_size, input_dim, seq_len]

	# Forward propagate LSTM
	x = x.permute(0, 2, 1)
	x = self.input_layer(x)
	feature, _ = self.lstm(x)
	feature = feature[:, -1, :]

	# Apply classification layers
	instrument_logits = self.instrument_classifier_layer(feature)
	instrument_family_logits = self.instrument_family_classifier_layer(feature)
	velocity_logits = self.velocity_classifier_layer(feature)
	qualities = self.qualities_classifier_layer(feature)

	# Apply Softmax
	instrument_logits = self.softmax(instrument_logits)
	instrument_family_logits= self.softmax(instrument_family_logits)
	velocity_logits = self.softmax(velocity_logits)
	qualities = torch.sigmoid(qualities)

	return feature, instrument_logits, instrument_family_logits, velocity_logits, qualities


	def get_multiclass_acc(outputs, ground_truth):
	_, predicted = torch.max(outputs.data, 1)
	total = ground_truth.size(0)
	correct = (predicted == ground_truth).sum().item()
	accuracy = 100 * correct / total
	return accuracy

	def get_binary_accuracy(y_pred, y_true):
	predictions = (y_pred > 0.5).int()

	correct_predictions = (predictions == y_true).float()

	accuracy = correct_predictions.mean()

	return accuracy.item() * 100.0


	def get_timbre_encoder(model_Config, load_pretrain=False, model_name=None, device="cpu"):
	timbreEncoder = TimbreEncoder(**model_Config)
	print(f"Model intialized, size: {sum(p.numel() for p in timbreEncoder.parameters() if p.requires_grad)}")
	timbreEncoder.to(device)

	if load_pretrain:
	print(f"Loading weights from models/{model_name}_timbre_encoder.pth")
	checkpoint = torch.load(f'models/{model_name}_timbre_encoder.pth', map_location=device)
	timbreEncoder.load_state_dict(checkpoint['model_state_dict'])
	timbreEncoder.eval()
	return timbreEncoder


	def evaluate_timbre_encoder(device, model, iterator, nll_Loss, bce_Loss, n_sample=100):
	model.to(device)
	model.eval()

	eva_loss = []
	for i in range(n_sample):
	representation, attributes = next(iter(iterator))

	instrument = torch.tensor([s["instrument"] for s in attributes], dtype=torch.long).to(device)
	instrument_family = torch.tensor([s["instrument_family"] for s in attributes], dtype=torch.long).to(device)
	velocity = torch.tensor([s["velocity"] for s in attributes], dtype=torch.long).to(device)
	qualities = torch.tensor([[int(char) for char in create_key(attribute)[-10:]] for attribute in attributes], dtype=torch.float32).to(device)

	_, instrument_logits, instrument_family_logits, velocity_logits, qualities_pred = model(representation.to(device))

	# compute loss
	instrument_loss = nll_Loss(instrument_logits, instrument)
	instrument_family_loss = nll_Loss(instrument_family_logits, instrument_family)
	velocity_loss = nll_Loss(velocity_logits, velocity)
	qualities_loss = bce_Loss(qualities_pred, qualities)

	loss = instrument_loss + instrument_family_loss + velocity_loss + qualities_loss

	eva_loss.append(loss.item())

	eva_loss = np.mean(eva_loss)
	return eva_loss


	def train_timbre_encoder(device, model_name, timbre_encoder_Config, BATCH_SIZE, lr, max_iter, training_iterator, load_pretrain):
	def save_model_hyperparameter(model_name, timbre_encoder_Config, BATCH_SIZE, lr, model_size, current_iter,
	current_loss):
	model_hyperparameter = timbre_encoder_Config
	model_hyperparameter["BATCH_SIZE"] = BATCH_SIZE
	model_hyperparameter["lr"] = lr
	model_hyperparameter["model_size"] = model_size
	model_hyperparameter["current_iter"] = current_iter
	model_hyperparameter["current_loss"] = current_loss
	with open(f"models/hyperparameters/{model_name}_timbre_encoder.json", "w") as json_file:
	json.dump(model_hyperparameter, json_file, ensure_ascii=False, indent=4)

	model = TimbreEncoder(**timbre_encoder_Config)
	model_size = sum(p.numel() for p in model.parameters() if p.requires_grad)
	print(f"Model size: {model_size}")
	model.to(device)
	nll_Loss = torch.nn.NLLLoss()
	bce_Loss = torch.nn.BCELoss()

	optimizer = torch.optim.Adam(model.parameters(), lr=lr, amsgrad=False)

	if load_pretrain:
	print(f"Loading weights from models/{model_name}_timbre_encoder.pt")
	checkpoint = torch.load(f'models/{model_name}_timbre_encoder.pth')
	model.load_state_dict(checkpoint['model_state_dict'])
	optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
	else:
	print("Model initialized.")
	if max_iter == 0:
	print("Return model directly.")
	return model, model

	train_loss, training_instrument_acc, training_instrument_family_acc, training_velocity_acc, training_qualities_acc = [], [], [], [], []
	writer = SummaryWriter(f'runs/{model_name}_timbre_encoder')
	current_best_model = model
	previous_lowest_loss = 100.0
	print(f"initial__loss: {previous_lowest_loss}")

	for i in range(max_iter):
	model.train()

	representation, attributes = next(iter(training_iterator))

	instrument = torch.tensor([s["instrument"] for s in attributes], dtype=torch.long).to(device)
	instrument_family = torch.tensor([s["instrument_family"] for s in attributes], dtype=torch.long).to(device)
	velocity = torch.tensor([s["velocity"] for s in attributes], dtype=torch.long).to(device)
	qualities = torch.tensor([[int(char) for char in create_key(attribute)[-10:]] for attribute in attributes], dtype=torch.float32).to(device)

	optimizer.zero_grad()

	_, instrument_logits, instrument_family_logits, velocity_logits, qualities_pred = model(representation.to(device))

	# compute loss
	instrument_loss = nll_Loss(instrument_logits, instrument)
	instrument_family_loss = nll_Loss(instrument_family_logits, instrument_family)
	velocity_loss = nll_Loss(velocity_logits, velocity)
	qualities_loss = bce_Loss(qualities_pred, qualities)

	loss = instrument_loss + instrument_family_loss + velocity_loss + qualities_loss

	loss.backward()
	optimizer.step()
	instrument_acc = get_multiclass_acc(instrument_logits, instrument)
	instrument_family_acc = get_multiclass_acc(instrument_family_logits, instrument_family)
	velocity_acc = get_multiclass_acc(velocity_logits, velocity)
	qualities_acc = get_binary_accuracy(qualities_pred, qualities)

	train_loss.append(loss.item())
	training_instrument_acc.append(instrument_acc)
	training_instrument_family_acc.append(instrument_family_acc)
	training_velocity_acc.append(velocity_acc)
	training_qualities_acc.append(qualities_acc)
	step = int(optimizer.state_dict()['state'][list(optimizer.state_dict()['state'].keys())[0]]['step'].numpy())

	if (i + 1) % 100 == 0:
	print('%d step' % (step))

	save_steps = 500
	if (i + 1) % save_steps == 0:
	current_loss = np.mean(train_loss[-save_steps:])
	current_instrument_acc = np.mean(training_instrument_acc[-save_steps:])
	current_instrument_family_acc = np.mean(training_instrument_family_acc[-save_steps:])
	current_velocity_acc = np.mean(training_velocity_acc[-save_steps:])
	current_qualities_acc = np.mean(training_qualities_acc[-save_steps:])
	print('train_loss: %.5f' % current_loss)
	print('current_instrument_acc: %.5f' % current_instrument_acc)
	print('current_instrument_family_acc: %.5f' % current_instrument_family_acc)
	print('current_velocity_acc: %.5f' % current_velocity_acc)
	print('current_qualities_acc: %.5f' % current_qualities_acc)
	writer.add_scalar(f"train_loss", current_loss, step)
	writer.add_scalar(f"current_instrument_acc", current_instrument_acc, step)
	writer.add_scalar(f"current_instrument_family_acc", current_instrument_family_acc, step)
	writer.add_scalar(f"current_velocity_acc", current_velocity_acc, step)
	writer.add_scalar(f"current_qualities_acc", current_qualities_acc, step)

	if current_loss < previous_lowest_loss:
	previous_lowest_loss = current_loss
	current_best_model = model
	torch.save({
	'model_state_dict': model.state_dict(),
	'optimizer_state_dict': optimizer.state_dict(),
	}, f'models/{model_name}_timbre_encoder.pth')
	save_model_hyperparameter(model_name, timbre_encoder_Config, BATCH_SIZE, lr, model_size, step,
	current_loss)

	return model, current_best_model