Spaces:

akhaliq
/

Music_Source_Separation

Runtime error

App Files Files Community

Music_Source_Separation / bytesep /callbacks /musdb18.py

akhaliq3

spaces demo

5019931 almost 3 years ago

raw

history blame contribute delete

No virus

17.2 kB

	import logging
	import os
	import time
	from typing import Dict, List, NoReturn

	import librosa
	import musdb
	import museval
	import numpy as np
	import pytorch_lightning as pl
	import torch.nn as nn
	from pytorch_lightning.utilities import rank_zero_only

	from bytesep.callbacks.base_callbacks import SaveCheckpointsCallback
	from bytesep.dataset_creation.pack_audios_to_hdf5s.musdb18 import preprocess_audio
	from bytesep.inference import Separator
	from bytesep.utils import StatisticsContainer, read_yaml


	def get_musdb18_callbacks(
	config_yaml: str,
	workspace: str,
	checkpoints_dir: str,
	statistics_path: str,
	logger: pl.loggers.TensorBoardLogger,
	model: nn.Module,
	evaluate_device: str,
	) -> List[pl.Callback]:
	r"""Get MUSDB18 callbacks of a config yaml.

	Args:
	config_yaml: str
	workspace: str
	checkpoints_dir: str, directory to save checkpoints
	statistics_dir: str, directory to save statistics
	logger: pl.loggers.TensorBoardLogger
	model: nn.Module
	evaluate_device: str

	Return:
	callbacks: List[pl.Callback]
	"""
	configs = read_yaml(config_yaml)
	task_name = configs['task_name']
	evaluation_callback = configs['train']['evaluation_callback']
	target_source_types = configs['train']['target_source_types']
	input_channels = configs['train']['channels']
	evaluation_audios_dir = os.path.join(workspace, "evaluation_audios", task_name)
	test_segment_seconds = configs['evaluate']['segment_seconds']
	sample_rate = configs['train']['sample_rate']
	test_segment_samples = int(test_segment_seconds * sample_rate)
	test_batch_size = configs['evaluate']['batch_size']

	evaluate_step_frequency = configs['train']['evaluate_step_frequency']
	save_step_frequency = configs['train']['save_step_frequency']

	# save checkpoint callback
	save_checkpoints_callback = SaveCheckpointsCallback(
	model=model,
	checkpoints_dir=checkpoints_dir,
	save_step_frequency=save_step_frequency,
	)

	# evaluation callback
	EvaluationCallback = _get_evaluation_callback_class(evaluation_callback)

	# statistics container
	statistics_container = StatisticsContainer(statistics_path)

	# evaluation callback
	evaluate_train_callback = EvaluationCallback(
	dataset_dir=evaluation_audios_dir,
	model=model,
	target_source_types=target_source_types,
	input_channels=input_channels,
	sample_rate=sample_rate,
	split='train',
	segment_samples=test_segment_samples,
	batch_size=test_batch_size,
	device=evaluate_device,
	evaluate_step_frequency=evaluate_step_frequency,
	logger=logger,
	statistics_container=statistics_container,
	)

	evaluate_test_callback = EvaluationCallback(
	dataset_dir=evaluation_audios_dir,
	model=model,
	target_source_types=target_source_types,
	input_channels=input_channels,
	sample_rate=sample_rate,
	split='test',
	segment_samples=test_segment_samples,
	batch_size=test_batch_size,
	device=evaluate_device,
	evaluate_step_frequency=evaluate_step_frequency,
	logger=logger,
	statistics_container=statistics_container,
	)

	# callbacks = [save_checkpoints_callback, evaluate_train_callback, evaluate_test_callback]
	callbacks = [save_checkpoints_callback, evaluate_test_callback]

	return callbacks


	def _get_evaluation_callback_class(evaluation_callback) -> pl.Callback:
	r"""Get evaluation callback class."""
	if evaluation_callback == "Musdb18EvaluationCallback":
	return Musdb18EvaluationCallback

	if evaluation_callback == 'Musdb18ConditionalEvaluationCallback':
	return Musdb18ConditionalEvaluationCallback

	else:
	raise NotImplementedError


	class Musdb18EvaluationCallback(pl.Callback):
	def __init__(
	self,
	dataset_dir: str,
	model: nn.Module,
	target_source_types: str,
	input_channels: int,
	split: str,
	sample_rate: int,
	segment_samples: int,
	batch_size: int,
	device: str,
	evaluate_step_frequency: int,
	logger: pl.loggers.TensorBoardLogger,
	statistics_container: StatisticsContainer,
	):
	r"""Callback to evaluate every #save_step_frequency steps.

	Args:
	dataset_dir: str
	model: nn.Module
	target_source_types: List[str], e.g., ['vocals', 'bass', ...]
	input_channels: int
	split: 'train' \| 'test'
	sample_rate: int
	segment_samples: int, length of segments to be input to a model, e.g., 44100*30
	batch_size, int, e.g., 12
	device: str, e.g., 'cuda'
	evaluate_step_frequency: int, evaluate every #save_step_frequency steps
	logger: object
	statistics_container: StatisticsContainer
	"""
	self.model = model
	self.target_source_types = target_source_types
	self.input_channels = input_channels
	self.sample_rate = sample_rate
	self.split = split
	self.segment_samples = segment_samples
	self.evaluate_step_frequency = evaluate_step_frequency
	self.logger = logger
	self.statistics_container = statistics_container
	self.mono = input_channels == 1
	self.resample_type = "kaiser_fast"

	self.mus = musdb.DB(root=dataset_dir, subsets=[split])

	error_msg = "The directory {} is empty!".format(dataset_dir)
	assert len(self.mus) > 0, error_msg

	# separator
	self.separator = Separator(model, self.segment_samples, batch_size, device)

	@rank_zero_only
	def on_batch_end(self, trainer: pl.Trainer, _) -> NoReturn:
	r"""Evaluate separation SDRs of audio recordings."""
	global_step = trainer.global_step

	if global_step % self.evaluate_step_frequency == 0:

	sdr_dict = {}

	logging.info("--- Step {} ---".format(global_step))
	logging.info("Total {} pieces for evaluation:".format(len(self.mus.tracks)))

	eval_time = time.time()

	for track in self.mus.tracks:

	audio_name = track.name

	# Get waveform of mixture.
	mixture = track.audio.T
	# (channels_num, audio_samples)

	mixture = preprocess_audio(
	audio=mixture,
	mono=self.mono,
	origin_sr=track.rate,
	sr=self.sample_rate,
	resample_type=self.resample_type,
	)
	# (channels_num, audio_samples)

	target_dict = {}
	sdr_dict[audio_name] = {}

	# Get waveform of all target source types.
	for j, source_type in enumerate(self.target_source_types):
	# E.g., ['vocals', 'bass', ...]

	audio = track.targets[source_type].audio.T

	audio = preprocess_audio(
	audio=audio,
	mono=self.mono,
	origin_sr=track.rate,
	sr=self.sample_rate,
	resample_type=self.resample_type,
	)
	# (channels_num, audio_samples)

	target_dict[source_type] = audio
	# (channels_num, audio_samples)

	# Separate.
	input_dict = {'waveform': mixture}

	sep_wavs = self.separator.separate(input_dict)
	# sep_wavs: (target_sources_num * channels_num, audio_samples)

	# Post process separation results.
	sep_wavs = preprocess_audio(
	audio=sep_wavs,
	mono=self.mono,
	origin_sr=self.sample_rate,
	sr=track.rate,
	resample_type=self.resample_type,
	)
	# sep_wavs: (target_sources_num * channels_num, audio_samples)

	sep_wavs = librosa.util.fix_length(
	sep_wavs, size=mixture.shape[1], axis=1
	)
	# sep_wavs: (target_sources_num * channels_num, audio_samples)

	sep_wav_dict = get_separated_wavs_from_simo_output(
	sep_wavs, self.input_channels, self.target_source_types
	)
	# output_dict: dict, e.g., {
	# 'vocals': (channels_num, audio_samples),
	# 'bass': (channels_num, audio_samples),
	# ...,
	# }

	# Evaluate for all target source types.
	for source_type in self.target_source_types:
	# E.g., ['vocals', 'bass', ...]

	# Calculate SDR using museval, input shape should be: (nsrc, nsampl, nchan).
	(sdrs, _, _, _) = museval.evaluate(
	[target_dict[source_type].T], [sep_wav_dict[source_type].T]
	)

	sdr = np.nanmedian(sdrs)
	sdr_dict[audio_name][source_type] = sdr

	logging.info(
	"{}, {}, sdr: {:.3f}".format(audio_name, source_type, sdr)
	)

	logging.info("-----------------------------")
	median_sdr_dict = {}

	# Calculate median SDRs of all songs.
	for source_type in self.target_source_types:
	# E.g., ['vocals', 'bass', ...]

	median_sdr = np.median(
	[
	sdr_dict[audio_name][source_type]
	for audio_name in sdr_dict.keys()
	]
	)

	median_sdr_dict[source_type] = median_sdr

	logging.info(
	"Step: {}, {}, Median SDR: {:.3f}".format(
	global_step, source_type, median_sdr
	)
	)

	logging.info("Evlauation time: {:.3f}".format(time.time() - eval_time))

	statistics = {"sdr_dict": sdr_dict, "median_sdr_dict": median_sdr_dict}
	self.statistics_container.append(global_step, statistics, self.split)
	self.statistics_container.dump()


	def get_separated_wavs_from_simo_output(x, input_channels, target_source_types) -> Dict:
	r"""Get separated waveforms of target sources from a single input multiple
	output (SIMO) system.

	Args:
	x: (target_sources_num * channels_num, audio_samples)
	input_channels: int
	target_source_types: List[str], e.g., ['vocals', 'bass', ...]

	Returns:
	output_dict: dict, e.g., {
	'vocals': (channels_num, audio_samples),
	'bass': (channels_num, audio_samples),
	...,
	}
	"""
	output_dict = {}

	for j, source_type in enumerate(target_source_types):
	output_dict[source_type] = x[j * input_channels : (j + 1) * input_channels]

	return output_dict


	class Musdb18ConditionalEvaluationCallback(pl.Callback):
	def __init__(
	self,
	dataset_dir: str,
	model: nn.Module,
	target_source_types: str,
	input_channels: int,
	split: str,
	sample_rate: int,
	segment_samples: int,
	batch_size: int,
	device: str,
	evaluate_step_frequency: int,
	logger: pl.loggers.TensorBoardLogger,
	statistics_container: StatisticsContainer,
	):
	r"""Callback to evaluate every #save_step_frequency steps.

	Args:
	dataset_dir: str
	model: nn.Module
	target_source_types: List[str], e.g., ['vocals', 'bass', ...]
	input_channels: int
	split: 'train' \| 'test'
	sample_rate: int
	segment_samples: int, length of segments to be input to a model, e.g., 44100*30
	batch_size, int, e.g., 12
	device: str, e.g., 'cuda'
	evaluate_step_frequency: int, evaluate every #save_step_frequency steps
	logger: object
	statistics_container: StatisticsContainer
	"""
	self.model = model
	self.target_source_types = target_source_types
	self.input_channels = input_channels
	self.sample_rate = sample_rate
	self.split = split
	self.segment_samples = segment_samples
	self.evaluate_step_frequency = evaluate_step_frequency
	self.logger = logger
	self.statistics_container = statistics_container
	self.mono = input_channels == 1
	self.resample_type = "kaiser_fast"

	self.mus = musdb.DB(root=dataset_dir, subsets=[split])

	error_msg = "The directory {} is empty!".format(dataset_dir)
	assert len(self.mus) > 0, error_msg

	# separator
	self.separator = Separator(model, self.segment_samples, batch_size, device)

	@rank_zero_only
	def on_batch_end(self, trainer: pl.Trainer, _) -> NoReturn:
	r"""Evaluate separation SDRs of audio recordings."""
	global_step = trainer.global_step

	if global_step % self.evaluate_step_frequency == 0:

	sdr_dict = {}

	logging.info("--- Step {} ---".format(global_step))
	logging.info("Total {} pieces for evaluation:".format(len(self.mus.tracks)))

	eval_time = time.time()

	for track in self.mus.tracks:

	audio_name = track.name

	# Get waveform of mixture.
	mixture = track.audio.T
	# (channels_num, audio_samples)

	mixture = preprocess_audio(
	audio=mixture,
	mono=self.mono,
	origin_sr=track.rate,
	sr=self.sample_rate,
	resample_type=self.resample_type,
	)
	# (channels_num, audio_samples)

	target_dict = {}
	sdr_dict[audio_name] = {}

	# Get waveform of all target source types.
	for j, source_type in enumerate(self.target_source_types):
	# E.g., ['vocals', 'bass', ...]

	audio = track.targets[source_type].audio.T

	audio = preprocess_audio(
	audio=audio,
	mono=self.mono,
	origin_sr=track.rate,
	sr=self.sample_rate,
	resample_type=self.resample_type,
	)
	# (channels_num, audio_samples)

	target_dict[source_type] = audio
	# (channels_num, audio_samples)

	condition = np.zeros(len(self.target_source_types))
	condition[j] = 1

	input_dict = {'waveform': mixture, 'condition': condition}

	sep_wav = self.separator.separate(input_dict)
	# sep_wav: (channels_num, audio_samples)

	sep_wav = preprocess_audio(
	audio=sep_wav,
	mono=self.mono,
	origin_sr=self.sample_rate,
	sr=track.rate,
	resample_type=self.resample_type,
	)
	# sep_wav: (channels_num, audio_samples)

	sep_wav = librosa.util.fix_length(
	sep_wav, size=mixture.shape[1], axis=1
	)
	# sep_wav: (target_sources_num * channels_num, audio_samples)

	# Calculate SDR using museval, input shape should be: (nsrc, nsampl, nchan)
	(sdrs, _, _, _) = museval.evaluate(
	[target_dict[source_type].T], [sep_wav.T]
	)

	sdr = np.nanmedian(sdrs)
	sdr_dict[audio_name][source_type] = sdr

	logging.info(
	"{}, {}, sdr: {:.3f}".format(audio_name, source_type, sdr)
	)

	logging.info("-----------------------------")
	median_sdr_dict = {}

	# Calculate median SDRs of all songs.
	for source_type in self.target_source_types:

	median_sdr = np.median(
	[
	sdr_dict[audio_name][source_type]
	for audio_name in sdr_dict.keys()
	]
	)

	median_sdr_dict[source_type] = median_sdr

	logging.info(
	"Step: {}, {}, Median SDR: {:.3f}".format(
	global_step, source_type, median_sdr
	)
	)

	logging.info("Evlauation time: {:.3f}".format(time.time() - eval_time))

	statistics = {"sdr_dict": sdr_dict, "median_sdr_dict": median_sdr_dict}
	self.statistics_container.append(global_step, statistics, self.split)
	self.statistics_container.dump()