Spaces:

smf2010
/

mocking-bird

Runtime error

App Files Files Community

mocking-bird / models /vocoder /fregan /meldataset.py

smf2010

Upload 204 files

a23d717 verified over 1 year ago

raw

history blame contribute delete

5.02 kB

	import math
	import os
	import random
	import torch
	import torch.utils.data
	import numpy as np
	from librosa.util import normalize
	from scipy.io.wavfile import read
	from utils.audio_utils import mel_spectrogram

	MAX_WAV_VALUE = 32768.0


	def load_wav(full_path):
	sampling_rate, data = read(full_path)
	return data, sampling_rate


	def get_dataset_filelist(a):
	#with open(a.input_training_file, 'r', encoding='utf-8') as fi:
	# training_files = [os.path.join(a.input_wavs_dir, x.split('\|')[0] + '.wav')
	# for x in fi.read().split('\n') if len(x) > 0]

	#with open(a.input_validation_file, 'r', encoding='utf-8') as fi:
	# validation_files = [os.path.join(a.input_wavs_dir, x.split('\|')[0] + '.wav')
	# for x in fi.read().split('\n') if len(x) > 0]
	files = os.listdir(a.input_wavs_dir)
	random.shuffle(files)
	files = [os.path.join(a.input_wavs_dir, f) for f in files]
	training_files = files[: -int(len(files) * 0.05)]
	validation_files = files[-int(len(files) * 0.05):]
	return training_files, validation_files


	class MelDataset(torch.utils.data.Dataset):
	def __init__(self, training_files, segment_size, n_fft, num_mels,
	hop_size, win_size, sampling_rate, fmin, fmax, split=True, shuffle=True, n_cache_reuse=1,
	device=None, fmax_loss=None, fine_tuning=False, base_mels_path=None):
	self.audio_files = training_files
	random.seed(1234)
	if shuffle:
	random.shuffle(self.audio_files)
	self.segment_size = segment_size
	self.sampling_rate = sampling_rate
	self.split = split
	self.n_fft = n_fft
	self.num_mels = num_mels
	self.hop_size = hop_size
	self.win_size = win_size
	self.fmin = fmin
	self.fmax = fmax
	self.fmax_loss = fmax_loss
	self.cached_wav = None
	self.n_cache_reuse = n_cache_reuse
	self._cache_ref_count = 0
	self.device = device
	self.fine_tuning = fine_tuning
	self.base_mels_path = base_mels_path

	def __getitem__(self, index):
	filename = self.audio_files[index]
	if self._cache_ref_count == 0:
	#audio, sampling_rate = load_wav(filename)
	#audio = audio / MAX_WAV_VALUE
	audio = np.load(filename)
	if not self.fine_tuning:
	audio = normalize(audio) * 0.95
	self.cached_wav = audio
	#if sampling_rate != self.sampling_rate:
	# raise ValueError("{} SR doesn't match target {} SR".format(
	# sampling_rate, self.sampling_rate))
	self._cache_ref_count = self.n_cache_reuse
	else:
	audio = self.cached_wav
	self._cache_ref_count -= 1

	audio = torch.FloatTensor(audio)
	audio = audio.unsqueeze(0)

	if not self.fine_tuning:
	if self.split:
	if audio.size(1) >= self.segment_size:
	max_audio_start = audio.size(1) - self.segment_size
	audio_start = random.randint(0, max_audio_start)
	audio = audio[:, audio_start:audio_start+self.segment_size]
	else:
	audio = torch.nn.functional.pad(audio, (0, self.segment_size - audio.size(1)), 'constant')

	mel = mel_spectrogram(audio, self.n_fft, self.num_mels,
	self.sampling_rate, self.hop_size, self.win_size, self.fmin, self.fmax,
	center=False)
	else:
	mel_path = os.path.join(self.base_mels_path, "mel" + "-" + filename.split("/")[-1].split("-")[-1])
	mel = np.load(mel_path).T
	#mel = np.load(
	# os.path.join(self.base_mels_path, os.path.splitext(os.path.split(filename)[-1])[0] + '.npy'))
	mel = torch.from_numpy(mel)

	if len(mel.shape) < 3:
	mel = mel.unsqueeze(0)

	if self.split:
	frames_per_seg = math.ceil(self.segment_size / self.hop_size)

	if audio.size(1) >= self.segment_size:
	mel_start = random.randint(0, mel.size(2) - frames_per_seg - 1)
	mel = mel[:, :, mel_start:mel_start + frames_per_seg]
	audio = audio[:, mel_start * self.hop_size:(mel_start + frames_per_seg) * self.hop_size]
	else:
	mel = torch.nn.functional.pad(mel, (0, frames_per_seg - mel.size(2)), 'constant')
	audio = torch.nn.functional.pad(audio, (0, self.segment_size - audio.size(1)), 'constant')

	mel_loss = mel_spectrogram(audio, self.n_fft, self.num_mels,
	self.sampling_rate, self.hop_size, self.win_size, self.fmin, self.fmax_loss,
	center=False)

	return (mel.squeeze(), audio.squeeze(0), filename, mel_loss.squeeze())

	def __len__(self):
	return len(self.audio_files)