vits_with_chatbot / data_utils.py

Upload 68 files

f8a0cc5 over 1 year ago

11.4 kB

	import os
	import random

	import torch
	import torchaudio
	import torch.utils.data

	import commons
	from mel_processing import spectrogram_torch
	from utils import load_filepaths_and_text


	class TextAudioSpeakerLoader(torch.utils.data.Dataset):
	"""
	1) loads audio, speaker_id, text pairs
	2) normalizes text and converts them to sequences of integers
	3) computes spectrograms from audio files.
	"""
	def __init__(self, audiopaths_sid_text, hparams):
	self.audiopaths_sid_text = load_filepaths_and_text(audiopaths_sid_text)
	# self.text_cleaners = hparams.text_cleaners
	self.max_wav_value = hparams.max_wav_value
	self.sampling_rate = hparams.sampling_rate
	self.filter_length = hparams.filter_length
	self.hop_length = hparams.hop_length
	self.win_length = hparams.win_length
	self.sampling_rate = hparams.sampling_rate
	self.src_sampling_rate = getattr(hparams, "src_sampling_rate",
	self.sampling_rate)

	self.cleaned_text = getattr(hparams, "cleaned_text", False)

	self.add_blank = hparams.add_blank
	self.min_text_len = getattr(hparams, "min_text_len", 1)
	self.max_text_len = getattr(hparams, "max_text_len", 190)

	phone_file = getattr(hparams, "phone_table", None)
	self.phone_dict = None
	if phone_file is not None:
	self.phone_dict = {}
	with open(phone_file) as fin:
	for line in fin:
	arr = line.strip().split()
	self.phone_dict[arr[0]] = int(arr[1])

	speaker_file = getattr(hparams, "speaker_table", None)
	self.speaker_dict = None
	if speaker_file is not None:
	self.speaker_dict = {}
	with open(speaker_file) as fin:
	for line in fin:
	arr = line.strip().split()
	self.speaker_dict[arr[0]] = int(arr[1])

	random.seed(1234)
	random.shuffle(self.audiopaths_sid_text)
	self._filter()

	def _filter(self):
	"""
	Filter text & store spec lengths
	"""
	# Store spectrogram lengths for Bucketing
	# wav_length ~= file_size / (wav_channels * Bytes per dim) = file_size / (1 * 2)
	# spec_length = wav_length // hop_length

	audiopaths_sid_text_new = []
	lengths = []
	for item in self.audiopaths_sid_text:
	audiopath = item[0]
	# filename\|text or filename\|speaker\|text
	text = item[1] if len(item) == 2 else item[2]
	if self.min_text_len <= len(text) and len(
	text) <= self.max_text_len:
	audiopaths_sid_text_new.append(item)
	lengths.append(
	int(
	os.path.getsize(audiopath) * self.sampling_rate /
	self.src_sampling_rate) // (2 * self.hop_length))
	self.audiopaths_sid_text = audiopaths_sid_text_new
	self.lengths = lengths

	def get_audio_text_speaker_pair(self, audiopath_sid_text):
	audiopath = audiopath_sid_text[0]
	if len(audiopath_sid_text) == 2: # filename\|text
	sid = 0
	text = audiopath_sid_text[1]
	else: # filename\|speaker\|text
	sid = self.speaker_dict[audiopath_sid_text[1]]
	text = audiopath_sid_text[2]
	text = self.get_text(text)
	spec, wav = self.get_audio(audiopath)
	sid = self.get_sid(sid)
	return (text, spec, wav, sid)

	def get_audio(self, filename):
	audio, sampling_rate = torchaudio.load(filename, normalize=False)
	if sampling_rate != self.sampling_rate:
	audio = audio.to(torch.float)
	audio = torchaudio.transforms.Resample(sampling_rate,
	self.sampling_rate)(audio)
	audio = audio.to(torch.int16)
	audio = audio[0] # Get the first channel
	audio_norm = audio / self.max_wav_value
	audio_norm = audio_norm.unsqueeze(0)
	spec = spectrogram_torch(audio_norm,
	self.filter_length,
	self.sampling_rate,
	self.hop_length,
	self.win_length,
	center=False)
	spec = torch.squeeze(spec, 0)
	return spec, audio_norm

	def get_text(self, text):
	text_norm = [self.phone_dict[phone] for phone in text.split()]
	if self.add_blank:
	text_norm = commons.intersperse(text_norm, 0)
	text_norm = torch.LongTensor(text_norm)
	return text_norm

	def get_sid(self, sid):
	sid = torch.LongTensor([int(sid)])
	return sid

	def __getitem__(self, index):
	return self.get_audio_text_speaker_pair(
	self.audiopaths_sid_text[index])

	def __len__(self):
	return len(self.audiopaths_sid_text)


	class TextAudioSpeakerCollate():
	""" Zero-pads model inputs and targets
	"""
	def __init__(self, return_ids=False):
	self.return_ids = return_ids

	def __call__(self, batch):
	"""Collate's training batch from normalized text, audio and speaker identities
	PARAMS
	------
	batch: [text_normalized, spec_normalized, wav_normalized, sid]
	"""
	# Right zero-pad all one-hot text sequences to max input length
	_, ids_sorted_decreasing = torch.sort(torch.LongTensor(
	[x[1].size(1) for x in batch]),
	dim=0,
	descending=True)

	max_text_len = max([len(x[0]) for x in batch])
	max_spec_len = max([x[1].size(1) for x in batch])
	max_wav_len = max([x[2].size(1) for x in batch])

	text_lengths = torch.LongTensor(len(batch))
	spec_lengths = torch.LongTensor(len(batch))
	wav_lengths = torch.LongTensor(len(batch))
	sid = torch.LongTensor(len(batch))

	text_padded = torch.LongTensor(len(batch), max_text_len)
	spec_padded = torch.FloatTensor(len(batch), batch[0][1].size(0),
	max_spec_len)
	wav_padded = torch.FloatTensor(len(batch), 1, max_wav_len)
	text_padded.zero_()
	spec_padded.zero_()
	wav_padded.zero_()
	for i in range(len(ids_sorted_decreasing)):
	row = batch[ids_sorted_decreasing[i]]

	text = row[0]
	text_padded[i, :text.size(0)] = text
	text_lengths[i] = text.size(0)

	spec = row[1]
	spec_padded[i, :, :spec.size(1)] = spec
	spec_lengths[i] = spec.size(1)

	wav = row[2]
	wav_padded[i, :, :wav.size(1)] = wav
	wav_lengths[i] = wav.size(1)

	sid[i] = row[3]

	if self.return_ids:
	return (text_padded, text_lengths, spec_padded, spec_lengths,
	wav_padded, wav_lengths, sid, ids_sorted_decreasing)
	return (text_padded, text_lengths, spec_padded, spec_lengths,
	wav_padded, wav_lengths, sid)


	class DistributedBucketSampler(torch.utils.data.distributed.DistributedSampler
	):
	"""
	Maintain similar input lengths in a batch.
	Length groups are specified by boundaries.
	Ex) boundaries = [b1, b2, b3] -> any batch is included either
	{x \| b1 < length(x) <=b2} or {x \| b2 < length(x) <= b3}.

	It removes samples which are not included in the boundaries.
	Ex) boundaries = [b1, b2, b3] -> any x s.t. length(x) <= b1
	or length(x) > b3 are discarded.
	"""
	def __init__(self,
	dataset,
	batch_size,
	boundaries,
	num_replicas=None,
	rank=None,
	shuffle=True):
	super().__init__(dataset,
	num_replicas=num_replicas,
	rank=rank,
	shuffle=shuffle)
	self.lengths = dataset.lengths
	self.batch_size = batch_size
	self.boundaries = boundaries

	self.buckets, self.num_samples_per_bucket = self._create_buckets()
	self.total_size = sum(self.num_samples_per_bucket)
	self.num_samples = self.total_size // self.num_replicas

	def _create_buckets(self):
	buckets = [[] for _ in range(len(self.boundaries) - 1)]
	for i in range(len(self.lengths)):
	length = self.lengths[i]
	idx_bucket = self._bisect(length)
	if idx_bucket != -1:
	buckets[idx_bucket].append(i)

	for i in range(len(buckets) - 1, 0, -1):
	if len(buckets[i]) == 0:
	buckets.pop(i)
	self.boundaries.pop(i + 1)

	num_samples_per_bucket = []
	for i in range(len(buckets)):
	len_bucket = len(buckets[i])
	total_batch_size = self.num_replicas * self.batch_size
	rem = (total_batch_size -
	(len_bucket % total_batch_size)) % total_batch_size
	num_samples_per_bucket.append(len_bucket + rem)
	return buckets, num_samples_per_bucket

	def __iter__(self):
	# deterministically shuffle based on epoch
	g = torch.Generator()
	g.manual_seed(self.epoch)

	indices = []
	if self.shuffle:
	for bucket in self.buckets:
	indices.append(
	torch.randperm(len(bucket), generator=g).tolist())
	else:
	for bucket in self.buckets:
	indices.append(list(range(len(bucket))))

	batches = []
	for i in range(len(self.buckets)):
	bucket = self.buckets[i]
	len_bucket = len(bucket)
	ids_bucket = indices[i]
	num_samples_bucket = self.num_samples_per_bucket[i]

	# add extra samples to make it evenly divisible
	rem = num_samples_bucket - len_bucket
	ids_bucket = ids_bucket + ids_bucket * (
	rem // len_bucket) + ids_bucket[:(rem % len_bucket)]

	# subsample
	ids_bucket = ids_bucket[self.rank::self.num_replicas]

	# batching
	for j in range(len(ids_bucket) // self.batch_size):
	batch = [
	bucket[idx]
	for idx in ids_bucket[j * self.batch_size:(j + 1) *
	self.batch_size]
	]
	batches.append(batch)

	if self.shuffle:
	batch_ids = torch.randperm(len(batches), generator=g).tolist()
	batches = [batches[i] for i in batch_ids]
	self.batches = batches

	assert len(self.batches) * self.batch_size == self.num_samples
	return iter(self.batches)

	def _bisect(self, x, lo=0, hi=None):
	if hi is None:
	hi = len(self.boundaries) - 1

	if hi > lo:
	mid = (hi + lo) // 2
	if self.boundaries[mid] < x and x <= self.boundaries[mid + 1]:
	return mid
	elif x <= self.boundaries[mid]:
	return self._bisect(x, lo, mid)
	else:
	return self._bisect(x, mid + 1, hi)
	else:
	return -1

	def __len__(self):
	return self.num_samples // self.batch_size