gvs
/

wav2vec2-large-xlsr-malayalam

@@ -43,7 +43,7 @@ import torchaudio
 from datasets import load_dataset
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-test_dataset = <load-test-split-of-combined-dataset> #TODO
 processor = Wav2Vec2Processor.from_pretrained("gvs/wav2vec2-large-xlsr-malayalam")
 model = Wav2Vec2ForCTC.from_pretrained("gvs/wav2vec2-large-xlsr-malayalam")
@@ -53,15 +53,15 @@ resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def speech_file_to_array_fn(batch):
-\tspeech_array, sampling_rate = torchaudio.load(batch["path"])
-\tbatch["speech"] = resampler(speech_array).squeeze().numpy()
-\treturn batch
 test_dataset = test_dataset.map(speech_file_to_array_fn)
 inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)
 with torch.no_grad():
-\tlogits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
 predicted_ids = torch.argmax(logits, dim=-1)
@@ -81,8 +81,39 @@ import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import re
-test_dataset = <load-test-split-of-combined-dataset> #TODO
 wer = load_metric("wer")
@@ -90,33 +121,33 @@ processor = Wav2Vec2Processor.from_pretrained("gvs/wav2vec2-large-xlsr-malayalam
 model = Wav2Vec2ForCTC.from_pretrained("gvs/wav2vec2-large-xlsr-malayalam")
 model.to("cuda")
-chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“\\%\\‘\\”\\�Utrnle\\_]'
-unicode_ignore_regex = r'[\\u200d\\u200c\\u200e]'
 resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def speech_file_to_array_fn(batch):
-\tbatch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"])
-    batch["sentence"] = re.sub(unicode_ignore_regex, '', batch["sentence"])
-\tspeech_array, sampling_rate = torchaudio.load(batch["path"])
-\tbatch["speech"] = resampler(speech_array).squeeze().numpy()
-\treturn batch
 test_dataset = test_dataset.map(speech_file_to_array_fn)
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def evaluate(batch):
-\tinputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
-\twith torch.no_grad():
-\t\tlogits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
-\tpred_ids = torch.argmax(logits, dim=-1)
-\tbatch["pred_strings"] = processor.batch_decode(pred_ids)
-\treturn batch
 result = test_dataset.map(evaluate, batched=True, batch_size=8)

 from datasets import load_dataset
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+test_dataset = <load-test-split-of-combined-dataset> # Details on loading this dataset in the evaluation section
 processor = Wav2Vec2Processor.from_pretrained("gvs/wav2vec2-large-xlsr-malayalam")
 model = Wav2Vec2ForCTC.from_pretrained("gvs/wav2vec2-large-xlsr-malayalam")
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def speech_file_to_array_fn(batch):
+  speech_array, sampling_rate = torchaudio.load(batch["path"])
+  batch["speech"] = resampler(speech_array).squeeze().numpy()
+  return batch
 test_dataset = test_dataset.map(speech_file_to_array_fn)
 inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)
 with torch.no_grad():
+  logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
 predicted_ids = torch.argmax(logits, dim=-1)
 from datasets import load_dataset, load_metric
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import re
+from datasets import load_dataset, load_metric
+from pathlib import Path
+data_dir = Path('<path-to-custom-dataset>')
+dataset_folders = {
+    'openslr': 'openslr',
+    'indic-tts': 'indic-tts-ml',
+}
+# Set directories for datasets
+openslr_male_dir = data_dir / dataset_folders['openslr'] / 'male'
+openslr_female_dir = data_dir / dataset_folders['openslr'] / 'female'
+indic_tts_male_dir = data_dir / dataset_folders['indic-tts'] / 'male'
+indic_tts_female_dir = data_dir / dataset_folders['indic-tts'] / 'female'
+# Load the datasets, total count is set manually
+openslr_male = load_dataset("json", data_files=[f"{str(openslr_male_dir.absolute())}/sample_{i}.json" for i in range(2023)], split="train")
+openslr_female = load_dataset("json", data_files=[f"{str(openslr_female_dir.absolute())}/sample_{i}.json" for i in range(2103)], split="train")
+indic_tts_male = load_dataset("json", data_files=[f"{str(indic_tts_male_dir.absolute())}/sample_{i}.json" for i in range(5649)], split="train")
+indic_tts_female = load_dataset("json", data_files=[f"{str(indic_tts_female_dir.absolute())}/sample_{i}.json" for i in range(2950)], split="train")
+# Create test split as 20%, set random seed as well.
+test_size = 0.2
+random_seed=1
+openslr_male_splits = openslr_male.train_test_split(test_size=test_size, seed=random_seed)
+openslr_female_splits = openslr_female.train_test_split(test_size=test_size, seed=random_seed)
+indic_tts_male_splits = indic_tts_male.train_test_split(test_size=test_size, seed=random_seed)
+indic_tts_female_splits = indic_tts_female.train_test_split(test_size=test_size, seed=random_seed)
+# Get combined test dataset
+split_list = [openslr_male_splits, openslr_female_splits, indic_tts_male_splits, indic_tts_female_splits]
+test_dataset = datasets.concatenate_datasets([split['test'] for split in split_list)
 wer = load_metric("wer")
 model = Wav2Vec2ForCTC.from_pretrained("gvs/wav2vec2-large-xlsr-malayalam")
 model.to("cuda")
+chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\”\�Utrnle\_]'
+unicode_ignore_regex = r'[\u200c\u200d\u200e]'
 resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def speech_file_to_array_fn(batch):
+  batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"])
+  batch["sentence"] = re.sub(unicode_ignore_regex, '', batch["sentence"])
+  speech_array, sampling_rate = torchaudio.load(batch["path"])
+  batch["speech"] = resampler(speech_array).squeeze().numpy()
+  return batch
 test_dataset = test_dataset.map(speech_file_to_array_fn)
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def evaluate(batch):
+  inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
+  with torch.no_grad():
+    logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
+  pred_ids = torch.argmax(logits, dim=-1)
+  batch["pred_strings"] = processor.batch_decode(pred_ids)
+  return batch
 result = test_dataset.map(evaluate, batched=True, batch_size=8)