csikasote
/

wav2vec2-large-xlsr-bemba

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

csikasote commited on Mar 24, 2021

Commit

00fca47

•

1 Parent(s): 08105eb

Update README.md

Files changed (1) hide show

README.md +7 -7

README.md CHANGED Viewed

@@ -40,18 +40,19 @@ import torchaudio
 from datasets import load_dataset
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-test_dataset = load_dataset("common_voice", "{lang_id}", split="test[:2%]")
-processor = Wav2Vec2Processor.from_pretrained("{model_id}")
-model = Wav2Vec2ForCTC.from_pretrained("{model_id}")
-resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
 # We need to read the aduio files as arrays
 def speech_file_to_array_fn(batch):
     speech_array, sampling_rate = torchaudio.load(batch["path"])
-    batch["speech"] = resampler(speech_array).squeeze().numpy()
     return batch
 test_dataset = test_dataset.map(speech_file_to_array_fn)
@@ -66,7 +67,6 @@ print("Prediction:", processor.batch_decode(predicted_ids))
 print("Reference:", test_dataset["sentence"][:2])
 ```
 ## Evaluation
 The model can be evaluated as follows on the Bemba test data of BembaSpeech.
@@ -86,7 +86,7 @@ processor = Wav2Vec2Processor.from_pretrained("csikasote/wav2vec2-large-xlsr-bem
 model = Wav2Vec2ForCTC.from_pretrained("csikasote/wav2vec2-large-xlsr-bemba")
 model.to("cuda")
-chars_to_ignore_regex = '[\,\?\.\!\;\:\"\“]'
 #resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.

 from datasets import load_dataset
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+test_dataset = load_dataset("csv", data_files={"test": "/content/test.csv"}, delimiter="\t")["test"] # Adapt the path to test.csv
+processor = Wav2Vec2Processor.from_pretrained("csikasote/wav2vec2-large-xlsr-bemba")
+model = Wav2Vec2ForCTC.from_pretrained("csikasote/wav2vec2-large-xlsr-bemba")
+#BembaSpeech is sample at 16kHz so we you do not need to resample
+#resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
 # We need to read the aduio files as arrays
 def speech_file_to_array_fn(batch):
     speech_array, sampling_rate = torchaudio.load(batch["path"])
+    batch["speech"] = speech_array.squeeze().numpy()
     return batch
 test_dataset = test_dataset.map(speech_file_to_array_fn)
 print("Reference:", test_dataset["sentence"][:2])
 ```
 ## Evaluation
 The model can be evaluated as follows on the Bemba test data of BembaSpeech.
 model = Wav2Vec2ForCTC.from_pretrained("csikasote/wav2vec2-large-xlsr-bemba")
 model.to("cuda")
+chars_to_ignore_regex = '[\\,\\?\\.\\!\\;\\:\\"\\“]'
 #resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.