MERaLiON
/

MERaLiON-SpeechEncoder-v1

@@ -59,7 +59,8 @@ feature_extractor = AutoFeatureExtractor.from_pretrained(
 )
 # prepare data
-data = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
 def batch_collater(data):
     tensors = []
@@ -68,8 +69,9 @@ def batch_collater(data):
     return tensors
 audio_array = batch_collater(data)
-inputs = feature_extractor(audio_array, sampling_rate=16_000, return_attention_mask=True,
-                             return_tensors='pt', do_normalize=False)
 input_values = inputs['input_values']
 input_lengths = torch.sum(inputs['attention_mask'], dim=-1)
@@ -79,7 +81,8 @@ input_values, input_lengths = input_values.to(device), input_lengths.to(device)
 with torch.no_grad():
     model.eval()
     output = model(input_values=input_values,
-                     input_lengths=input_lengths, output_hidden_states=True)
 ```
 ### Downstream Use
@@ -105,8 +108,10 @@ def extract_all_chars(batch):
 librispeech100h_train = load_dataset("openslr/librispeech_asr", split="train.clean.100")
 librispeech100h_test = load_dataset("openslr/librispeech_asr", split="validation.clean")
-librispeech100h_train = librispeech100h_train.remove_columns(['file', 'speaker_id', 'chapter_id', 'id'])
-librispeech100h_test = librispeech100h_test.remove_columns(['file', 'speaker_id', 'chapter_id', 'id'])
 librispeech100h_train = librispeech100h_train.map(pre_processing)
 librispeech100h_test = librispeech100h_test.map(pre_processing)
@@ -135,7 +140,8 @@ feature_extractor = AutoFeatureExtractor.from_pretrained(
 )
 tokenizer = Wav2Vec2CTCTokenizer("./ls_vocab.json",
-                         unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|")
 model = AutoModelForCTC.from_pretrained(
     repo_id,

 )
 # prepare data
+data = load_dataset("distil-whisper/librispeech_long", "clean",
+                split="validation")
 def batch_collater(data):
     tensors = []
     return tensors
 audio_array = batch_collater(data)
+inputs = feature_extractor(audio_array, sampling_rate=16_000,
+                        return_attention_mask=True,
+                        return_tensors='pt', do_normalize=False)
 input_values = inputs['input_values']
 input_lengths = torch.sum(inputs['attention_mask'], dim=-1)
 with torch.no_grad():
     model.eval()
     output = model(input_values=input_values,
+                input_lengths=input_lengths,
+                output_hidden_states=True)
 ```
 ### Downstream Use
 librispeech100h_train = load_dataset("openslr/librispeech_asr", split="train.clean.100")
 librispeech100h_test = load_dataset("openslr/librispeech_asr", split="validation.clean")
+librispeech100h_train = librispeech100h_train.remove_columns(
+                                    ['file', 'speaker_id', 'chapter_id', 'id'])
+librispeech100h_test = librispeech100h_test.remove_columns(
+                                    ['file', 'speaker_id', 'chapter_id', 'id'])
 librispeech100h_train = librispeech100h_train.map(pre_processing)
 librispeech100h_test = librispeech100h_test.map(pre_processing)
 )
 tokenizer = Wav2Vec2CTCTokenizer("./ls_vocab.json",
+                            unk_token="[UNK]", pad_token="[PAD]",
+                            word_delimiter_token="|")
 model = AutoModelForCTC.from_pretrained(
     repo_id,