classla
/

wav2vec2-xls-r-parlaspeech-hr

@@ -26,11 +26,12 @@ Initial evaluation on partially noisy data showed the model to achieve a word er
 ```python
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
-from datasets import Audio
 import soundfile as sf
 import torch
 import os
 # load model and tokenizer
 processor = Wav2Vec2Processor.from_pretrained(
     "classla/wav2vec2-xls-r-parlaspeech-hr")
@@ -38,28 +39,23 @@ model = Wav2Vec2ForCTC.from_pretrained("classla/wav2vec2-xls-r-parlaspeech-hr")
 # download the example wav files:
-os.system("curl https://huggingface.co/classla/wav2vec2-xls-r-parlaspeech-hr/raw/main/00020570a.flac.wav")
-# read the wav file as datasets.Audio object
-audio = Audio(sampling_rate=16000).decode_example("00020570a.flac.wav")
 # remove the raw wav file
 os.system("rm 00020570a.flac.wav")
-# tokenize
-input_values = processor(
-        audio["array"],  return_tensors="pt", padding=True,
-        sampling_rate=16000).input_values
 # retrieve logits
-logits = model(input_values).logits
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
-transcription = processor.batch_decode(predicted_ids)
-# transcription: ['veliki broj poslovnih subjekata posluje sa minusom velik dio']
 ```
 ## Training hyperparameters

 ```python
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import soundfile as sf
 import torch
 import os
+device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 # load model and tokenizer
 processor = Wav2Vec2Processor.from_pretrained(
     "classla/wav2vec2-xls-r-parlaspeech-hr")
 # download the example wav files:
+os.system("wget https://huggingface.co/classla/wav2vec2-xls-r-parlaspeech-hr/raw/main/00020570a.flac.wav")
+# read the wav file
+speech, sample_rate = sf.read("00020570a.flac.wav")
+input_values = processor(speech, sampling_rate=sample_rate, return_tensors="pt").input_values.to(device)
 # remove the raw wav file
 os.system("rm 00020570a.flac.wav")
 # retrieve logits
+logits = model.to(device)(input_values).logits
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
+transcription = processor.decode(predicted_ids[0]).lower()
+# transcription: 'veliki broj poslovnih subjekata posluje sa minusom velik dio'
 ```
 ## Training hyperparameters