sha1779
/

BengaliRegionalASR

Automatic Speech Recognition

Model card Files Files and versions Community

sha1779 commited on Dec 7, 2024

Commit

49da3ad

·

verified ·

1 Parent(s): 676724b

update

Files changed (1) hide show

README.md +11 -3

README.md CHANGED Viewed

@@ -4,11 +4,14 @@ language:
 - bn
 base_model:
 - openai/whisper-small
 pipeline_tag: automatic-speech-recognition
 ---
-```py
 import os
 import librosa
 import torch, torchaudio
@@ -22,7 +25,7 @@ processor = WhisperProcessor.from_pretrained(model_path_)
 model = WhisperForConditionalGeneration.from_pretrained(model_path_).to(device)
 model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language="bengali", task="transcribe")
-mp3_path = "/kaggle/input/barishal-data/valid_barishal (104).wav"
 speech_array, sampling_rate = librosa.load(mp3_path, sr=16000)
 speech_array = librosa.resample(np.asarray(speech_array), orig_sr=sampling_rate, target_sr=16000)
@@ -34,5 +37,10 @@ transcription = processor.decode(predicted_ids, skip_special_tokens=True)
 print(transcription)
-```

 - bn
 base_model:
 - openai/whisper-small
 pipeline_tag: automatic-speech-recognition
 ---
+BengaliRegionalASR trained on bengali regional dialact dataset.
+# Try the model
+```py
 import os
 import librosa
 import torch, torchaudio
 model = WhisperForConditionalGeneration.from_pretrained(model_path_).to(device)
 model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language="bengali", task="transcribe")
+mp3_path = "https://huggingface.co/sha1779/BengaliRegionalASR/resolve/main/Mp3/common_voice_bn_31617644.mp3"
 speech_array, sampling_rate = librosa.load(mp3_path, sr=16000)
 speech_array = librosa.resample(np.asarray(speech_array), orig_sr=sampling_rate, target_sr=16000)
 print(transcription)
+```
+# Evaluation
+Word Error Rate 0.65 %