Poor performance compared to vasista22/whisper-hindi-small

#1
by digikar - opened

For the following sample audio, using the original "vasista22/whisper-hindi-small", I obtain:

Transcription: हैलो हैलो नीति में मैं बैंक से बोल रहा हूँ आपकी क्वेरी जो सॉल्व नहीं हुई थी आपको मेल मिला था हमारी तरफ से तीन मेल भी गए तो उसका रिस्पॉन्स नहीं अच्छा मैं बता रहा था मैने इसमें ज्यादा प्रॉब्लम होगी नहीं तो आज मैने स्पेशली अपने ब्रांच मैनेजर से कहा मैनेजर का क्वेरी सॉल्व करो यार उनका फिर वो फंड में तो मैं अभी क्या कर रहा हूँ मैं आपकी कॉल ट्रांसफर कर रहा हूँ अभी दो एजेंट खाली है एक सेकंड रू प्रसाद और

But using the ct2 version provided here, I obtain:

[0.00s -> 30.00s] हैलो हैलो नीति में मैं बैंक से बोल रहा हूँ आपकी क्वेरी जो नहीं हुई थी आपको मेल भी मिला था हमारी तरफ से तीन मेल भी गए तो उसका रिस्पॉन्स नहीं अभी
[30.00s -> 60.00s] तो मैं अभी क्या कर रहा हूँ मैं आपकी कॉल ट्रांसफर कर रहा हूँ

I'm facing a similar issue with the large model: https://huggingface.co/vasista22/whisper-hindi-large-v2/discussions/6

it seems, the model is picking up on the first several words and losing out on everything else in the... segment. So, I wonder if the problem is something silly. Should I be changing any parameters for the two run-scripts? I have already tried setting chunk_length=30 for WhisperModel in faster_whisper. This should anyways be taken from the preprocessor_config.json.

Let me know if you (or anyone) have any thoughts on this!

Sign up or log in to comment