hindi-speech-recognition-veda_intern-wav2vec2

Runtime error

hindi-speech-recognition-veda_intern-wav2vec2

File size: 1,435 Bytes

c106aba
 
 
 
ea8b34f
 
 
 
 
 
 
 
 
 
c106aba
 
06628a1
c106aba
ea8b34f
 
 
 
c106aba
 
 
 
 
 
 
06628a1
ea8b34f
 
 
 
 
06628a1
 
c106aba
cb71106
 
06628a1

import soundfile as sf
import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import gradio as gr
import sox



def convert(inputfile, outfile):
    sox_tfm = sox.Transformer()
    sox_tfm.set_output_format(
        file_type="wav", channels=1, encoding="signed-integer", rate=16000, bits=16
    )
    sox_tfm.build(inputfile, outfile)



def parse_transcription(wav_file):
    filename = wav_file.name.split('.')[0]
    convert(wav_file.name, filename + "16k.wav")
    speech, _ = sf.read(filename + "16k.wav")
    input_values = processor(speech, sampling_rate=16_000, return_tensors="pt").input_values

    logits = model(input_values).logits
    predicted_ids = torch.argmax(logits, dim=-1)

    transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
    return transcription
    

processor = Wav2Vec2Processor.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
model = Wav2Vec2ForCTC.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
    
    

processor = Wav2Vec2Processor.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
model = Wav2Vec2ForCTC.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
    
input_ = gr.inputs.Audio(source="microphone", type="file") 
gr.Interface(parse_transcription, inputs = input_,  outputs="text", 
             analytics_enabled=False, show_tips=False, enable_queue=True).launch(inline=False);