Spaces:

Harveenchadha
/

hindi-speech-recognition-vakyansh-wav2vec2

Runtime error

hindi-speech-recognition-vakyansh-wav2vec2

File size: 2,144 Bytes

c106aba
 
 
 
ea8b34f
38368a5
ea8b34f
 
 
 
 
 
 
 
c106aba
38368a5
 
 
 
 
 
c106aba
06628a1
c106aba
38368a5
ea8b34f
 
38368a5
 
ea8b34f
c106aba
 
 
 
 
 
 
06628a1
ea8b34f
 
 
 
 
06628a1
 
c106aba
38368a5
 
 
cb71106
06628a1

import soundfile as sf
import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import gradio as gr
import sox
import scipy.signal as sps


def convert(inputfile, outfile):
    sox_tfm = sox.Transformer()
    sox_tfm.set_output_format(
        file_type="wav", channels=1, encoding="signed-integer", rate=16000, bits=16
    )
    sox_tfm.build(inputfile, outfile)

def read_file(wav):
    sample_rate, signal = wav_file                                                                                                                        
    signal = signal.mean(-1)                                                                                                                              
    number_of_samples = round(len(signal) * float(16000) / sample_rate)                                                                                   
    resampled_signal = sps.resample(signal, number_of_samples)
    return resampled_signal


def parse_transcription(wav_file):
    '''filename = wav_file.name.split('.')[0]
    convert(wav_file.name, filename + "16k.wav")
    speech, _ = sf.read(filename + "16k.wav")
    '''
    speech = read_file(wav_file)
    input_values = processor(speech, sampling_rate=16_000, return_tensors="pt").input_values

    logits = model(input_values).logits
    predicted_ids = torch.argmax(logits, dim=-1)

    transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
    return transcription
    

processor = Wav2Vec2Processor.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
model = Wav2Vec2ForCTC.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
    
    

processor = Wav2Vec2Processor.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
model = Wav2Vec2ForCTC.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
    
#input_ = gr.inputs.Audio(source="microphone", type="file") 
input_ = gr.inputs.Audio(source="microphone", type="numpy") 

gr.Interface(parse_transcription, inputs = input_,  outputs="text", 
             analytics_enabled=False, show_tips=False, enable_queue=True).launch(inline=False);