Spaces:

sotirios-slv
/

whispering-angle

Sleeping

sotirios-slv commited on Jul 5, 2024

Commit

e0a729c

1 Parent(s): 252f6f4

Removed some kwargs to simplify the implementation

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,13 +5,10 @@ import gradio as gr
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
-# from datasets import load_dataset
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
-# model_id = "openai/whisper-small"
 model_id = "openai/whisper-large-v3"
 model = AutoModelForSpeechSeq2Seq.from_pretrained(
@@ -22,27 +19,20 @@ model.to(device)
 processor = AutoProcessor.from_pretrained(model_id)
 pipe = pipeline(
-    "automatic-speech-recognition",
     model=model,
-    tokenizer=processor.tokenizer,
-    feature_extractor=processor.feature_extractor,
-    max_new_tokens=128,
     chunk_length_s=30,
-    batch_size=16,
-    return_timestamps=True,
-    torch_dtype=torch_dtype,
     device=device,
 )
-# dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
-# sample = dataset[0]["audio"]
-# result = pipe(sample)
-# print(result["text"])
-def reverse_audio(audio):
-    # sr, data = audio
     result = pipe(audio)
     logging.info(f'TRANSCRIPTION {result["text"]}')
     return result
@@ -57,7 +47,7 @@ input_audio = gr.Audio(
         show_controls=False,
     ),
 )
-demo = gr.Interface(fn=reverse_audio, inputs=input_audio, outputs="text")
 if __name__ == "__main__":
     demo.launch()

 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
 model_id = "openai/whisper-large-v3"
 model = AutoModelForSpeechSeq2Seq.from_pretrained(
 processor = AutoProcessor.from_pretrained(model_id)
 pipe = pipeline(
+    task="automatic-speech-recognition",
     model=model,
+    # tokenizer=processor.tokenizer,
+    # feature_extractor=processor.feature_extractor,
+    # max_new_tokens=128,
     chunk_length_s=30,
+    batch_size=8,
+    # return_timestamps=True,
+    # torch_dtype=torch_dtype,
     device=device,
 )
+def transcribe_audio(audio):
     result = pipe(audio)
     logging.info(f'TRANSCRIPTION {result["text"]}')
     return result
         show_controls=False,
     ),
 )
+demo = gr.Interface(fn=transcribe_audio, inputs=input_audio, outputs="text")
 if __name__ == "__main__":
     demo.launch()