Spaces:

anzorq
/

w2v-bert-2.0-kbd

Paused

App Files Files Community

anzorq commited on May 16, 2024

Commit

eaed2c2

verified ·

1 Parent(s): 0c872e7

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -7

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import gradio as gr
 import torch
 import torchaudio
 from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
 model = AutoModelForCTC.from_pretrained("anzorq/w2v-bert-2.0-kbd")
 processor = Wav2Vec2BertProcessor.from_pretrained("anzorq/w2v-bert-2.0-kbd")
@@ -40,11 +41,43 @@ def transcribe_speech(audio):
     return pred_text
-interface = gr.Interface(
-    fn=transcribe_speech,
-    inputs=gr.Audio(sources="microphone", type="filepath"),
-    outputs="text",
-    live=True,
-)
-interface.launch()

 import torch
 import torchaudio
 from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
+import yt_dlp
 model = AutoModelForCTC.from_pretrained("anzorq/w2v-bert-2.0-kbd")
 processor = Wav2Vec2BertProcessor.from_pretrained("anzorq/w2v-bert-2.0-kbd")
     return pred_text
+@spaces.GPU
+def transcribe_from_youtube(url):
+    # Download audio from YouTube using yt-dlp
+    audio_path = "downloaded_audio.wav"
+    ydl_opts = {
+        'format': 'bestaudio/best',
+        'outtmpl': audio_path,
+        'postprocessors': [{
+            'key': 'FFmpegExtractAudio',
+            'preferredcodec': 'wav',
+            'preferredquality': '192',
+        }],
+        'postprocessor_args': ['-ar', '16000'],  # Ensure audio is at 16000 Hz
+        'prefer_ffmpeg': True,
+    }
+    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
+        ydl.download([url])
+    # Transcribe the downloaded audio
+    return transcribe_speech(audio_path)
+with gr.Blocks() as demo:
+    with gr.Tab("Microphone Input"):
+        gr.Markdown("## Transcribe speech from microphone")
+        mic_audio = gr.Audio(source="microphone", type="filepath", label="Speak into your microphone")
+        transcribe_button = gr.Button("Transcribe")
+        transcription_output = gr.Textbox(label="Transcription")
+        transcribe_button.click(fn=transcribe_speech, inputs=mic_audio, outputs=transcription_output)
+    with gr.Tab("YouTube URL"):
+        gr.Markdown("## Transcribe speech from YouTube video")
+        youtube_url = gr.Textbox(label="Enter YouTube video URL")
+        transcribe_button = gr.Button("Transcribe")
+        transcription_output = gr.Textbox(label="Transcription")
+        transcribe_button.click(fn=transcribe_from_youtube, inputs=youtube_url, outputs=transcription_output)
+demo.launch()