Spaces:

Woziii
/

scribe

Running

App Files Files Community

Woziii commited on Aug 18, 2024

Commit

0ba180b

verified ·

1 Parent(s): 002f789

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -25

app.py CHANGED Viewed

@@ -36,20 +36,19 @@ MODEL_NAME = "openai/whisper-medium"
 FILE_LIMIT_MB = 1000
 YT_LENGTH_LIMIT_S = 3600
-device = "cuda:0" if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
     device=device,
     model_kwargs={"low_cpu_mem_usage": True},
-    return_timestamps="word"
 )
 def associate_speakers_with_timestamps(transcription_result, diarization, tolerance=0.1, min_segment_duration=0.5):
     word_segments = transcription_result['chunks']
     diarization_segments = list(diarization.itertracks(yield_label=True))
@@ -124,11 +123,9 @@ def parse_simplified_diarization(simplified_text):
 def process_transcription(*args):
     generator = transcribe_and_diarize(*args)
     for progress_message, raw_text, speaker_transcription in generator:
-        yield progress_message, raw_text, ""  # Streaming de la transcription brute
-    # Une fois la transcription terminée, effectuez la diarisation
     simplified_diarization = simplify_diarization_output(speaker_transcription)
-    yield progress_message, raw_text, simplified_diarization
 def process_yt_transcription(*args):
     html_embed, raw_text, speaker_transcription = yt_transcribe(*args)
@@ -176,10 +173,6 @@ def display_progress(progress_state):
     """)
 @spaces.GPU(duration=120)
-def stream_transcription(audio):
-    for result in pipe(audio, chunk_length_s=10, stride_length_s=(4, 2)):
-        yield result["text"]
 def transcribe_and_diarize(file_path, task, progress=gr.Progress()):
     progress(0, desc="Initialisation...")
     yield "Chargement du fichier...", None, None
@@ -187,12 +180,10 @@ def transcribe_and_diarize(file_path, task, progress=gr.Progress()):
     progress(0.2, desc="Préparation de l'audio...")
     yield "Préparation de l'audio...", None, None
-    progress(0.3, desc="Laissez moi quelques minutes pour déchiffrer les voix et rédiger l'audio 🤓 ✍️ ...")
-    transcription = ""
-    for chunk in stream_transcription(audio_np):
-        transcription += chunk
-        yield "Transcription en cours...", transcription, []
     progress(0.6, desc=" C'est fait 😮‍💨 ! Je m'active à fusionner tout ça, un instant, J'y suis presque...")
     if diarization_pipeline:
         diarization = diarization_pipeline(file_path)
@@ -323,8 +314,7 @@ demo = gr.Blocks(
 with demo:
-    gr.Markdown("""# 🎙️ **Scribe** : L'assistant de Transcription Audio Intelligent 📝
-    ### ⚠️ Cette version est une maquette publique. Ne pas mettre de données sensibles, privées ou confidentielles.⚠️""")
     gr.HTML(
         """
         <div class="logo">
@@ -400,7 +390,7 @@ with demo:
             progress_display = gr.Markdown(label="État de la progression")
             with gr.Accordion("Résultats 📊", open=True):
-                transcription_output = gr.Textbox(label="📝 Transcription brute", info="Texte généré par le modèle. Modifiable si nécessaire.")
                 speaker_output = gr.Textbox(label="👥 Diarisation (format simplifié)", info="Identification des locuteurs. Format : 'SPEAKER_XX: texte'")
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 audio_duration = gr.Textbox(label="⏱️ Durée de l'audio (mm:ss)")
@@ -484,10 +474,9 @@ with demo:
     # Connexions des boutons aux fonctions appropriées
     transcribe_button.click(
-        process_transcription,
-        inputs=[audio_input],
-        outputs=[progress_output, transcription_output, diarization_output],
-        show_progress=True,
     )
     format_button.click(
@@ -522,4 +511,4 @@ with demo:
 if __name__ == "__main__":
-    demo.queue().launch()

 FILE_LIMIT_MB = 1000
 YT_LENGTH_LIMIT_S = 3600
+device = 0 if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
+    #chunk_length_s=30,
     device=device,
     model_kwargs={"low_cpu_mem_usage": True},
 )
 def associate_speakers_with_timestamps(transcription_result, diarization, tolerance=0.1, min_segment_duration=0.5):
     word_segments = transcription_result['chunks']
     diarization_segments = list(diarization.itertracks(yield_label=True))
 def process_transcription(*args):
     generator = transcribe_and_diarize(*args)
     for progress_message, raw_text, speaker_transcription in generator:
+        pass  # Consommer le générateur jusqu'à la fin
     simplified_diarization = simplify_diarization_output(speaker_transcription)
+    return progress_message, raw_text, simplified_diarization
 def process_yt_transcription(*args):
     html_embed, raw_text, speaker_transcription = yt_transcribe(*args)
     """)
 @spaces.GPU(duration=120)
 def transcribe_and_diarize(file_path, task, progress=gr.Progress()):
     progress(0, desc="Initialisation...")
     yield "Chargement du fichier...", None, None
     progress(0.2, desc="Préparation de l'audio...")
     yield "Préparation de l'audio...", None, None
+    progress(0.4, desc="Laissez moi quelques minutes pour déchiffrer les voix et rédiger l'audio 🤓 ✍️ ...")
+    transcription_result = pipe(file_path, generate_kwargs={"task": task, "language": "fr"}, return_timestamps="word")
+    yield "Transcription en cours...", None, None
     progress(0.6, desc=" C'est fait 😮‍💨 ! Je m'active à fusionner tout ça, un instant, J'y suis presque...")
     if diarization_pipeline:
         diarization = diarization_pipeline(file_path)
 with demo:
+    gr.Markdown("# 🎙️ **Scribe** : L'assistant de Transcription Audio Intelligent 📝 ⚠️ Cette version est une maquette publique. Ne pas mettre de données sensibles, privées ou confidentielles.")
     gr.HTML(
         """
         <div class="logo">
             progress_display = gr.Markdown(label="État de la progression")
             with gr.Accordion("Résultats 📊", open=True):
+                raw_output = gr.Textbox(label="📝 Transcription brute", info="Texte généré par le modèle. Modifiable si nécessaire.")
                 speaker_output = gr.Textbox(label="👥 Diarisation (format simplifié)", info="Identification des locuteurs. Format : 'SPEAKER_XX: texte'")
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 audio_duration = gr.Textbox(label="⏱️ Durée de l'audio (mm:ss)")
     # Connexions des boutons aux fonctions appropriées
     transcribe_button.click(
+    process_transcription,
+    inputs=[audio_input, task_input],
+    outputs=[progress_display, raw_output, speaker_output]
     )
     format_button.click(
 if __name__ == "__main__":
+    demo.queue().launch()