Spaces:

Woziii
/

scribe

Running

App Files Files Community

Woziii commited on Aug 18, 2024

Commit

1ec2f12

verified ·

1 Parent(s): 1fbff9e

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -12

app.py CHANGED Viewed

@@ -41,14 +41,15 @@ device = "cuda:0" if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
-    chunk_length_s=30,
     device=device,
     model_kwargs={"low_cpu_mem_usage": True},
 )
 def associate_speakers_with_timestamps(transcription_result, diarization, tolerance=0.1, min_segment_duration=0.5):
     word_segments = transcription_result['chunks']
     diarization_segments = list(diarization.itertracks(yield_label=True))
@@ -123,9 +124,11 @@ def parse_simplified_diarization(simplified_text):
 def process_transcription(*args):
     generator = transcribe_and_diarize(*args)
     for progress_message, raw_text, speaker_transcription in generator:
-        pass  # Consommer le générateur jusqu'à la fin
     simplified_diarization = simplify_diarization_output(speaker_transcription)
-    return progress_message, raw_text, simplified_diarization
 def process_yt_transcription(*args):
     html_embed, raw_text, speaker_transcription = yt_transcribe(*args)
@@ -173,6 +176,10 @@ def display_progress(progress_state):
     """)
 @spaces.GPU(duration=120)
 def transcribe_and_diarize(file_path, task, progress=gr.Progress()):
     progress(0, desc="Initialisation...")
     yield "Chargement du fichier...", None, None
@@ -180,10 +187,12 @@ def transcribe_and_diarize(file_path, task, progress=gr.Progress()):
     progress(0.2, desc="Préparation de l'audio...")
     yield "Préparation de l'audio...", None, None
-    progress(0.4, desc="Laissez moi quelques minutes pour déchiffrer les voix et rédiger l'audio 🤓 ✍️ ...")
-    transcription_result = pipe(file_path, generate_kwargs={"task": task, "language": "fr"}, return_timestamps="word")
-    yield "Transcription en cours...", None, None
     progress(0.6, desc=" C'est fait 😮‍💨 ! Je m'active à fusionner tout ça, un instant, J'y suis presque...")
     if diarization_pipeline:
         diarization = diarization_pipeline(file_path)
@@ -391,7 +400,7 @@ with demo:
             progress_display = gr.Markdown(label="État de la progression")
             with gr.Accordion("Résultats 📊", open=True):
-                raw_output = gr.Textbox(label="📝 Transcription brute", info="Texte généré par le modèle. Modifiable si nécessaire.")
                 speaker_output = gr.Textbox(label="👥 Diarisation (format simplifié)", info="Identification des locuteurs. Format : 'SPEAKER_XX: texte'")
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 audio_duration = gr.Textbox(label="⏱️ Durée de l'audio (mm:ss)")
@@ -474,10 +483,11 @@ with demo:
     """)
     # Connexions des boutons aux fonctions appropriées
-    transcribe_button.click(
-    process_transcription,
-    inputs=[audio_input, task_input],
-    outputs=[progress_display, raw_output, speaker_output]
     )
     format_button.click(

 pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
     device=device,
     model_kwargs={"low_cpu_mem_usage": True},
+    return_timestamps="word"
 )
 def associate_speakers_with_timestamps(transcription_result, diarization, tolerance=0.1, min_segment_duration=0.5):
     word_segments = transcription_result['chunks']
     diarization_segments = list(diarization.itertracks(yield_label=True))
 def process_transcription(*args):
     generator = transcribe_and_diarize(*args)
     for progress_message, raw_text, speaker_transcription in generator:
+        yield progress_message, raw_text, ""  # Streaming de la transcription brute
+    # Une fois la transcription terminée, effectuez la diarisation
     simplified_diarization = simplify_diarization_output(speaker_transcription)
+    yield progress_message, raw_text, simplified_diarization
 def process_yt_transcription(*args):
     html_embed, raw_text, speaker_transcription = yt_transcribe(*args)
     """)
 @spaces.GPU(duration=120)
+def stream_transcription(audio):
+    for result in pipe(audio, chunk_length_s=10, stride_length_s=(4, 2)):
+        yield result["text"]
 def transcribe_and_diarize(file_path, task, progress=gr.Progress()):
     progress(0, desc="Initialisation...")
     yield "Chargement du fichier...", None, None
     progress(0.2, desc="Préparation de l'audio...")
     yield "Préparation de l'audio...", None, None
+    progress(0.3, desc="Laissez moi quelques minutes pour déchiffrer les voix et rédiger l'audio 🤓 ✍️ ...")
+    transcription = ""
+    for chunk in stream_transcription(audio_np):
+        transcription += chunk
+        yield "Transcription en cours...", transcription, []
     progress(0.6, desc=" C'est fait 😮‍💨 ! Je m'active à fusionner tout ça, un instant, J'y suis presque...")
     if diarization_pipeline:
         diarization = diarization_pipeline(file_path)
             progress_display = gr.Markdown(label="État de la progression")
             with gr.Accordion("Résultats 📊", open=True):
+                transcription_output = gr.Textbox(label="📝 Transcription brute", info="Texte généré par le modèle. Modifiable si nécessaire.")
                 speaker_output = gr.Textbox(label="👥 Diarisation (format simplifié)", info="Identification des locuteurs. Format : 'SPEAKER_XX: texte'")
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 audio_duration = gr.Textbox(label="⏱️ Durée de l'audio (mm:ss)")
     """)
     # Connexions des boutons aux fonctions appropriées
+    submit_button.click(
+        process_transcription,
+        inputs=[audio_input],
+        outputs=[progress_output, transcription_output, diarization_output],
+        show_progress=True,
     )
     format_button.click(