Spaces:

Woziii
/

scribe

Running

App Files Files Community

Woziii commited on Aug 21, 2024

Commit

0538f07

verified ·

1 Parent(s): c61d6fb

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -22

app.py CHANGED Viewed

@@ -90,17 +90,26 @@ def parse_simplified_diarization(simplified_text):
     matches = re.findall(pattern, simplified_text, re.MULTILINE)
     return [(speaker, text.strip()) for speaker, text in matches]
 def process_transcription(*args):
     generator = transcribe_and_diarize(*args)
     for progress_message, raw_text, speaker_transcription in generator:
         pass  # Consommer le générateur jusqu'à la fin
     simplified_diarization = simplify_diarization_output(speaker_transcription)
-    return progress_message, raw_text, simplified_diarization
 def process_yt_transcription(*args):
     html_embed, raw_text, speaker_transcription = yt_transcribe(*args)
     simplified_diarization = simplify_diarization_output(speaker_transcription)
-    return html_embed, raw_text, simplified_diarization
 # New functions for progress indicator
@@ -168,15 +177,21 @@ def transcribe_and_diarize(file_path, task, progress=gr.Progress()):
     progress(1.0, desc="Terminé!")
     return "Transcription terminée!", transcription_result['text'], speaker_transcription
-def format_to_markdown(transcription_text, speaker_transcription, audio_duration=None, location=None, speaker_age=None, context=None):
     metadata = {
         "Date de traitement": datetime.now().strftime('%d/%m/%Y %H:%M'),
         "Durée de l'audio": f"{audio_duration} secondes" if audio_duration else "[à remplir]",
         "Lieu": location if location else "[non spécifié]",
         "Âge de l'intervenant": f"{speaker_age} ans" if speaker_age else "[non spécifié]",
         "Contexte": context if context else "[non spécifié]"
     }
     metadata_text = "\n".join([f"- **{key}** : '{value}'" for key, value in metadata.items()])
     try:
@@ -186,7 +201,8 @@ def format_to_markdown(transcription_text, speaker_transcription, audio_duration
         if isinstance(speaker_transcription, list) and all(isinstance(item, tuple) and len(item) == 2 for item in speaker_transcription):
             formatted_transcription = []
             for speaker, text in speaker_transcription:
-                formatted_transcription.append(f"**{speaker}**: {text}")
             transcription_text = "\n\n".join(formatted_transcription)
         else:
             raise ValueError("Invalid speaker transcription format")
@@ -368,6 +384,13 @@ with demo:
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 audio_duration = gr.Textbox(label="⏱️ Durée de l'audio (mm:ss)")
                 location = gr.Textbox(label="📍 Lieu de l'enregistrement")
                 speaker_age = gr.Number(label="👤 Âge de l'intervenant principal")
                 context = gr.Textbox(label="📝 Contexte de l'enregistrement")
@@ -389,6 +412,13 @@ with demo:
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 mic_audio_duration = gr.Textbox(label="⏱️ Durée de l'enregistrement (mm:ss)")
                 mic_location = gr.Textbox(label="📍 Lieu de l'enregistrement")
                 mic_speaker_age = gr.Number(label="👤 Âge de l'intervenant principal")
                 mic_context = gr.Textbox(label="📝 Contexte de l'enregistrement")
@@ -411,6 +441,13 @@ with demo:
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 yt_audio_duration = gr.Textbox(label="⏱️ Durée de la vidéo (mm:ss)")
                 yt_channel = gr.Textbox(label="📺 Nom de la chaîne YouTube")
                 yt_publish_date = gr.Textbox(label="📅 Date de publication")
                 yt_context = gr.Textbox(label="📝 Contexte de la vidéo")
@@ -441,41 +478,41 @@ with demo:
     # Connexions des boutons aux fonctions appropriées
     transcribe_button.click(
-    process_transcription,
-    inputs=[audio_input, task_input],
-    outputs=[progress_display, raw_output, speaker_output]
     )
     format_button.click(
         format_to_markdown,
-        inputs=[raw_output, speaker_output, audio_duration, location, speaker_age, context],
         outputs=formatted_output
     )
     mic_transcribe_button.click(
-    process_transcription,
-    inputs=[mic_input, mic_task_input],
-    outputs=[mic_progress_display, mic_raw_output, mic_speaker_output]
     )
     mic_format_button.click(
         format_to_markdown,
-        inputs=[mic_raw_output, mic_speaker_output, audio_duration, location, speaker_age, context],
         outputs=mic_formatted_output
     )
     yt_transcribe_button.click(
-    process_yt_transcription,
-    inputs=[yt_input, yt_task_input],
-    outputs=[yt_html_output, yt_raw_output, yt_speaker_output]
     )
     yt_format_button.click(
         format_to_markdown,
-        inputs=[yt_raw_output, yt_speaker_output, audio_duration, location, speaker_age, context],
         outputs=yt_formatted_output
     )
 if __name__ == "__main__":
     demo.queue().launch()

     matches = re.findall(pattern, simplified_text, re.MULTILINE)
     return [(speaker, text.strip()) for speaker, text in matches]
+def count_unique_speakers(speaker_transcription):
+    if isinstance(speaker_transcription, str):
+        speaker_transcription = parse_simplified_diarization(speaker_transcription)
+    return len(set(speaker for speaker, _ in speaker_transcription))
 def process_transcription(*args):
     generator = transcribe_and_diarize(*args)
     for progress_message, raw_text, speaker_transcription in generator:
         pass  # Consommer le générateur jusqu'à la fin
     simplified_diarization = simplify_diarization_output(speaker_transcription)
+    num_speakers = count_unique_speakers(speaker_transcription)
+    speaker_names = [{"Speaker ID": f"SPEAKER_{i:02d}", "Nom personnalisé": f"SPEAKER_{i:02d}"} for i in range(num_speakers)]
+    return progress_message, raw_text, simplified_diarization, num_speakers, speaker_names
 def process_yt_transcription(*args):
     html_embed, raw_text, speaker_transcription = yt_transcribe(*args)
     simplified_diarization = simplify_diarization_output(speaker_transcription)
+    num_speakers = count_unique_speakers(speaker_transcription)
+    speaker_names = [{"Speaker ID": f"SPEAKER_{i:02d}", "Nom personnalisé": f"SPEAKER_{i:02d}"} for i in range(num_speakers)]
+    return html_embed, raw_text, simplified_diarization, num_speakers, speaker_names
 # New functions for progress indicator
     progress(1.0, desc="Terminé!")
     return "Transcription terminée!", transcription_result['text'], speaker_transcription
+def format_to_markdown(transcription_text, speaker_transcription, audio_duration=None, location=None, speaker_age=None, context=None, num_speakers=None, speaker_names=None):
     metadata = {
         "Date de traitement": datetime.now().strftime('%d/%m/%Y %H:%M'),
         "Durée de l'audio": f"{audio_duration} secondes" if audio_duration else "[à remplir]",
         "Lieu": location if location else "[non spécifié]",
+        "Nombre d'interlocuteurs": num_speakers if num_speakers else "[non spécifié]",
         "Âge de l'intervenant": f"{speaker_age} ans" if speaker_age else "[non spécifié]",
         "Contexte": context if context else "[non spécifié]"
     }
+    # Ajoutez les noms personnalisés des interlocuteurs aux métadonnées
+    if speaker_names is not None:
+        for row in speaker_names:
+            metadata[row["Speaker ID"]] = row["Nom personnalisé"]
     metadata_text = "\n".join([f"- **{key}** : '{value}'" for key, value in metadata.items()])
     try:
         if isinstance(speaker_transcription, list) and all(isinstance(item, tuple) and len(item) == 2 for item in speaker_transcription):
             formatted_transcription = []
             for speaker, text in speaker_transcription:
+                custom_name = next((row["Nom personnalisé"] for row in speaker_names if row["Speaker ID"] == speaker), speaker)
+                formatted_transcription.append(f"**{custom_name}**: {text}")
             transcription_text = "\n\n".join(formatted_transcription)
         else:
             raise ValueError("Invalid speaker transcription format")
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 audio_duration = gr.Textbox(label="⏱️ Durée de l'audio (mm:ss)")
                 location = gr.Textbox(label="📍 Lieu de l'enregistrement")
+                num_speakers = gr.Number(label="Nombre d'interlocuteurs", interactive=False)
+                speaker_names = gr.Dataframe(
+                    headers=["Speaker ID", "Nom personnalisé"],
+                    datatype=["str", "str"],
+                    col_count=(2, "fixed"),
+                    label="Noms des interlocuteurs"
+                )
                 speaker_age = gr.Number(label="👤 Âge de l'intervenant principal")
                 context = gr.Textbox(label="📝 Contexte de l'enregistrement")
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 mic_audio_duration = gr.Textbox(label="⏱️ Durée de l'enregistrement (mm:ss)")
                 mic_location = gr.Textbox(label="📍 Lieu de l'enregistrement")
+                mic_num_speakers = gr.Number(label="Nombre d'interlocuteurs", interactive=False)
+                mic_speaker_names = gr.Dataframe(
+                    headers=["Speaker ID", "Nom personnalisé"],
+                    datatype=["str", "str"],
+                    col_count=(2, "fixed"),
+                    label="Noms des interlocuteurs"
+                )
                 mic_speaker_age = gr.Number(label="👤 Âge de l'intervenant principal")
                 mic_context = gr.Textbox(label="📝 Contexte de l'enregistrement")
             with gr.Accordion("Métadonnées (optionnel) 📌", open=False):
                 yt_audio_duration = gr.Textbox(label="⏱️ Durée de la vidéo (mm:ss)")
                 yt_channel = gr.Textbox(label="📺 Nom de la chaîne YouTube")
+                yt_num_speakers = gr.Number(label="Nombre d'interlocuteurs", interactive=False)
+                yt_speaker_names = gr.Dataframe(
+                    headers=["Speaker ID", "Nom personnalisé"],
+                    datatype=["str", "str"],
+                    col_count=(2, "fixed"),
+                    label="Noms des interlocuteurs"
+                )
                 yt_publish_date = gr.Textbox(label="📅 Date de publication")
                 yt_context = gr.Textbox(label="📝 Contexte de la vidéo")
     # Connexions des boutons aux fonctions appropriées
     transcribe_button.click(
+        process_transcription,
+        inputs=[audio_input, task_input],
+        outputs=[progress_display, raw_output, speaker_output, num_speakers, speaker_names]
     )
     format_button.click(
         format_to_markdown,
+        inputs=[raw_output, speaker_output, audio_duration, location, speaker_age, context, num_speakers, speaker_names],
         outputs=formatted_output
     )
     mic_transcribe_button.click(
+        process_transcription,
+        inputs=[mic_input, mic_task_input],
+        outputs=[mic_progress_display, mic_raw_output, mic_speaker_output, mic_num_speakers, mic_speaker_names]
     )
     mic_format_button.click(
         format_to_markdown,
+        inputs=[mic_raw_output, mic_speaker_output, mic_audio_duration, mic_location, mic_speaker_age, mic_context, mic_num_speakers, mic_speaker_names],
         outputs=mic_formatted_output
     )
     yt_transcribe_button.click(
+        process_yt_transcription,
+        inputs=[yt_input, yt_task_input],
+        outputs=[yt_html_output, yt_raw_output, yt_speaker_output, yt_num_speakers, yt_speaker_names]
     )
     yt_format_button.click(
         format_to_markdown,
+        inputs=[yt_raw_output, yt_speaker_output, yt_audio_duration, yt_channel, yt_publish_date, yt_context, yt_num_speakers, yt_speaker_names],
         outputs=yt_formatted_output
     )
 if __name__ == "__main__":
     demo.queue().launch()