Spaces:

ImPolymath
/

demorrha

Paused

App Files Files Community

rick commited on Oct 4, 2024

Commit

dacaa94

unverified ·

1 Parent(s): 01f16b6

bug fixed now... not done...

Browse files

Files changed (1) hide show

pages/main.py +175 -159

pages/main.py CHANGED Viewed

@@ -21,7 +21,9 @@ import streamlit as st
 from audiorecorder import audiorecorder
 from openai import OpenAI
 from pydub import AudioSegment
 __version__ = "1.2.4"
@@ -154,26 +156,33 @@ def split_audio(audio_file: str,
         print(f"Une erreur inattendue s'est produite : {e}")
         return []
-# Fonction modifiée pour transcrire l'audio en texte
-def transcribe_audio(audio_file: IO, language: Optional[str] = None) -> str:
     """
     Transcrit un fichier audio en texte.
     Args:
-        audio_file (IO): Le fichier audio à transcrire.
         language (Optional[str]): La langue de l'audio. Par défaut None.
     Returns:
         str: Le texte transcrit.
     """
     max_size_mb = 25
-    file_size_mb = os.path.getsize(audio_file.name) / (1024 * 1024)
     try:
         with st.status("Transcription de l'audio en cours...") as status:
             if file_size_mb > max_size_mb:
                 status.update(label="Découpage de l'audio en segments...")
-                segments = split_audio(audio_file.name, max_size_mb)
                 full_transcript = ""
                 for i, segment in enumerate(segments):
                     status.update(label=f"Transcription du segment {i+1}/{len(segments)}...")
@@ -189,7 +198,7 @@ def transcribe_audio(audio_file: IO, language: Optional[str] = None) -> str:
                 return full_transcript.strip()
             else:
                 status.update(label="Transcription de l'audio...")
-                with open(audio_file.name, "rb") as audio_file:
                     transcript = client.audio.transcriptions.create(
                         model="whisper-1",
                         file=audio_file,
@@ -204,9 +213,8 @@ def transcribe_audio(audio_file: IO, language: Optional[str] = None) -> str:
     except Exception as e:
         st.error(f"Erreur lors de la transcription : {e}")
         return ""
-## def transcribe_audio(audio_file: IO, language: Optional[str] = None) -> str:
-# Fonction pour détecter la langue d'un texte donné
 def detect_language(input_text: str, temperature: float = 0.01) -> str:
     """
     Détecte la langue d'un texte donné.
@@ -288,6 +296,11 @@ def text_to_speech(text: str) -> Tuple[Optional[bytes], float]:
     except Exception as e:
         st.error(f"Erreur lors de la conversion texte-parole : {str(e)}")
         return None, 0.0
 def get_duration_pydub(audio_file: str) -> float:
     """
@@ -569,6 +582,7 @@ def init_process_mode(
     return "", ""
 def main_page():
     """Page principale de l'application."""
@@ -719,185 +733,187 @@ def main_page():
                         # ##
                         audio_status.update(label=f"{get_translation('erreur_concatenation_audio')} : {str(e)}", state="error", expanded=True)
             # Interface utilisateur pour l'enregistrement audio
             # st.write(f"🗣️ {get_translation('enregistrez_message')}")
         elif st.session_state.audio:
             # Traitement de l'entrée audio de l'utilisateur
             if len(st.session_state.audio) > 0:
-                with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
-                    st.session_state.audio.export(temp_audio.name, format="wav")
                     st.write(f"Frame rate: {st.session_state.audio.frame_rate}, Frame width: {st.session_state.audio.frame_width}, Duration: {st.session_state.audio.duration_seconds} seconds")
                     # Transcrire l'audio en texte
-                    st.session_state.transcription = transcribe_audio(temp_audio, language=st.session_state.language_detected)
-                # Detecter la langue du texte transcrit (si la langue source n'est pas détectée)
-                if st.session_state.language_detected is None:
-                    st.session_state.language_detected = detect_language(
-                        input_text=st.session_state.transcription, temperature=0.01
-                    )
-                    st.markdown(
-                        f"- {get_translation('langue_detectee')}".format(
-                            f"{convert_iso6391_to_language_name(st.session_state.language_detected)}"
-                        )
-                    )
                 st.markdown(
-                    f"🎤 {get_translation('transcription_audio')}".format(
-                        f"{st.session_state.transcription}"
                     )
                 )
-                st.session_state.audio_list = []
-                for cursor_selected_lang in st.session_state.selected_languages:
-                    st.session_state.target_language = cursor_selected_lang["iso-639-1"]
-                    st.session_state.full_response = ""
-                    # Initialisation du mode de traitement pour la langue cible actuelle
-                    st.session_state.system_prompt, st.session_state.operation_prompt = init_process_mode(from_lang=
-                        (
-                            st.session_state.language_detected if "language_detected" in st.session_state.language_detected else convert_language_name_to_iso6391(
-                                st.session_state.interface_language
-                            )
-                        ),
-                        to_lang=st.session_state.target_language
-                    )
-                    with st.chat_message("assistant", avatar="👻"):
-                        message_placeholder = st.empty()
-                        st.session_state.response_generator = process_message(
-                            st.session_state.transcription,
-                            st.session_state.operation_prompt,
-                            st.session_state.enable_tts_for_input_from_audio_record,
-                            st.session_state.system_prompt
                         )
-                        for response_chunk in st.session_state.response_generator:
-                            message_placeholder.markdown(response_chunk)
-                        st.session_state.end_response = st.session_state.response_generator.close()
-                        if st.session_state.full_response != "":
-                            message_placeholder.markdown(st.session_state.full_response)
-                            if st.session_state.enable_tts_for_input_from_audio_record:
-                                st.session_state.tts_audio, st.session_state.tts_duration = process_tts_message(st.session_state.full_response)
-                                if st.session_state.tts_audio:
-                                    st.session_state.audio_list.append(
-                                        ( st.session_state.tts_audio,
-                                          st.session_state.tts_duration )
-                                    )
-                            else:
-                                pass
-                if st.session_state.audio_list:
-                    st.session_state.final_audio = concatenate_audio_files(st.session_state.audio_list)
-                    with st.container(border=True):
-                        # Générer un nom de fichier unique
-                        st.session_state.timestamp = time.strftime("%Y%m%d-%H%M%S")
-                        st.session_state.langues = "_".join([lang["iso-639-1"] for lang in st.session_state.selected_languages])
-                        st.session_state.nom_fichier = f"reponse_audio_{st.session_state.langues}_{st.session_state.timestamp}.mp3"
-                        st.audio(st.session_state.final_audio, format="audio/mp3", autoplay=st.session_state.autoplay_tts)
-                        st.download_button(
-                            label=f"📥 {get_translation('telecharger_audio')}",
-                            data=st.session_state.final_audio,
-                            file_name=st.session_state.nom_fichier,
-                            mime="audio/mp3",
-                            use_container_width=True,
-                            type="primary",
-                            key=f"download_button_{st.session_state.langues}_{st.session_state.timestamp}",
-                        )
-    def clear_inputs_garbages(sessions_state_list: Optional[list] =
-        [ 'transcription', 'operation_prompt', 'system_prompt',
-        'audio_list', 'full_response', 'tts_audio',
-        'tts_duration', 'timestamp', 'langues',
-        'nom_fichier', 'final_audio', 'response_generator',
-        'end_response', 'messages', 'audio', 'user_input' ]
-        ):
-        def delete_session_state_var(var_name: str):
-            if f"{var_name}" in st.session_state:
-                del st.session_state[f"{var_name}"]
-        for it_var_name in sessions_state_list:
-            delete_session_state_var(it_var_name)
-    clear_inputs_garbages()
-    def on_languages_change() -> None:
-        clear_inputs_garbages()
-        """Fonction de rappel pour le changement de langue(s) de destination."""
-        selected_language_names: List[str] = st.session_state.language_selector
-        st.session_state.selected_languages = [
-            {"language": lang, "iso-639-1": convert_language_name_to_iso6391(lang)}
-            for lang in selected_language_names
-        ]
-    # Configuration de la barre latérale
-    with st.sidebar:
-        st.logo("img/logo_2.png", icon_image="img/logo_2.png")
-        st.header(get_translation("sidebar_titre"))
-        with st.expander(f"{get_translation('a_propos')}",
-                          expanded=False,
-                          icon="ℹ️"):
-            st.subheader(f"version: {__version__}")
-            st.info(get_translation("info_app"))
-        with st.expander(f"{get_translation('selection_langue')}",
-                         expanded=True,
-                         icon="🌐"):
-            # Conteneur pour la sélection de langue
-            # Sélection multiple des langues de destination
-            st.multiselect(
-                label=get_translation("langues_destination"),
-                placeholder=get_translation("placeholder_langues"),
-                options=SUPPORTED_LANGUAGES,
-                default=["English"],
-                key="language_selector",
-                max_selections=4,
-                on_change=on_languages_change,
-                format_func=lambda lang: f"{LANGUAGES_EMOJI.get(lang, '')} {lang}"
-            )
-        with st.expander(f"{get_translation('parametres_tts')}",
-                         expanded=True,
-                         icon="🔊"):
-            st.selectbox(
-                get_translation("choix_voix_tts"),
-                options=["alloy", "echo", "fable", "onyx", "nova", "shimmer"],
-                index=3,  # "onyx" est à l'index 3
-                key="tts_voice",
-                on_change=clear_inputs_garbages
-            )
-            st.checkbox(
-                get_translation("activer_tts_texte"),
-                key="enable_tts_for_input_from_text_field",
-                value=True,
-                on_change=clear_inputs_garbages
-            )
-            st.checkbox(
-                get_translation("activer_tts_audio"),
-                key="enable_tts_for_input_from_audio_record",
-                value=True,
-                on_change=clear_inputs_garbages
-            )
-            st.checkbox(
-                get_translation("lecture_auto_tts"),
-                key="autoplay_tts",
-                value=True,
-                on_change=clear_inputs_garbages
-            )

 from audiorecorder import audiorecorder
 from openai import OpenAI
 from pydub import AudioSegment
+import warnings
+# Ignore DeprecationWarning
+warnings.filterwarnings("ignore", category=DeprecationWarning)
 __version__ = "1.2.4"
         print(f"Une erreur inattendue s'est produite : {e}")
         return []
+def transcribe_audio(audio_file: Union[str, IO], language: Optional[str] = None) -> str:
     """
     Transcrit un fichier audio en texte.
     Args:
+        audio_file (Union[str, IO]): Le chemin du fichier audio ou un objet fichier ouvert.
         language (Optional[str]): La langue de l'audio. Par défaut None.
     Returns:
         str: Le texte transcrit.
     """
     max_size_mb = 25
     try:
         with st.status("Transcription de l'audio en cours...") as status:
+            # Si audio_file est une chaîne, on l'ouvre comme un fichier
+            if isinstance(audio_file, str):
+                file_size_mb = os.path.getsize(audio_file) / (1024 * 1024)
+                audio_file_path = audio_file
+            else:
+                file_size_mb = os.path.getsize(audio_file.name) / (1024 * 1024)
+                audio_file_path = audio_file.name
             if file_size_mb > max_size_mb:
                 status.update(label="Découpage de l'audio en segments...")
+                segments = split_audio(audio_file_path, max_size_mb)
                 full_transcript = ""
                 for i, segment in enumerate(segments):
                     status.update(label=f"Transcription du segment {i+1}/{len(segments)}...")
                 return full_transcript.strip()
             else:
                 status.update(label="Transcription de l'audio...")
+                with open(audio_file_path, "rb") as audio_file:
                     transcript = client.audio.transcriptions.create(
                         model="whisper-1",
                         file=audio_file,
     except Exception as e:
         st.error(f"Erreur lors de la transcription : {e}")
         return ""
 def detect_language(input_text: str, temperature: float = 0.01) -> str:
     """
     Détecte la langue d'un texte donné.
     except Exception as e:
         st.error(f"Erreur lors de la conversion texte-parole : {str(e)}")
         return None, 0.0
+    finally:
+        if temp_audio_path and os.path.exists(temp_audio_path):
+            os.remove(temp_audio_path)
+        if temp_dir and os.path.exists(temp_dir):
+            os.rmdir(temp_dir)
 def get_duration_pydub(audio_file: str) -> float:
     """
     return "", ""
 def main_page():
     """Page principale de l'application."""
                         # ##
                         audio_status.update(label=f"{get_translation('erreur_concatenation_audio')} : {str(e)}", state="error", expanded=True)
             # Interface utilisateur pour l'enregistrement audio
             # st.write(f"🗣️ {get_translation('enregistrez_message')}")
         elif st.session_state.audio:
             # Traitement de l'entrée audio de l'utilisateur
             if len(st.session_state.audio) > 0:
+                with tempfile.TemporaryDirectory() as temp_dir:
+                    temp_audio_path = os.path.join(temp_dir, "temp_audio.wav")
+                    st.session_state.audio.export(temp_audio_path, format="wav")
                     st.write(f"Frame rate: {st.session_state.audio.frame_rate}, Frame width: {st.session_state.audio.frame_width}, Duration: {st.session_state.audio.duration_seconds} seconds")
                     # Transcrire l'audio en texte
+                    st.session_state.transcription = transcribe_audio(temp_audio_path, language=st.session_state.language_detected)
+                #os.remove(temp_audio_path)
+            # Detecter la langue du texte transcrit (si la langue source n'est pas détectée)
+            if st.session_state.language_detected is None:
+                st.session_state.language_detected = detect_language(
+                    input_text=st.session_state.transcription, temperature=0.01
+                )
                 st.markdown(
+                    f"- {get_translation('langue_detectee')}".format(
+                        f"{convert_iso6391_to_language_name(st.session_state.language_detected)}"
                     )
                 )
+            st.markdown(
+                f"🎤 {get_translation('transcription_audio')}".format(
+                    f"{st.session_state.transcription}"
+                )
+            )
+            st.session_state.audio_list = []
+            for cursor_selected_lang in st.session_state.selected_languages:
+                st.session_state.target_language = cursor_selected_lang["iso-639-1"]
+                st.session_state.full_response = ""
+                # Initialisation du mode de traitement pour la langue cible actuelle
+                st.session_state.system_prompt, st.session_state.operation_prompt = init_process_mode(from_lang=
+                    (
+                        st.session_state.language_detected if "language_detected" in st.session_state.language_detected else convert_language_name_to_iso6391(
+                            st.session_state.interface_language
                         )
+                    ),
+                    to_lang=st.session_state.target_language
+                )
+                with st.chat_message("assistant", avatar="👻"):
+                    message_placeholder = st.empty()
+                    st.session_state.response_generator = process_message(
+                        st.session_state.transcription,
+                        st.session_state.operation_prompt,
+                        st.session_state.enable_tts_for_input_from_audio_record,
+                        st.session_state.system_prompt
+                    )
+                    for response_chunk in st.session_state.response_generator:
+                        message_placeholder.markdown(response_chunk)
+                    st.session_state.end_response = st.session_state.response_generator.close()
+                    if st.session_state.full_response != "":
+                        message_placeholder.markdown(st.session_state.full_response)
+                        if st.session_state.enable_tts_for_input_from_audio_record:
+                            st.session_state.tts_audio, st.session_state.tts_duration = process_tts_message(st.session_state.full_response)
+                            if st.session_state.tts_audio:
+                                st.session_state.audio_list.append(
+                                    ( st.session_state.tts_audio,
+                                      st.session_state.tts_duration )
+                                )
+                        else:
+                            pass
+            if st.session_state.audio_list:
+                st.session_state.final_audio = concatenate_audio_files(st.session_state.audio_list)
+                with st.container(border=True):
+                    # Générer un nom de fichier unique
+                    st.session_state.timestamp = time.strftime("%Y%m%d-%H%M%S")
+                    st.session_state.langues = "_".join([lang["iso-639-1"] for lang in st.session_state.selected_languages])
+                    st.session_state.nom_fichier = f"reponse_audio_{st.session_state.langues}_{st.session_state.timestamp}.mp3"
+                    st.audio(st.session_state.final_audio, format="audio/mp3", autoplay=st.session_state.autoplay_tts)
+                    st.download_button(
+                        label=f"📥 {get_translation('telecharger_audio')}",
+                        data=st.session_state.final_audio,
+                        file_name=st.session_state.nom_fichier,
+                        mime="audio/mp3",
+                        use_container_width=True,
+                        type="primary",
+                        key=f"download_button_{st.session_state.langues}_{st.session_state.timestamp}",
+                    )
+def clear_inputs_garbages(sessions_state_list: Optional[list] =
+    [ 'transcription', 'operation_prompt', 'system_prompt',
+    'audio_list', 'full_response', 'tts_audio',
+    'tts_duration', 'timestamp', 'langues',
+    'nom_fichier', 'final_audio', 'response_generator',
+    'end_response', 'messages', 'audio', 'user_input' ]
+    ):
+    def delete_session_state_var(var_name: str):
+        if f"{var_name}" in st.session_state:
+            del st.session_state[f"{var_name}"]
+    for it_var_name in sessions_state_list:
+        delete_session_state_var(it_var_name)
+clear_inputs_garbages()
+def on_languages_change() -> None:
+    clear_inputs_garbages()
+    """Fonction de rappel pour le changement de langue(s) de destination."""
+    selected_language_names: List[str] = st.session_state.language_selector
+    st.session_state.selected_languages = [
+        {"language": lang, "iso-639-1": convert_language_name_to_iso6391(lang)}
+        for lang in selected_language_names
+    ]
+# Configuration de la barre latérale
+with st.sidebar:
+    st.logo("img/logo_2.png", icon_image="img/logo_2.png")
+    st.header(get_translation("sidebar_titre"))
+    with st.expander(f"{get_translation('a_propos')}",
+                      expanded=False,
+                      icon="ℹ️"):
+        st.subheader(f"version: {__version__}")
+        st.info(get_translation("info_app"))
+    with st.expander(f"{get_translation('selection_langue')}",
+                     expanded=True,
+                     icon="🌐"):
+        # Conteneur pour la sélection de langue
+        # Sélection multiple des langues de destination
+        st.multiselect(
+            label=get_translation("langues_destination"),
+            placeholder=get_translation("placeholder_langues"),
+            options=SUPPORTED_LANGUAGES,
+            default=["English"],
+            key="language_selector",
+            max_selections=4,
+            on_change=on_languages_change,
+            format_func=lambda lang: f"{LANGUAGES_EMOJI.get(lang, '')} {lang}"
+        )
+    with st.expander(f"{get_translation('parametres_tts')}",
+                     expanded=True,
+                     icon="🔊"):
+        st.selectbox(
+            get_translation("choix_voix_tts"),
+            options=["alloy", "echo", "fable", "onyx", "nova", "shimmer"],
+            index=3,  # "onyx" est à l'index 3
+            key="tts_voice",
+            on_change=clear_inputs_garbages
+        )
+        st.checkbox(
+            get_translation("activer_tts_texte"),
+            key="enable_tts_for_input_from_text_field",
+            value=True,
+            on_change=clear_inputs_garbages
+        )
+        st.checkbox(
+            get_translation("activer_tts_audio"),
+            key="enable_tts_for_input_from_audio_record",
+            value=True,
+            on_change=clear_inputs_garbages
+        )
+        st.checkbox(
+            get_translation("lecture_auto_tts"),
+            key="autoplay_tts",
+            value=True,
+            on_change=clear_inputs_garbages
+        )