Spaces:

ImPolymath
/

demorrha

Paused

App Files Files

xet

Community

0x07CB commited on Feb 23

Commit

28363fc

unverified ·

1 Parent(s): 10ca27f

refactor: Amélioration de la robustesse de la transcription audio avec gestion des erreurs et fallback

Browse files

Files changed (1) hide show

core/speech_to_text.py +50 -46

core/speech_to_text.py CHANGED Viewed

@@ -13,6 +13,8 @@ from typing import List
 from typing import Optional
 #from typing import Tuple
 from typing import Union
 from core.DetectLanguage import detect_language
@@ -73,60 +75,62 @@ def transcribe_audio(
         language: Optional[str] = None
     ) -> str:
     """
-    Transcrit un fichier audio temporaire en texte.
     Args:
-        filepath Chemin vers le fichier audio temporaire à transcrire.
-        language (Optional[str]): La langue de l'audio. Par défaut None.
     Returns:
-        str: Le texte transcrit.
-    """
-    max_size_mb = 25
-    client = OpenAI(api_key=getenv("OPENAI_API_KEY"))
-    try:
-        transcriptions = []
-        with open(filepath if isinstance(filepath, str) else filepath.name, "rb") as f:
-            # filepath peut etre un chemin vers un fichier audio ou un objet IO
-            # verifier si le fichier audio fait plus de 25 Mo
-            # Diviser l'audio en segments de taille maximale
-            #segments = split_audio(f, max_size_mb)
-            f.seek(0)
-            audio = AudioSegment.from_file(f)
-            duration_ms = len(audio)
-            segment_duration_ms = int(
-                (max_size_mb * 1024 * 1024 * 8) /
-                (audio.frame_rate * audio.sample_width * audio.channels)
-            )
-            for start in range(0, duration_ms, segment_duration_ms):
-                end = min(start + segment_duration_ms, duration_ms)
-                segment = audio[start:end]
-                buffer = BytesIO()
-                segment.export(buffer, format="mp3")
-                buffer.seek(0)
-                if not( language ):
-                    response = client.audio.transcriptions.create(
-                        model="whisper-1",
-                        file=("audio.mp3", buffer),
-                        response_format="text"
-                    )
-                else:
-                    response = client.audio.transcriptions.create(
-                        model="whisper-1",
-                        file=("audio.mp3", buffer),
-                        language=language,
-                        response_format="text"
-                    )
-                transcriptions.append(response)
-        return " ".join(transcriptions)
     except Exception as e:
-        print(f"Erreur lors de la transcription de l'audio : {e}")
         return ""

 from typing import Optional
 #from typing import Tuple
 from typing import Union
+import os
+import streamlit as st
 from core.DetectLanguage import detect_language
         language: Optional[str] = None
     ) -> str:
     """
+    Transcrit un fichier audio en texte.
     Args:
+        filepath (Union[str, IO]): Chemin vers le fichier audio ou objet IO.
+        language (Optional[str]): Code de langue ISO 639-1 pour la transcription.
     Returns:
+        str: Le texte transcrit ou une chaîne vide en cas d'erreur.
+    Raises:
+        ValueError: Si le fichier audio est invalide ou vide.
+        IOError: Si une erreur se produit lors de la lecture du fichier.
+    """
+    if not filepath:
+        st.error("Erreur : Aucun fichier audio fourni")
+        return ""
+    try:
+        # Vérifier si le fichier existe et est accessible
+        if isinstance(filepath, str) and not os.path.exists(filepath):
+            raise FileNotFoundError(f"Le fichier {filepath} n'existe pas")
+        # Vérifier la taille du fichier
+        file_size = os.path.getsize(filepath) if isinstance(filepath, str) else filepath.tell()
+        if file_size == 0:
+            raise ValueError("Le fichier audio est vide")
+        # Transcription avec Hugging Face
+        try:
+            transcription = huggingface_endpoints_stt(filepath)
+            if transcription:
+                return transcription
+        except Exception as hf_error:
+            st.warning(f"Erreur avec l'endpoint Hugging Face, tentative avec OpenAI : {hf_error}")
+        # Transcription avec OpenAI comme fallback
+        client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
+        audio_file = open(filepath if isinstance(filepath, str) else filepath.name, "rb")
+        transcription = client.audio.transcriptions.create(
+            model="whisper-1",
+            file=audio_file,
+            language=language
+        )
+        return transcription.text
+    except FileNotFoundError as e:
+        st.error(f"Erreur : {e}")
+        return ""
+    except ValueError as e:
+        st.error(f"Erreur : {e}")
+        return ""
+    except IOError as e:
+        st.error(f"Erreur lors de la lecture du fichier audio : {e}")
+        return ""
     except Exception as e:
+        st.error(f"Une erreur inattendue s'est produite lors de la transcription : {e}")
         return ""