Spaces:

B1J1M1
/

IA

Sleeping

App Files Files Community

B1J1M1 commited on Sep 17, 2024

Commit

dbe26df

verified ·

1 Parent(s): 6ab9be2

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -35

app.py CHANGED Viewed

@@ -1,7 +1,9 @@
-import gradio as gr
 from transformers import pipeline
 from diffusers import StableDiffusionPipeline
 import torch
 # 1. Pipeline pour la transcription vocale (Wav2Vec2)
 asr_pipeline = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-960h")
@@ -14,8 +16,8 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 image_pipeline = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4").to(device)
 # Fonction pour transcrire l'audio
-def transcribe(audio):
-    transcription = asr_pipeline(audio)["text"]
     return transcription
 # Fonction pour résumer le texte transcrit
@@ -28,40 +30,35 @@ def generate_image(summary):
     image = image_pipeline(summary).images[0]
     return image
-# Pipeline complet pour générer des diapositives
-def generate_slides(audio):
-    # Étape 1 : Transcription de l'audio
-    transcription = transcribe(audio)
-    # Étape 2 : Résumé de la transcription
-    summary = summarize(transcription)
-    # Étape 3 : Génération de l'image correspondante
-    image = generate_image(summary)
-    return transcription, summary, image
-# Interface utilisateur avec Gradio
-with gr.Blocks() as demo:
-    gr.Markdown("# Générateur de diapositives intelligent")
-    with gr.Row():
-        audio_input = gr.Audio(type="filepath", label="Enregistrez votre audio")
-        transcription_output = gr.Textbox(label="Transcription")
-    with gr.Row():
-        summary_output = gr.Textbox(label="Résumé")
-        image_output = gr.Image(label="Image générée")
-    generate_button = gr.Button("Générer des diapositives")
-    # Liaison du bouton à la fonction de génération
-    generate_button.click(
-        generate_slides,
-        inputs=audio_input,
-        outputs=[transcription_output, summary_output, image_output]
-    )
-# Lancer l'application
-if __name__ == "__main__":
-    demo.launch()

+import streamlit as st
 from transformers import pipeline
 from diffusers import StableDiffusionPipeline
 import torch
+import os
+import tempfile
 # 1. Pipeline pour la transcription vocale (Wav2Vec2)
 asr_pipeline = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-960h")
 image_pipeline = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4").to(device)
 # Fonction pour transcrire l'audio
+def transcribe(audio_path):
+    transcription = asr_pipeline(audio_path)["text"]
     return transcription
 # Fonction pour résumer le texte transcrit
     image = image_pipeline(summary).images[0]
     return image
+# Interface utilisateur avec Streamlit
+st.title("Générateur de diapositives intelligent")
+# Étape 1 : Upload d'un fichier audio
+audio_file = st.file_uploader("Téléchargez un fichier audio", type=["wav", "mp3"])
+if audio_file is not None:
+    # Sauvegarde temporaire du fichier audio
+    with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
+        tmp_file.write(audio_file.read())
+        tmp_filename = tmp_file.name
+    st.audio(audio_file, format='audio/wav')
+    # Étape 2 : Transcription de l'audio
+    if st.button("Transcrire l'audio"):
+        transcription = transcribe(tmp_filename)
+        st.text_area("Transcription", transcription)
+        # Étape 3 : Résumer la transcription
+        if st.button("Résumer la transcription"):
+            summary = summarize(transcription)
+            st.text_area("Résumé", summary)
+            # Étape 4 : Générer une image correspondante
+            if st.button("Générer une image basée sur le résumé"):
+                image = generate_image(summary)
+                st.image(image, caption="Image générée à partir du résumé")
+# Nettoyage du fichier temporaire
+if audio_file is not None:
+    os.remove(tmp_filename)