Spaces:

nekin12
/

Audio_image

Runtime error

nekin12 commited on Apr 26

Commit

ebc7502

•

1 Parent(s): 85aaaab

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,16 +1,34 @@
 transcriber = pipeline("automatic-speech-recognition")
 def transcribe(audio):
     sr, y = audio
     y = y.astype(np.float32)
     y /= np.max(np.abs(y))
-    return transcriber({"sampling_rate": sr, "raw": y})["text"]
-demo = gr.Interface(
     transcribe,
-    gr.Audio(sources=["microphone"], type="numpy", label="xerra aqui..."),
-    "text",
 )
-demo.launch(debug=True)

+import gradio as gr
+from transformers import pipeline
+import numpy as np
+import torch
+from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
 transcriber = pipeline("automatic-speech-recognition")
+def generate_img(promt):
+  print(promt)
+  model_id = "stabilityai/stable-diffusion-2-1"
+  pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
+  pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
+  #pipe = pipe.to("cuda")
+  #pipe = pipe.to("cpu")
+  pic = pipe(promt).images[0]
+  return pic
 def transcribe(audio):
     sr, y = audio
     y = y.astype(np.float32)
     y /= np.max(np.abs(y))
+    txt= transcriber({"sampling_rate": sr, "raw": y})["text"]
+    #txt="dog with a hat"
+    img= generate_img(txt)
+    return  txt, img
+g_image = gr.Interface(
     transcribe,
+    inputs=gr.Audio(sources=["microphone"], type="numpy", label="xerra aqui..."),
+    outputs=[gr.Textbox(label="Promt",info="La transcripció de la grabació feta",lines=2), "image"]
 )
+g_image.launch(debug=True, share=True)