SandraCLV's picture
Update app.py
9b535d6
import gradio as gr
from transformers import AutoProcessor, BlipForConditionalGeneration, AutoTokenizer,SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
import librosa
import numpy as np
import torch
import image_text_model as itm
import audio_model as am
import open_clip
#CONSTANTS
def generate_captions_speech(image):
caption_blip_large = itm.generate_caption(itm.blip_processor_large, itm.blip_model_large, image)
print('generate_captions>>>'+caption_blip_large)
speech=am.synthesize_speech(caption_blip_large)
return caption_blip_large,gr.Audio.update(value=(16000, speech.cpu().numpy()))
# Define la interfaz de usuario utilizando Gradio entradas y salidas
inputsImg = [
gr.Image(type="pil", label="Imagen"),
]
#Salidas es lo que genera de tetxo y el audio
outputs = [ gr.Textbox(label="Caption generated by BLIP-large"),gr.Audio(type="numpy",label='Transcripcion')]
title = "Clasificaci贸n de imagen a texto y conversi贸n de texto a voz"
description = "Carga una imagen y obt茅n una descripci贸n de texto de lo que contiene la imagen, as铆 como un archivo de audio de la trasncripcion de la imagen en audio descrito."
examples = []
interface = gr.Interface(fn=generate_captions_speech,
inputs=inputsImg,
outputs=outputs,
examples=examples,
title=title,
description=description)
interface.launch()