Spaces:

chethu
/

Image_Whisper

Sleeping

App Files Files Community

chethu commited on Mar 11

Commit

d2e8024

•

1 Parent(s): 3603e2d

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +27 -0
app (1).py +49 -0
requirements (1).txt +7 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,27 @@

+FROM python:3.9-slim
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+COPY ./requirements.txt ~/app/requirements.txt
+USER root
+RUN rm /var/lib/apt/lists/* -vf
+RUN apt-get clean
+RUN apt-get update
+RUN apt-get upgrade
+RUN apt-get install -y wget zip unzip uvicorn espeak-ng
+USER user
+COPY . .
+USER root
+RUN chmod 777 ~/app/*
+USER user
+RUN pip3 install -r requirements.txt
+CMD ["python", "app.py"]

app (1).py ADDED Viewed

	@@ -0,0 +1,49 @@

+import os
+from PIL import Image, ImageDraw, ImageFont
+import gradio as gr
+from helper import load_image_from_url, render_results_in_image
+from helper import summarize_predictions_natural_language
+from transformers import pipeline
+from transformers.utils import logging
+logging.set_verbosity_error()
+from helper import ignore_warnings
+ignore_warnings()
+od_pipe = pipeline("object-detection", "facebook/detr-resnet-50")
+tts_pipe = pipeline("text-to-speech",
+                    model="kakao-enterprise/vits-ljs")
+def get_pipeline_prediction(pil_image):
+    pipeline_output = od_pipe(pil_image)
+    processed_image = render_results_in_image(pil_image,
+                                            pipeline_output)
+    text = summarize_predictions_natural_language(pipeline_output)
+    print(text)
+    narrated_text = tts_pipe(text)
+    #print (narrated_text)
+    print(narrated_text["audio"][0])
+    print (narrated_text["sampling_rate"])
+    return processed_image, (narrated_text["sampling_rate"], narrated_text["audio"][0] )
+    #return processed_image
+demo = gr.Interface(
+  fn=get_pipeline_prediction,
+  inputs=gr.Image(label="Input image",
+                  type="pil"),
+  outputs=[gr.Image(label="Output image with predicted instances",
+                   type="pil"), gr.Audio(label="Narration", type="numpy",  autoplay=True)]
+  #outputs=gr.Image(label="Output image with predicted instances",
+  #                 type="pil")
+)
+demo.launch(server_name="0.0.0.0", server_port=7860)

requirements (1).txt ADDED Viewed

	@@ -0,0 +1,7 @@

+opencv-python-headless<4.3
+gradio
+transformers
+phonemizer
+py-espeak-ng
+inflect
+timm