Spaces:

st0bb3n
/

Cam2Speech

Runtime error

BuildTools commited on Mar 24, 2022

Commit

d6912cc

•

1 Parent(s): a4f2fe4

Added app and requirements

Files changed (2) hide show

app.py ADDED Viewed

+from transformers import ViTFeatureExtractor, ViTForImageClassification
+import gradio as gr
+def classify(image):
+    feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224')
+    model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224')
+    inputs = feature_extractor(images=image, return_tensors="pt")
+    outputs = model(**inputs)
+    logits = outputs.logits
+    # model predicts one of the 1000 ImageNet classes
+    predicted_class_idx = logits.argmax(-1).item()
+    return model.config.id2label[predicted_class_idx]
+def image2speech(image):
+    txt = classify(image)
+    return fastspeech(txt), txt
+fastspeech = gr.Interface.load("huggingface/facebook/fastspeech2-en-ljspeech")
+app = gr.Interface(fn=image2speech, inputs="image", outputs=["audio", "text"])
+app.launch()

requirements.txt ADDED Viewed