msVision_3

Runtime error

seawolf2357 commited on Feb 27, 2024

Commit

4d95222

verified ·

1 Parent(s): 1e442f4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,25 +6,6 @@ import torch
 from PIL import Image
 import requests
-# 모델과 토크나이저 로드
-model_id = "nlpconnect/vit-gpt2-image-captioning"
-model = VisionEncoderDecoderModel.from_pretrained(model_id)
-feature_extractor = AutoFeatureExtractor.from_pretrained(model_id)
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
-def predict_caption(image):
-    image = Image.open(image)
-    inputs = feature_extractor(images=image, return_tensors="pt")
-    pixel_values = inputs["pixel_values"].to(device)
-    output_ids = model.generate(pixel_values)
-    caption = tokenizer.decode(output_ids[0], skip_special_tokens=True)
-    return caption
 # 이미지 인식 파이프라인 로드
 image_model = pipeline("image-classification", model="google/vit-base-patch16-224")
@@ -75,7 +56,7 @@ def classify_and_generate_voice(uploaded_image):
 iface = gr.Interface(
     fn=classify_and_generate_voice,
     inputs=gr.Image(type="pil"),
-    outputs=[gr.Textbox(label="Caption"), gr.Label(), gr.Audio(), gr.Audio()],
     title="msVision_3",
     description="이미지를 업로드하면, 사물을 인식하고 해당하는 음성 및 음악을 생성합니다.(recognizes object and generate Voice&Music)",
     examples=["dog.jpg", "cat.png", "cafe.jpg"]

 from PIL import Image
 import requests
 # 이미지 인식 파이프라인 로드
 image_model = pipeline("image-classification", model="google/vit-base-patch16-224")
 iface = gr.Interface(
     fn=classify_and_generate_voice,
     inputs=gr.Image(type="pil"),
+    outputs=[ gr.Label(), gr.Audio(), gr.Audio()],
     title="msVision_3",
     description="이미지를 업로드하면, 사물을 인식하고 해당하는 음성 및 음악을 생성합니다.(recognizes object and generate Voice&Music)",
     examples=["dog.jpg", "cat.png", "cafe.jpg"]