Spaces:

sunny-annie
/

img2txt

Runtime error

App Files Files Community

sunny-annie commited on May 5, 2023

Commit

e24264c

•

1 Parent(s): fab7731

Upload 4 files

Browse files

Files changed (4) hide show

feature_extractor_v3.joblib +3 -0
img-2-txt.py +55 -0
model_weights_i2t_fin.pt +3 -0
tokenizer_v3.joblib +3 -0

feature_extractor_v3.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6de31b46e55b824d28a5daab95de36f12f7cee1600bda97c7496433415c425c0
+size 361

img-2-txt.py ADDED Viewed

	@@ -0,0 +1,55 @@

+import streamlit as st
+import torch
+from joblib import load
+from PIL import Image
+from transformers import VisionEncoderDecoderModel
+device = 'cpu'
+# tokenizer = load("./pages/tokenizer_v3.joblib")
+# feature_extractor = load("./pages/feature_extractor_v3.joblib")
+tokenizer = load("tokenizer_v3.joblib")
+feature_extractor = load("feature_extractor_v3.joblib")
+model = VisionEncoderDecoderModel.from_pretrained("dumperize/movie-picture-captioning")
+# model = load("model_img2txt_v3.joblib")
+model.load_state_dict(torch.load("model_weights_i2t_fin.pt", map_location=torch.device('cpu')))
+# model.eval()
+max_length = 512
+min_length = 32
+num_beams = 7
+gen_kwargs = {"max_length": max_length, "min_length": min_length, "num_beams": num_beams}
+uploaded_file = st.file_uploader("Выберите изображение обложки книги в формате jpeg или jpg...", type=["jpg", "jpeg"])
+if uploaded_file is not None:
+    image = Image.open(uploaded_file)
+    st.image(image, caption='Загруженное изображение')
+    image = image.resize([224,224])
+    if image.mode != "RGB":
+        image = image.convert(mode="RGB")
+    pixel_values = feature_extractor(images=[image], return_tensors="pt").pixel_values
+    pixel_values = pixel_values.to(device)
+    output_ids = model.generate(pixel_values, **gen_kwargs)
+    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
+    preds = [pred.strip() for pred in preds]
+    st.write(preds[0])
+# image = Image.open(image_path)
+# image = image.resize([224,224])
+# if image.mode != "RGB":
+#   image = image.convert(mode="RGB")
+# pixel_values = feature_extractor(images=[image], return_tensors="pt").pixel_values
+# pixel_values = pixel_values.to(device)
+# output_ids = model.generate(pixel_values, **gen_kwargs)
+# preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
+# print([pred.strip() for pred in preds])

model_weights_i2t_fin.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6753b600e5d753ad7420a92aa4dcd3f5d860f8e9b5c933f059144e4e579d938e
+size 1171154606

tokenizer_v3.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cc0b03a6f6232c82c5d9afa89f8d53f71d1b324e9b3845869d4871fa0ebe87d
+size 2617590