Spaces:

sunny-annie
/

img2txt

Runtime error

File size: 1,699 Bytes

e24264c
 
 
 
 
 
 
 
 
 
 
 
 
a43bb6f
 
e24264c
 
 
 
 
 
 
 
 
7e5ffa6
 
0fbe647
 
7e5ffa6
6707879
 
 
 
 
3ee06e6
7e5ffa6
 
3ee06e6
 
 
0fbe647
 
 
 
e24264c

import streamlit as st
import torch
from joblib import load
from PIL import Image
from transformers import VisionEncoderDecoderModel

device = 'cpu'

# tokenizer = load("./pages/tokenizer_v3.joblib")
# feature_extractor = load("./pages/feature_extractor_v3.joblib")
tokenizer = load("tokenizer_v3.joblib")
feature_extractor = load("feature_extractor_v3.joblib")

# model = VisionEncoderDecoderModel.from_pretrained("dumperize/movie-picture-captioning")
model = load("img2txt_v4.joblib")
model.load_state_dict(torch.load("model_weights_i2t_fin.pt", map_location=torch.device('cpu')))
# model.eval()

max_length = 512
min_length = 32
num_beams = 7
gen_kwargs = {"max_length": max_length, "min_length": min_length, "num_beams": num_beams}


st.subheader('')
uploaded_file = st.file_uploader("Выберите изображение обложки книги в формате jpeg или jpg, и я попробую угадать её содержание...", type=["jpg", "jpeg"])

if uploaded_file is not None:
    
    image = Image.open(uploaded_file)
    st.image(image, caption='Загруженное изображение')
    image = image.resize([224,224])
    if image.mode != "RGB":
        image = image.convert(mode="RGB")
        
        
    button = st.button('Сгенерировать описание')
    if button:  
        pixel_values = feature_extractor(images=[image], return_tensors="pt").pixel_values
        pixel_values = pixel_values.to(device)
        output_ids = model.generate(pixel_values, **gen_kwargs)
        preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
        preds = [pred.strip() for pred in preds]
        st.write(preds[0])