Spaces:

VikTsrv
/

MultimodalClassificationSystem

Running

App Files Files Community

VikTsrv commited on 24 days ago

Commit

5006afe

1 Parent(s): 061a1bc

fix app.py

Browse files

Files changed (1) hide show

app.py +16 -12

app.py CHANGED Viewed

@@ -152,9 +152,6 @@
 #     demo.launch()
 import gradio as gr
 import torch
 import torch.nn as nn
@@ -213,7 +210,7 @@ class ConcatFusionModel(nn.Module):
 # ======================
 # ЗАГРУЗКА МОДЕЛЕЙ
 # ======================
-@gr.cache_resource
 def load_models():
     # Визуальный энкодер (загружаем предобученный из torchvision)
     visual = models.resnet50(weights=models.ResNet50_Weights.DEFAULT)
@@ -225,8 +222,10 @@ def load_models():
     # Текстовые энкодеры (загружаем предобученные из Hugging Face)
     tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
-    ocr_encoder = AutoModel.from_pretrained("cointegrated/rubert-tiny2").to(DEVICE).eval()
-    caption_encoder = AutoModel.from_pretrained("cointegrated/rubert-tiny2").to(DEVICE).eval()
     for p in ocr_encoder.parameters():
         p.requires_grad = False
@@ -235,7 +234,8 @@ def load_models():
     # Классификационная голова (обученная)
     model = ConcatFusionModel(NUM_CLASSES, dropout=0.3)
-    model.load_state_dict(torch.load(os.path.join(BASE_DIR, "concat_model.pth"), map_location=DEVICE))
     model.to(DEVICE)
     model.eval()
@@ -247,7 +247,8 @@ def load_models():
         transforms.Resize(256),
         transforms.CenterCrop(224),
         transforms.ToTensor(),
-        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
     ])
     return visual, ocr_encoder, caption_encoder, tokenizer, model, reader, val_transform
@@ -274,7 +275,8 @@ def predict(image, caption_text=""):
         v = torch.flatten(v, 1)
     # OCR encode
-    ocr_enc = tokenizer(ocr_text, truncation=True, padding="max_length", max_length=64, return_tensors="pt")
     with torch.no_grad():
         ocr_out = ocr_encoder(
             input_ids=ocr_enc["input_ids"].to(DEVICE),
@@ -283,7 +285,8 @@ def predict(image, caption_text=""):
         ocr = ocr_out.last_hidden_state[:, 0]
     # Caption encode
-    cap_enc = tokenizer(caption_text, truncation=True, padding="max_length", max_length=128, return_tensors="pt")
     with torch.no_grad():
         cap_out = caption_encoder(
             input_ids=cap_enc["input_ids"].to(DEVICE),
@@ -307,7 +310,8 @@ demo = gr.Interface(
     fn=predict,
     inputs=[
         gr.Image(type="pil", label="📸 Загрузите изображение"),
-        gr.Textbox(label="📝 Подпись (необязательно)", placeholder="Введите текст подписи...")
     ],
     outputs=gr.Label(num_top_classes=5, label="🎯 Предсказанные категории"),
     title="Мультимодальный классификатор контента",
@@ -315,4 +319,4 @@ demo = gr.Interface(
 )
 if __name__ == "__main__":
-    demo.launch()

 #     demo.launch()
 import gradio as gr
 import torch
 import torch.nn as nn
 # ======================
 # ЗАГРУЗКА МОДЕЛЕЙ
 # ======================
+@gr.cache
 def load_models():
     # Визуальный энкодер (загружаем предобученный из torchvision)
     visual = models.resnet50(weights=models.ResNet50_Weights.DEFAULT)
     # Текстовые энкодеры (загружаем предобученные из Hugging Face)
     tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+    ocr_encoder = AutoModel.from_pretrained(
+        "cointegrated/rubert-tiny2").to(DEVICE).eval()
+    caption_encoder = AutoModel.from_pretrained(
+        "cointegrated/rubert-tiny2").to(DEVICE).eval()
     for p in ocr_encoder.parameters():
         p.requires_grad = False
     # Классификационная голова (обученная)
     model = ConcatFusionModel(NUM_CLASSES, dropout=0.3)
+    model.load_state_dict(torch.load(os.path.join(
+        BASE_DIR, "concat_model.pth"), map_location=DEVICE))
     model.to(DEVICE)
     model.eval()
         transforms.Resize(256),
         transforms.CenterCrop(224),
         transforms.ToTensor(),
+        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[
+                             0.229, 0.224, 0.225]),
     ])
     return visual, ocr_encoder, caption_encoder, tokenizer, model, reader, val_transform
         v = torch.flatten(v, 1)
     # OCR encode
+    ocr_enc = tokenizer(ocr_text, truncation=True,
+                        padding="max_length", max_length=64, return_tensors="pt")
     with torch.no_grad():
         ocr_out = ocr_encoder(
             input_ids=ocr_enc["input_ids"].to(DEVICE),
         ocr = ocr_out.last_hidden_state[:, 0]
     # Caption encode
+    cap_enc = tokenizer(caption_text, truncation=True,
+                        padding="max_length", max_length=128, return_tensors="pt")
     with torch.no_grad():
         cap_out = caption_encoder(
             input_ids=cap_enc["input_ids"].to(DEVICE),
     fn=predict,
     inputs=[
         gr.Image(type="pil", label="📸 Загрузите изображение"),
+        gr.Textbox(label="📝 Подпись (необязательно)",
+                   placeholder="Введите текст подписи...")
     ],
     outputs=gr.Label(num_top_classes=5, label="🎯 Предсказанные категории"),
     title="Мультимодальный классификатор контента",
 )
 if __name__ == "__main__":
+    demo.launch()