from transformers import CLIPProcessor, CLIPModel import torch # Carica il modello e il processo di CLIP model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") # Descrizione testuale dell'immagine desiderata text = "Un cane che gioca nel parco" # Tokenizzazione del testo inputs = processor(text, return_tensors="pt", padding=True) # Passaggio attraverso il modello with torch.no_grad(): outputs = model(**inputs) # Recupero delle rappresentazioni dell'immagine image_features = outputs.last_hidden_state[:, 0] # Generazione di immagini simili # (Questa parte richiederebbe un dataset di immagini per confronto)