Spaces:

MGZON
/

mgzon-app

Running

App Files Files Community

Mark-Lasfar commited on Sep 18

Commit

509531f

1 Parent(s): cb937e4

endpoints.py generation.py

Browse files

Files changed (3) hide show

api/endpoints.py +3 -1
utils/constants.py +5 -1
utils/generation.py +32 -29

api/endpoints.py CHANGED Viewed

@@ -20,7 +20,9 @@ from motor.motor_asyncio import AsyncIOMotorClient
 from datetime import datetime
 import logging
 from typing import List, Optional
-from utils.constants import MODEL_ALIASES, MODEL_NAME, SECONDARY_MODEL_NAME, TERTIARY_MODEL_NAME, CLIP_BASE_MODEL, CLIP_LARGE_MODEL, ASR_MODEL, TTS_MODEL, IMAGE_GEN_MODEL, SECONDARY_IMAGE_GEN_MODEL
 import psutil
 import time
 router = APIRouter()

 from datetime import datetime
 import logging
 from typing import List, Optional
+# from utils.constants import MODEL_ALIASES, MODEL_NAME, SECONDARY_MODEL_NAME, TERTIARY_MODEL_NAME, CLIP_BASE_MODEL, CLIP_LARGE_MODEL, ASR_MODEL, TTS_MODEL, IMAGE_GEN_MODEL, SECONDARY_IMAGE_GEN_MODEL
+from utils.constants import MODEL_ALIASES, MODEL_NAME, SECONDARY_MODEL_NAME, TERTIARY_MODEL_NAME, CLIP_BASE_MODEL, CLIP_LARGE_MODEL, ASR_MODEL, TTS_MODEL, IMAGE_GEN_MODEL, SECONDARY_IMAGE_GEN_MODEL, IMAGE_INFERENCE_API
 import psutil
 import time
 router = APIRouter()

utils/constants.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import os
 MODEL_NAME = os.getenv("MODEL_NAME", "openai/gpt-oss-120b:cerebras")
 SECONDARY_MODEL_NAME = os.getenv("SECONDARY_MODEL_NAME", "mistralai/Mixtral-8x7B-Instruct-v0.1")
 TERTIARY_MODEL_NAME = os.getenv("TERTIARY_MODEL_NAME", "llama/Llama-3.1-8B-Instruct:featherless-ai")
@@ -11,6 +10,11 @@ TTS_MODEL = os.getenv("TTS_MODEL", "facebook/mms-tts-ara")
 IMAGE_GEN_MODEL = os.getenv("IMAGE_GEN_MODEL", "Qwen/Qwen2.5-VL-7B-Instruct:novita")
 SECONDARY_IMAGE_GEN_MODEL = os.getenv("SECONDARY_IMAGE_GEN_MODEL", "black-forest-labs/FLUX.1-dev")
 MODEL_ALIASES = {
     "advanced": MODEL_NAME,
     "standard": SECONDARY_MODEL_NAME,

 import os
 MODEL_NAME = os.getenv("MODEL_NAME", "openai/gpt-oss-120b:cerebras")
 SECONDARY_MODEL_NAME = os.getenv("SECONDARY_MODEL_NAME", "mistralai/Mixtral-8x7B-Instruct-v0.1")
 TERTIARY_MODEL_NAME = os.getenv("TERTIARY_MODEL_NAME", "llama/Llama-3.1-8B-Instruct:featherless-ai")
 IMAGE_GEN_MODEL = os.getenv("IMAGE_GEN_MODEL", "Qwen/Qwen2.5-VL-7B-Instruct:novita")
 SECONDARY_IMAGE_GEN_MODEL = os.getenv("SECONDARY_IMAGE_GEN_MODEL", "black-forest-labs/FLUX.1-dev")
+ROUTER_API_URL = os.getenv("ROUTER_API_URL", "https://router.huggingface.co")
+API_ENDPOINT = os.getenv("API_ENDPOINT", "https://router.huggingface.co/v1")
+FALLBACK_API_ENDPOINT = os.getenv("FALLBACK_API_ENDPOINT", "https://api-inference.huggingface.co/v1")
+IMAGE_INFERENCE_API = os.getenv("IMAGE_INFERENCE_API", "https://api-inference.huggingface.co/models")  # 👈 إضافة جديدة
 MODEL_ALIASES = {
     "advanced": MODEL_NAME,
     "standard": SECONDARY_MODEL_NAME,

utils/generation.py CHANGED Viewed

@@ -19,8 +19,8 @@ from utils.web_search import web_search
 from huggingface_hub import snapshot_download
 import torch
 from diffusers import DiffusionPipeline
-from utils.constants import MODEL_ALIASES, MODEL_NAME, SECONDARY_MODEL_NAME, TERTIARY_MODEL_NAME, CLIP_BASE_MODEL, CLIP_LARGE_MODEL, ASR_MODEL, TTS_MODEL, IMAGE_GEN_MODEL, SECONDARY_IMAGE_GEN_MODEL
 logger = logging.getLogger(__name__)
 # إعداد Cache
@@ -107,8 +107,9 @@ def select_model(query: str, input_type: str = "text", preferred_model: Optional
     ]
     for pattern in image_patterns:
         if re.search(pattern, query_lower, re.IGNORECASE):
-            logger.info(f"Selected {CLIP_BASE_MODEL} with endpoint {FALLBACK_API_ENDPOINT} for image-related query: {query[:50]}...")
-            return CLIP_BASE_MODEL, FALLBACK_API_ENDPOINT
     for pattern in image_gen_patterns:
         if re.search(pattern, query_lower, re.IGNORECASE) or input_type == "image_gen":
             logger.info(f"Selected {IMAGE_GEN_MODEL} with endpoint {FALLBACK_API_ENDPOINT} for image generation query: {query[:50]}...")
@@ -223,24 +224,23 @@ def request_generation(
             torch.cuda.empty_cache() if torch.cuda.is_available() else None
     # معالجة تحليل الصور
-    if model_name in [CLIP_BASE_MODEL, CLIP_LARGE_MODEL] and image_data:
-        task_type = "image_analysis"
-        try:
-            dtype = torch.float16 if torch.cuda.is_available() else torch.float32
-            device = "cuda" if torch.cuda.is_available() else "cpu"
-            model = CLIPModel.from_pretrained(model_name, torch_dtype=dtype).to(device)
-            processor = CLIPProcessor.from_pretrained(model_name)
-            image = Image.open(io.BytesIO(image_data)).convert("RGB")
-            inputs = processor(text=message, images=image, return_tensors="pt", padding=True).to(device)
-            outputs = model(**inputs)
-            logits_per_image = outputs.logits_per_image
-            probs = logits_per_image.softmax(dim=1)
-            result = f"Image analysis result: {probs.tolist()}"
-            logger.debug(f"Image analysis result: {result}")
             if output_format == "audio":
                 model = ParlerTTSForConditionalGeneration.from_pretrained(TTS_MODEL, torch_dtype=dtype).to(device)
                 processor = AutoProcessor.from_pretrained(TTS_MODEL)
-                inputs = processor(text=result, return_tensors="pt").to(device)
                 audio = model.generate(**inputs)
                 audio_file = io.BytesIO()
                 torchaudio.save(audio_file, audio[0], sample_rate=22050, format="wav")
@@ -248,18 +248,21 @@ def request_generation(
                 audio_data = audio_file.read()
                 yield audio_data
             else:
-                yield result
-            cache[cache_key] = [result]
             return
-        except Exception as e:
-            logger.error(f"Image analysis failed: {e}")
-            yield f"Error: Image analysis failed: {e}"
             return
-        finally:
-            if 'model' in locals():
-                del model
-            torch.cuda.empty_cache() if torch.cuda.is_available() else None
     # معالجة توليد الصور أو تحريرها
     if model_name in [IMAGE_GEN_MODEL, SECONDARY_IMAGE_GEN_MODEL] or input_type == "image_gen":
         task_type = "image_generation"

 from huggingface_hub import snapshot_download
 import torch
 from diffusers import DiffusionPipeline
+# from utils.constants import MODEL_ALIASES, MODEL_NAME, SECONDARY_MODEL_NAME, TERTIARY_MODEL_NAME, CLIP_BASE_MODEL, CLIP_LARGE_MODEL, ASR_MODEL, TTS_MODEL, IMAGE_GEN_MODEL, SECONDARY_IMAGE_GEN_MODEL
+from utils.constants import MODEL_ALIASES, MODEL_NAME, SECONDARY_MODEL_NAME, TERTIARY_MODEL_NAME, CLIP_BASE_MODEL, CLIP_LARGE_MODEL, ASR_MODEL, TTS_MODEL, IMAGE_GEN_MODEL, SECONDARY_IMAGE_GEN_MODEL, IMAGE_INFERENCE_API
 logger = logging.getLogger(__name__)
 # إعداد Cache
     ]
     for pattern in image_patterns:
         if re.search(pattern, query_lower, re.IGNORECASE):
+model = CLIP_LARGE_MODEL if preferred_model == "image_advanced" else CLIP_BASE_MODEL
+        logger.info(f"Selected {model} with endpoint {IMAGE_INFERENCE_API} for image-related query: {query[:50]}...")
+        return model, f"{IMAGE_INFERENCE_API}/{model}"
     for pattern in image_gen_patterns:
         if re.search(pattern, query_lower, re.IGNORECASE) or input_type == "image_gen":
             logger.info(f"Selected {IMAGE_GEN_MODEL} with endpoint {FALLBACK_API_ENDPOINT} for image generation query: {query[:50]}...")
             torch.cuda.empty_cache() if torch.cuda.is_available() else None
     # معالجة تحليل الصور
+# معالجة تحليل الصور
+if model_name in [CLIP_BASE_MODEL, CLIP_LARGE_MODEL] and image_data:
+    task_type = "image_analysis"
+    try:
+        url = f"{IMAGE_INFERENCE_API}/{model_name}"
+        headers = {"Authorization": f"Bearer {api_key}"}
+        response = requests.post(url, headers=headers, data=image_data)
+        if response.status_code == 200:
+            result = response.json()
+            caption = result[0]['generated_text'] if isinstance(result, list) else result.get('generated_text', 'No caption generated')
+            logger.debug(f"Image analysis result: {caption}")
             if output_format == "audio":
+                dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+                device = "cuda" if torch.cuda.is_available() else "cpu"
                 model = ParlerTTSForConditionalGeneration.from_pretrained(TTS_MODEL, torch_dtype=dtype).to(device)
                 processor = AutoProcessor.from_pretrained(TTS_MODEL)
+                inputs = processor(text=caption, return_tensors="pt").to(device)
                 audio = model.generate(**inputs)
                 audio_file = io.BytesIO()
                 torchaudio.save(audio_file, audio[0], sample_rate=22050, format="wav")
                 audio_data = audio_file.read()
                 yield audio_data
             else:
+                yield caption
+            cache[cache_key] = [caption]
             return
+        else:
+            logger.error(f"Image analysis failed with status {response.status_code}: {response.text}")
+            yield f"Error: Image analysis failed with status {response.status_code}: {response.text}"
             return
+    except Exception as e:
+        logger.error(f"Image analysis failed: {e}")
+        yield f"Error: Image analysis failed: {e}"
+        return
+    finally:
+        if 'model' in locals():
+            del model
+        torch.cuda.empty_cache() if torch.cuda.is_available() else None
     # معالجة توليد الصور أو تحريرها
     if model_name in [IMAGE_GEN_MODEL, SECONDARY_IMAGE_GEN_MODEL] or input_type == "image_gen":
         task_type = "image_generation"