Spaces:

rivapereira123
/

firstaid

Sleeping

App Files Files Community

rivapereira123 commited on Jul 15

Commit

f67b75b

verified ·

1 Parent(s): 22adc85

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -56

app.py CHANGED Viewed

@@ -307,56 +307,32 @@ class OptimizedGazaRAGSystem:
         logger.info("🚀 Initializing Optimized Gaza RAG System...")
         self.knowledge_base.initialize()
         logger.info("✅ Optimized Gaza RAG System ready!")
     def _initialize_llm(self):
-        """Enhanced LLM initialization with better error handling"""
-        if self.llm is not None:
-            return
-        model_name = "microsoft/Phi-3-mini-4k-instruct"
-        try:
-            logger.info(f"🔄 Loading LLM: {model_name}")
-            # Enhanced quantization configuration
-            quantization_config = BitsAndBytesConfig(
-                load_in_4bit=True,
-                bnb_4bit_use_double_quant=True,
-                bnb_4bit_quant_type="nf4",
-                bnb_4bit_compute_dtype=torch.float16,
-            )
-            self.tokenizer = AutoTokenizer.from_pretrained(
-                model_name,
-                trust_remote_code=True,
-                padding_side="left"
-            )
-            if self.tokenizer.pad_token is None:
-                self.tokenizer.pad_token = self.tokenizer.eos_token
-            self.llm = AutoModelForCausalLM.from_pretrained(
-                model_name,
-                quantization_config=quantization_config,
-                device_map="auto",
-                trust_remote_code=True,
-                torch_dtype=torch.float16,
-                low_cpu_mem_usage=True
-            )
-            self.generation_pipeline = pipeline(
-                "text-generation",
-                model=self.llm,
-                tokenizer=self.tokenizer,
-                device_map="auto",
-                torch_dtype=torch.float16,
-                return_full_text=False
-            )
-            logger.info("✅ LLM loaded successfully")
-        except Exception as e:
-            logger.error(f"❌ Error loading primary model: {e}")
-            raise RuntimeError("Model loading failed — check GPU availability and bitsandbytes install")
     def _initialize_fallback_llm(self):
@@ -529,15 +505,9 @@ RESPONSE (provide practical, Gaza-appropriate medical guidance):"""
             # Generate the response
             with torch.no_grad():
-                outputs = self.llm.generate(
-                    **inputs,
-                    max_new_tokens=600,
-                    temperature=0.3,
-                    pad_token_id=self.tokenizer.eos_token_id,
-                    do_sample=True,
-                    repetition_penalty=1.15,
-                    no_repeat_ngram_size=3
-                )
             # Decode and clean up
             response_text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)

         logger.info("🚀 Initializing Optimized Gaza RAG System...")
         self.knowledge_base.initialize()
         logger.info("✅ Optimized Gaza RAG System ready!")
     def _initialize_llm(self):
+    """Initialize FLAN-T5 model (CPU-friendly)"""
+    model_name = "google/flan-t5-base"
+    try:
+        logger.info(f"🔄 Loading fallback CPU model: {model_name}")
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
+        self.llm = AutoModelForCausalLM.from_pretrained(model_name)
+        self.generation_pipeline = pipeline(
+            "text2text-generation",  # <-- Important for T5!
+            model=self.llm,
+            tokenizer=self.tokenizer,
+            return_full_text=False
+        )
+        logger.info("✅ FLAN-T5 model loaded successfully")
+    except Exception as e:
+        logger.error(f"❌ Error loading FLAN-T5 model: {e}")
+        self.llm = None
+        self.generation_pipeline = None
     def _initialize_fallback_llm(self):
             # Generate the response
             with torch.no_grad():
+                outputs = self.generation_pipeline(prompt, max_new_tokens=300, temperature=0.3, repetition_penalty=1.15, no_repeat_ngram_size=3)
+                response_text = outputs[0]["generated_text"]
             # Decode and clean up
             response_text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)