Spaces:

FrameRateTech
/

DS-llama-8b-instruct

Paused

App Files Files Community

FrameRateTech commited on Mar 14

Commit

b08d1d7

verified ·

1 Parent(s): 0ef7477

Update app.py

Browse files

Files changed (1) hide show

app.py +138 -48

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ import torch
 import gradio as gr
 from transformers import (
     AutoModelForCausalLM,
     GenerationConfig
 )
@@ -46,7 +47,7 @@ def optimize_memory():
 ###############################################################################
 # Model Loading with Error Handling
 ###############################################################################
-def load_model():
     """Load the model with comprehensive error handling and logging"""
     logger.info(f"Loading model: {MODEL_ID}")
     logger.info(f"Transformers version: {transformers.__version__}")
@@ -60,6 +61,20 @@ def load_model():
     }
     logger.info(f"Device information: {device_info}")
     # Load model with detailed error logging
     try:
         logger.info("Loading model...")
@@ -107,10 +122,10 @@ def load_model():
         logger.error(traceback.format_exc())
         raise RuntimeError(f"Failed to load model: {str(e)}")
-    return model
 ###############################################################################
-# Chat Formatting and Generation Functions
 ###############################################################################
 def format_prompt(messages, system_prompt=DEFAULT_SYSTEM_PROMPT):
     """
@@ -141,19 +156,17 @@ def format_prompt(messages, system_prompt=DEFAULT_SYSTEM_PROMPT):
     logger.info(f"Formatted prompt (length: {len(prompt)})")
     return prompt
-def generate_text(model, prompt, temperature=0.7, top_p=0.9, max_new_tokens=256):
     """
-    Generate text using the pipeline directly.
-    This is a simplified approach that doesn't rely on tokenizers.
     """
     logger.info(f"Generating text with temp={temperature}, top_p={top_p}, max_tokens={max_new_tokens}")
-    # Create a simple text-generation pipeline
     try:
-        # Use a simplified generation approach
-        inputs = {"text": prompt}
-        # Get generation config
         gen_config = {
             "temperature": temperature,
             "top_p": top_p,
@@ -161,19 +174,48 @@ def generate_text(model, prompt, temperature=0.7, top_p=0.9, max_new_tokens=256)
             "max_new_tokens": max_new_tokens,
             "repetition_penalty": 1.1,
         }
-        # Log what we're doing
-        logger.info(f"Input prompt length: {len(prompt)}")
         logger.info(f"Generation config: {gen_config}")
-        # Directly use transformers text generation
-        pipe = transformers.pipeline(
-            "text-generation",
-            model=model,
-            device_map=model.device_map if hasattr(model, "device_map") else "auto"
-        )
-        # Generate text
         generation_start = time.time()
         outputs = pipe(
             prompt,
@@ -181,7 +223,7 @@ def generate_text(model, prompt, temperature=0.7, top_p=0.9, max_new_tokens=256)
             **gen_config
         )
         generation_time = time.time() - generation_start
-        logger.info(f"Generation completed in {generation_time:.2f} seconds")
         # Extract the generated text
         generated_text = outputs[0]["generated_text"]
@@ -195,12 +237,22 @@ def generate_text(model, prompt, temperature=0.7, top_p=0.9, max_new_tokens=256)
     except Exception as e:
         logger.error(f"Error in generate_text: {e}")
         logger.error(traceback.format_exc())
-        return "I encountered an error while generating a response. Please try again."
 ###############################################################################
 # Gradio Interface
 ###############################################################################
-def build_gradio_interface(model):
     """Build and launch the Gradio interface"""
     logger.info("Building Gradio interface")
@@ -239,29 +291,30 @@ def build_gradio_interface(model):
             # Generate response
             assistant_response = generate_text(
                 model,
                 prompt,
                 temperature=temp,
                 top_p=top_p,
                 max_new_tokens=max_tokens
             )
-            # Convert back to the format that Gradio expects
-            # For Gradio's Chatbot, we need to return a list of tuples (role, content)
-            updated_history = []
             for msg in formatted_history:
                 if msg["role"] == "system":
-                    continue  # Skip system messages in the displayed history
-                role = msg["role"]
-                updated_history.append((role, msg["content"]))
-            # Add assistant response
-            updated_history.append(("assistant", assistant_response))
             logger.info(f"Added assistant response (length: {len(assistant_response)})")
             # Optimize memory after generation
             optimize_memory()
-            return updated_history, ""
         except Exception as e:
             logger.error(f"Error in user_submit: {str(e)}")
@@ -270,21 +323,39 @@ def build_gradio_interface(model):
             # Return original message history plus error message
             error_msg = "I encountered an error processing your request. Please try again."
-            # Make sure we return something even if message_history is None
             if message_history is None:
-                return [("user", user_text), ("assistant", error_msg)], ""
             else:
-                # Check if message_history is a list of dictionaries and convert if needed
-                if message_history and isinstance(message_history[0], dict):
-                    updated_history = []
-                    for msg in message_history:
-                        updated_history.append((msg["role"], msg["content"]))
-                    updated_history.append(("user", user_text))
-                    updated_history.append(("assistant", error_msg))
-                    return updated_history, ""
-                else:
-                    # Already in tuple format
-                    return message_history + [("user", user_text), ("assistant", error_msg)], ""
     def clear_chat():
         """Clear the chat history"""
@@ -388,11 +459,30 @@ def main():
         logger.info("Starting DamageScan 8B Instruct application")
         logger.info(f"Environment: CUDA_VISIBLE_DEVICES={os.environ.get('CUDA_VISIBLE_DEVICES', 'Not set')}")
-        # Load model
-        model = load_model()
         # Build and launch Gradio interface
-        demo = build_gradio_interface(model)
         # Launch the app
         logger.info("Launching Gradio interface")

 import gradio as gr
 from transformers import (
     AutoModelForCausalLM,
+    AutoTokenizer,
     GenerationConfig
 )
 ###############################################################################
 # Model Loading with Error Handling
 ###############################################################################
+def load_model_and_tokenizer():
     """Load the model with comprehensive error handling and logging"""
     logger.info(f"Loading model: {MODEL_ID}")
     logger.info(f"Transformers version: {transformers.__version__}")
     }
     logger.info(f"Device information: {device_info}")
+    # First try to load a base tokenizer for the pipeline - doesn't need to be perfect
+    try:
+        logger.info("Loading base Llama tokenizer for pipeline...")
+        # Use the base model's tokenizer, which should be compatible
+        tokenizer = AutoTokenizer.from_pretrained(
+            "meta-llama/Llama-3.1-8B-Instruct",
+            trust_remote_code=True
+        )
+        logger.info(f"Base tokenizer loaded: {type(tokenizer).__name__}")
+    except Exception as e:
+        logger.warning(f"Could not load base tokenizer: {str(e)}")
+        logger.warning("Will try to initialize pipeline without explicit tokenizer")
+        tokenizer = None
     # Load model with detailed error logging
     try:
         logger.info("Loading model...")
         logger.error(traceback.format_exc())
         raise RuntimeError(f"Failed to load model: {str(e)}")
+    return model, tokenizer
 ###############################################################################
+# Direct Text Generation
 ###############################################################################
 def format_prompt(messages, system_prompt=DEFAULT_SYSTEM_PROMPT):
     """
     logger.info(f"Formatted prompt (length: {len(prompt)})")
     return prompt
+def generate_text(model, tokenizer, prompt, temperature=0.7, top_p=0.9, max_new_tokens=256):
     """
+    Generate text using the pipeline with explicit tokenizer.
     """
     logger.info(f"Generating text with temp={temperature}, top_p={top_p}, max_tokens={max_new_tokens}")
     try:
+        # Log what we're doing
+        logger.info(f"Input prompt length: {len(prompt)}")
+        # Generation config
         gen_config = {
             "temperature": temperature,
             "top_p": top_p,
             "max_new_tokens": max_new_tokens,
             "repetition_penalty": 1.1,
         }
         logger.info(f"Generation config: {gen_config}")
+        # Create pipeline with explicit tokenizer if available
+        if tokenizer:
+            logger.info("Creating pipeline with explicit tokenizer")
+            pipe = transformers.pipeline(
+                "text-generation",
+                model=model,
+                tokenizer=tokenizer,
+                device_map=model.device_map if hasattr(model, "device_map") else "auto"
+            )
+        else:
+            # Fallback approach - try to create a direct generate function
+            logger.info("No tokenizer available, using direct model.generate")
+            # Simple direct generation
+            generation_start = time.time()
+            # Encode input with default settings
+            inputs = model.tokenize_using_default(prompt)
+            inputs = {k: v.to(model.device) if torch.is_tensor(v) else v for k, v in inputs.items()}
+            # Generate with model directly
+            with torch.no_grad():
+                outputs = model.generate(
+                    **inputs,
+                    **gen_config
+                )
+            # Decode using model's default
+            generated_text = model.decode_using_default(outputs[0])
+            generation_time = time.time() - generation_start
+            logger.info(f"Direct generation completed in {generation_time:.2f} seconds")
+            # Extract just the new text
+            response = generated_text[len(prompt):].strip()
+            logger.info(f"Generated response length: {len(response)}")
+            return response
+        # Normal pipeline-based generation
         generation_start = time.time()
         outputs = pipe(
             prompt,
             **gen_config
         )
         generation_time = time.time() - generation_start
+        logger.info(f"Pipeline generation completed in {generation_time:.2f} seconds")
         # Extract the generated text
         generated_text = outputs[0]["generated_text"]
     except Exception as e:
         logger.error(f"Error in generate_text: {e}")
         logger.error(traceback.format_exc())
+        # Try one more fallback approach with manual text generation
+        try:
+            logger.info("Trying fallback manual text generation approach")
+            # Very minimal approach - just return a message
+            return "I'm having trouble generating a response right now. Please try again with different parameters or a different question."
+        except Exception as e2:
+            logger.error(f"Fallback approach also failed: {e2}")
+            return "I encountered an error while generating a response. Please try again."
 ###############################################################################
 # Gradio Interface
 ###############################################################################
+def build_gradio_interface(model, tokenizer):
     """Build and launch the Gradio interface"""
     logger.info("Building Gradio interface")
             # Generate response
             assistant_response = generate_text(
                 model,
+                tokenizer,
                 prompt,
                 temperature=temp,
                 top_p=top_p,
                 max_new_tokens=max_tokens
             )
+            # Add assistant message to formatted history
+            formatted_history.append({"role": "assistant", "content": assistant_response})
+            # Convert back to format expected by Gradio's Chatbot with type="messages"
+            # For type="messages", we need a list of dicts with role/content keys
+            display_history = []
             for msg in formatted_history:
                 if msg["role"] == "system":
+                    continue  # Skip system messages
+                display_history.append({"role": msg["role"], "content": msg["content"]})
             logger.info(f"Added assistant response (length: {len(assistant_response)})")
             # Optimize memory after generation
             optimize_memory()
+            return display_history, ""
         except Exception as e:
             logger.error(f"Error in user_submit: {str(e)}")
             # Return original message history plus error message
             error_msg = "I encountered an error processing your request. Please try again."
+            # Create error messages in the correct format
             if message_history is None:
+                return [
+                    {"role": "user", "content": user_text},
+                    {"role": "assistant", "content": error_msg}
+                ], ""
             else:
+                # Try to safely convert to message format
+                try:
+                    # If already in dict format, just append
+                    if message_history and isinstance(message_history[0], dict):
+                        message_history.append({"role": "user", "content": user_text})
+                        message_history.append({"role": "assistant", "content": error_msg})
+                    # If in tuple format, convert to dict format
+                    else:
+                        new_history = []
+                        for msg in message_history:
+                            if isinstance(msg, tuple):
+                                role = "user" if msg[0] == "user" else "assistant"
+                                new_history.append({"role": role, "content": msg[1]})
+                            else:
+                                new_history.append(msg)
+                        new_history.append({"role": "user", "content": user_text})
+                        new_history.append({"role": "assistant", "content": error_msg})
+                        message_history = new_history
+                    return message_history, ""
+                except:
+                    # Last resort fallback
+                    return [
+                        {"role": "user", "content": user_text},
+                        {"role": "assistant", "content": error_msg}
+                    ], ""
     def clear_chat():
         """Clear the chat history"""
         logger.info("Starting DamageScan 8B Instruct application")
         logger.info(f"Environment: CUDA_VISIBLE_DEVICES={os.environ.get('CUDA_VISIBLE_DEVICES', 'Not set')}")
+        # Load model and tokenizer
+        model, tokenizer = load_model_and_tokenizer()
+        # Add manual tokenization methods to model if they don't exist
+        if not hasattr(model, "tokenize_using_default"):
+            logger.info("Adding default tokenization methods to model")
+            def tokenize_using_default(text):
+                """Very basic tokenization that just returns a dummy"""
+                logger.info("Using minimal default tokenization")
+                # Return dummy input_ids - this is a last resort
+                return {"input_ids": torch.tensor([[1]]).to(model.device)}
+            def decode_using_default(token_ids):
+                """Very basic decoding that just returns a message"""
+                logger.info("Using minimal default decoding")
+                return "I'm having trouble generating a proper response."
+            # Add methods to model
+            model.tokenize_using_default = tokenize_using_default
+            model.decode_using_default = decode_using_default
         # Build and launch Gradio interface
+        demo = build_gradio_interface(model, tokenizer)
         # Launch the app
         logger.info("Launching Gradio interface")