Spaces:

Tonic
/

Petite-LLM-3

Running on Zero

App Files Files Community

Tonic commited on Jul 30

Commit

7578eea

1 Parent(s): 3436b88

adds debug

Browse files

Files changed (1) hide show

app.py +49 -3

app.py CHANGED Viewed

@@ -220,11 +220,46 @@ def generate_response(message, history, system_message, max_tokens, temperature,
             eos_token_id=tokenizer.eos_token_id,
             # cache_implementation="static"
         )
-        response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
         assistant_response = response[len(full_prompt):].strip()
         assistant_response = re.sub(r'<\|im_start\|>.*?<\|im_end\|>', '', assistant_response, flags=re.DOTALL)
         if not enable_thinking:
             assistant_response = re.sub(r'<think>.*?</think>', '', assistant_response, flags=re.DOTALL)
         # Handle tool calls if present
         if parsed_tools and ("<tool_call>" in assistant_response or "<code>" in assistant_response):
@@ -239,8 +274,19 @@ def generate_response(message, history, system_message, max_tokens, temperature,
                     code_call = code_match.group(1)
                     assistant_response += f"\n\n🐍 Python Tool Call: {code_call}\n\nNote: This is a simulated Python tool call. In a real scenario, the function would be executed and its output would be used to generate a final response."
         assistant_response = assistant_response.strip()
         return assistant_response
 def user(user_message, history):
@@ -308,8 +354,8 @@ with gr.Blocks() as demo:
                 max_length = gr.Slider(
                     label="📏 Longueur de la réponse",
                     minimum=10,
-                    maximum=556,   # maximum=32768,
-                    value=56,
                     step=1
                 )
                 temperature = gr.Slider(

             eos_token_id=tokenizer.eos_token_id,
             # cache_implementation="static"
         )
+        response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
+        # Debug: Print the full raw response
+        logger.info(f"=== FULL RAW RESPONSE DEBUG ===")
+        logger.info(f"Raw response length: {len(response)}")
+        logger.info(f"Raw response: {repr(response)}")
+        logger.info(f"Full prompt length: {len(full_prompt)}")
+        logger.info(f"Full prompt: {repr(full_prompt)}")
         assistant_response = response[len(full_prompt):].strip()
+        # Debug: Print the extracted assistant response
+        logger.info(f"=== EXTRACTED ASSISTANT RESPONSE DEBUG ===")
+        logger.info(f"Extracted response length: {len(assistant_response)}")
+        logger.info(f"Extracted response: {repr(assistant_response)}")
+        # Debug: Print before cleanup
+        logger.info(f"=== BEFORE CLEANUP DEBUG ===")
+        logger.info(f"Before cleanup length: {len(assistant_response)}")
+        logger.info(f"Before cleanup: {repr(assistant_response)}")
         assistant_response = re.sub(r'<\|im_start\|>.*?<\|im_end\|>', '', assistant_response, flags=re.DOTALL)
+        # Debug: Print after first cleanup
+        logger.info(f"=== AFTER FIRST CLEANUP DEBUG ===")
+        logger.info(f"After first cleanup length: {len(assistant_response)}")
+        logger.info(f"After first cleanup: {repr(assistant_response)}")
         if not enable_thinking:
             assistant_response = re.sub(r'<think>.*?</think>', '', assistant_response, flags=re.DOTALL)
+            # Debug: Print after thinking cleanup
+            logger.info(f"=== AFTER THINKING CLEANUP DEBUG ===")
+            logger.info(f"After thinking cleanup length: {len(assistant_response)}")
+            logger.info(f"After thinking cleanup: {repr(assistant_response)}")
+        # Debug: Print before tool call handling
+        logger.info(f"=== BEFORE TOOL CALL HANDLING DEBUG ===")
+        logger.info(f"Before tool call handling length: {len(assistant_response)}")
+        logger.info(f"Before tool call handling: {repr(assistant_response)}")
         # Handle tool calls if present
         if parsed_tools and ("<tool_call>" in assistant_response or "<code>" in assistant_response):
                     code_call = code_match.group(1)
                     assistant_response += f"\n\n🐍 Python Tool Call: {code_call}\n\nNote: This is a simulated Python tool call. In a real scenario, the function would be executed and its output would be used to generate a final response."
+        # Debug: Print after tool call handling
+        logger.info(f"=== AFTER TOOL CALL HANDLING DEBUG ===")
+        logger.info(f"After tool call handling length: {len(assistant_response)}")
+        logger.info(f"After tool call handling: {repr(assistant_response)}")
         assistant_response = assistant_response.strip()
+        # Debug: Print final response
+        logger.info(f"=== FINAL RESPONSE DEBUG ===")
+        logger.info(f"Final response length: {len(assistant_response)}")
+        logger.info(f"Final response: {repr(assistant_response)}")
+        logger.info(f"=== END DEBUG ===")
         return assistant_response
 def user(user_message, history):
                 max_length = gr.Slider(
                     label="📏 Longueur de la réponse",
                     minimum=10,
+                    maximum=9000,   # maximum=32768,
+                    value=1256,
                     step=1
                 )
                 temperature = gr.Slider(