Spaces:

algorithmicsuperintelligence
/

prompt-optimizer

Running

App Files Files Community

codelion commited on about 1 month ago

Commit

7308434

verified ·

1 Parent(s): f5714df

Upload app.py

Browse files

Files changed (1) hide show

app.py +24 -20

app.py CHANGED Viewed

@@ -511,11 +511,11 @@ def parse_evolution_history(output_dir: str) -> str:
         # If no specific files found, show directory contents
         if not generation_files and not os.path.exists(log_file) and not os.path.exists(scores_file):
             evolution_viz += "### Evolution Complete\n\n"
-            evolution_viz += "OpenEvolve ran 10 iterations of evolutionary optimization using:\n"
             evolution_viz += "- **Population Size**: 10 prompts per generation\n"
             evolution_viz += "- **Selection Strategy**: 10% elite, 30% explore, 60% exploit\n"
             evolution_viz += "- **Islands**: 1 population with mutation and crossover\n"
-            evolution_viz += "- **Evaluation**: 100 samples per prompt variant\n\n"
             # Count files in output directory
             all_files = os.listdir(output_dir)
@@ -538,10 +538,10 @@ from openai import OpenAI
 def evaluate(prompt: str) -> dict:
     """
-    Evaluate a prompt using 200 fixed samples (same as initial/final eval).
     This ensures evolution optimizes for the SAME test set we measure on.
-    No staging - always evaluates all 200 samples for consistency.
     """
     try:
         # IMPORTANT: Use fixed seed for consistent sampling across all evaluations
@@ -559,8 +559,8 @@ def evaluate(prompt: str) -> dict:
             else:
                 raise
-        # Sample 200 samples with seed 42 (SAME as initial/final eval)
-        num_samples = 200
         if len(dataset) > num_samples:
             # Use SAME sampling logic as initial/final eval
             indices = random.sample(range(len(dataset)), num_samples)
@@ -765,8 +765,8 @@ Your improved prompt here
             "api_base": "https://openrouter.ai/api/v1",  # Use OpenRouter endpoint
             "temperature": 0.7,
         },
-        "max_iterations": 10,
-        "checkpoint_interval": 2,  # Save checkpoints every 2 iterations to preserve prompt history
         "diff_based_evolution": False,  # Use full rewrite mode for prompts (not diff/patch mode)
         "language": "text",  # CRITICAL: Optimize text/prompts, not Python code!
         "max_code_length": 40000,  # Allow long prompts (default 10000 is too short)
@@ -835,11 +835,11 @@ def optimize_prompt(initial_prompt: str, dataset_name: str, dataset_split: str,
         progress(0.15, desc="Creating configuration...")
         config_path = create_config_file(model, work_dir)
-        # Run initial evaluation with 200 samples
         # IMPORTANT: We save the indices to ensure final eval uses THE SAME samples
-        progress(0.2, desc="Running initial evaluation on 200 samples...")
         initial_eval = evaluate_prompt(
-            initial_prompt, dataset_name, dataset_split, 200,
             model, input_field, target_field
         )
@@ -873,7 +873,7 @@ def optimize_prompt(initial_prompt: str, dataset_name: str, dataset_split: str,
             initial_results += f"   ✓ Correct\n" if result['correct'] else f"   ✗ Incorrect\n"
         # Run OpenEvolve
-        progress(0.3, desc="Starting OpenEvolve optimization (10 iterations with staged evaluation)...")
         output_dir = os.path.join(work_dir, "output")
         os.makedirs(output_dir, exist_ok=True)
@@ -934,12 +934,12 @@ def optimize_prompt(initial_prompt: str, dataset_name: str, dataset_split: str,
                 else:
                     best_prompt = initial_prompt
-            # Final evaluation: Use same 200 samples as initial eval for fair comparison
-            progress(0.85, desc="Evaluating best prompt on 200 samples (same as initial)...")
             final_eval = evaluate_prompt(
-                best_prompt, dataset_name, dataset_split, 200,
                 model, input_field, target_field,
-                fixed_indices=eval_indices  # Use same 200 samples as initial eval!
             )
             progress(0.95, desc=f"Evaluation complete: {final_eval['correct']}/{final_eval['total']} = {final_eval['accuracy']:.1f}%")
@@ -952,6 +952,10 @@ def optimize_prompt(initial_prompt: str, dataset_name: str, dataset_split: str,
 {best_prompt}
 ```
 **Results:**
 - Accuracy: {final_eval['accuracy']:.2f}%
 - Correct: {final_eval['correct']}/{final_eval['total']}
@@ -971,10 +975,10 @@ def optimize_prompt(initial_prompt: str, dataset_name: str, dataset_split: str,
 ### Summary
 - **Dataset**: {dataset_name} ({dataset_split} split)
 - **Model**: {model}
-- **Initial Eval**: 200 samples
-- **Final Eval**: 200 samples (same samples for fair comparison)
-- **Evolution**: 200 samples per variant (same samples as initial/final)
-- **Iterations**: 10
 ### Results
 - **Initial Accuracy**: {initial_eval['accuracy']:.2f}% ({initial_eval['correct']}/{initial_eval['total']})

         # If no specific files found, show directory contents
         if not generation_files and not os.path.exists(log_file) and not os.path.exists(scores_file):
             evolution_viz += "### Evolution Complete\n\n"
+            evolution_viz += "OpenEvolve ran 5 iterations of evolutionary optimization using:\n"
             evolution_viz += "- **Population Size**: 10 prompts per generation\n"
             evolution_viz += "- **Selection Strategy**: 10% elite, 30% explore, 60% exploit\n"
             evolution_viz += "- **Islands**: 1 population with mutation and crossover\n"
+            evolution_viz += "- **Evaluation**: 50 samples per prompt variant\n\n"
             # Count files in output directory
             all_files = os.listdir(output_dir)
 def evaluate(prompt: str) -> dict:
     """
+    Evaluate a prompt using 50 fixed samples (same as initial/final eval).
     This ensures evolution optimizes for the SAME test set we measure on.
+    No staging - always evaluates all 50 samples for consistency.
     """
     try:
         # IMPORTANT: Use fixed seed for consistent sampling across all evaluations
             else:
                 raise
+        # Sample 50 samples with seed 42 (SAME as initial/final eval)
+        num_samples = 50
         if len(dataset) > num_samples:
             # Use SAME sampling logic as initial/final eval
             indices = random.sample(range(len(dataset)), num_samples)
             "api_base": "https://openrouter.ai/api/v1",  # Use OpenRouter endpoint
             "temperature": 0.7,
         },
+        "max_iterations": 5,
+        "checkpoint_interval": 1,  # Save checkpoints every iteration to preserve prompt history
         "diff_based_evolution": False,  # Use full rewrite mode for prompts (not diff/patch mode)
         "language": "text",  # CRITICAL: Optimize text/prompts, not Python code!
         "max_code_length": 40000,  # Allow long prompts (default 10000 is too short)
         progress(0.15, desc="Creating configuration...")
         config_path = create_config_file(model, work_dir)
+        # Run initial evaluation with 50 samples
         # IMPORTANT: We save the indices to ensure final eval uses THE SAME samples
+        progress(0.2, desc="Running initial evaluation on 50 samples...")
         initial_eval = evaluate_prompt(
+            initial_prompt, dataset_name, dataset_split, 50,
             model, input_field, target_field
         )
             initial_results += f"   ✓ Correct\n" if result['correct'] else f"   ✗ Incorrect\n"
         # Run OpenEvolve
+        progress(0.3, desc="Starting OpenEvolve optimization (5 iterations)...")
         output_dir = os.path.join(work_dir, "output")
         os.makedirs(output_dir, exist_ok=True)
                 else:
                     best_prompt = initial_prompt
+            # Final evaluation: Use same 50 samples as initial eval for fair comparison
+            progress(0.85, desc="Evaluating best prompt on 50 samples (same as initial)...")
             final_eval = evaluate_prompt(
+                best_prompt, dataset_name, dataset_split, 50,
                 model, input_field, target_field,
+                fixed_indices=eval_indices  # Use same 50 samples as initial eval!
             )
             progress(0.95, desc=f"Evaluation complete: {final_eval['correct']}/{final_eval['total']} = {final_eval['accuracy']:.1f}%")
 {best_prompt}
 ```
+**Validation:**
+- Contains {{input}} placeholder: {'✓ Yes' if '{input}' in best_prompt else '❌ NO - This will break evaluation!'}
+- Prompt length: {len(best_prompt)} characters
 **Results:**
 - Accuracy: {final_eval['accuracy']:.2f}%
 - Correct: {final_eval['correct']}/{final_eval['total']}
 ### Summary
 - **Dataset**: {dataset_name} ({dataset_split} split)
 - **Model**: {model}
+- **Initial Eval**: 50 samples
+- **Final Eval**: 50 samples (same samples for fair comparison)
+- **Evolution**: 50 samples per variant (same samples as initial/final)
+- **Iterations**: 5
 ### Results
 - **Initial Accuracy**: {initial_eval['accuracy']:.2f}% ({initial_eval['correct']}/{initial_eval['total']})