Spaces:

Yatro
/

Ectus-R_Code_Generation-Demo

Sleeping

AION Protocol Development commited on Oct 5, 2025

Commit

67cec83

1 Parent(s): b883a41

fix: Gemma 2 9B max_tokens limit (8192, not 32000)

- Changed Groq provider to use min(8192, context_window)
- Gemma 2 9B: context_window=8192 → max_tokens=8192
- Llama models: context_window=128K+ → max_tokens=8192 (capped)
- Updated comments for clarity
- Fixes error: 'max_tokens must be less than or equal to 8192'

Files changed (1) hide show

app.py +2 -2

app.py CHANGED Viewed

@@ -179,7 +179,7 @@ def generate_code_with_model(prompt: str, model_name: str, temperature: float =
                     {"role": "user", "content": prompt}
                 ],
                 temperature=temperature,
-                max_tokens=32000  # Groq limit (kept at 32K)
             )
             generated_code = response.choices[0].message.content
             input_tokens = response.usage.prompt_tokens
@@ -191,7 +191,7 @@ def generate_code_with_model(prompt: str, model_name: str, temperature: float =
             model = genai.GenerativeModel(config["model"])
             response = model.generate_content(
                 f"{SYSTEM_PROMPT}\n\nUser request: {prompt}",
-                generation_config={"temperature": temperature, "max_output_tokens": 32000}  # Gemini 2.0 Flash supports up to 8K (65536 is max for SDK)
             )
             generated_code = response.text
             input_tokens = response.usage_metadata.prompt_token_count

                     {"role": "user", "content": prompt}
                 ],
                 temperature=temperature,
+                max_tokens=min(8192, config.get("context_window", 8192))  # Use model-specific limit (Gemma2=8192, Llama=32K)
             )
             generated_code = response.choices[0].message.content
             input_tokens = response.usage.prompt_tokens
             model = genai.GenerativeModel(config["model"])
             response = model.generate_content(
                 f"{SYSTEM_PROMPT}\n\nUser request: {prompt}",
+                generation_config={"temperature": temperature, "max_output_tokens": 32000}  # Gemini 2.0 Flash: 1M context, using 32K for demo
             )
             generated_code = response.text
             input_tokens = response.usage_metadata.prompt_token_count