Spaces:

BinKhoaLe1812
/

EdSummariser

Sleeping

App Files Files Community

LiamKhoaLe commited on Sep 27

Commit

7a1ebee

1 Parent(s): a72fec7

Upd NVIDIA ana

Browse files

Files changed (12) hide show

helpers/coder.py +3 -3
helpers/diagram.py +3 -1
legacy.py +1 -1
memo/consolidation.py +15 -0
memo/nvidia.py +16 -1
memo/plan/execution.py +15 -0
memo/plan/intent.py +15 -0
memo/retrieval.py +45 -0
routes/reports.py +1 -1
utils/api/router.py +2 -2
utils/service/pdf.py +2 -1
utils/service/summarizer.py +6 -5

helpers/coder.py CHANGED Viewed

@@ -97,7 +97,7 @@ async def generate_code_artifacts(
             if tracker and user_id:
                 await tracker.track_model_usage(
                     user_id=user_id,
-                    model_name="nvidia_large",
                     provider="nvidia_large",
                     context="code_analysis",
                     metadata={"subsection_id": subsection_id}
@@ -157,7 +157,7 @@ async def generate_code_artifacts(
         if tracker and user_id:
             await tracker.track_model_usage(
                 user_id=user_id,
-                model_name=NVIDIA_CODER,
                 provider="nvidia_coder",
                 context="report_coding",
                 metadata={"subsection_id": subsection_id}
@@ -190,7 +190,7 @@ async def nvidia_coder_completion(system_prompt: str, user_prompt: str, nvidia_r
         if tracker and user_id:
             await tracker.track_model_usage(
                 user_id=user_id,
-                model_name="nvidia/coder-8b",
                 provider="nvidia_coder",
                 context=context or "nvidia_coder_completion",
                 metadata={"system_prompt_length": len(system_prompt), "user_prompt_length": len(user_prompt)}

             if tracker and user_id:
                 await tracker.track_model_usage(
                     user_id=user_id,
+                    model_name=os.getenv("NVIDIA_LARGE", "openai/gpt-oss-120b"),
                     provider="nvidia_large",
                     context="code_analysis",
                     metadata={"subsection_id": subsection_id}
         if tracker and user_id:
             await tracker.track_model_usage(
                 user_id=user_id,
+                model_name=os.getenv("NVIDIA_CODER", "qwen/qwen3-coder-480b-a35b-instruct"),
                 provider="nvidia_coder",
                 context="report_coding",
                 metadata={"subsection_id": subsection_id}
         if tracker and user_id:
             await tracker.track_model_usage(
                 user_id=user_id,
+                model_name=os.getenv("NVIDIA_CODER", "qwen/qwen3-coder-480b-a35b-instruct"),
                 provider="nvidia_coder",
                 context=context or "nvidia_coder_completion",
                 metadata={"system_prompt_length": len(system_prompt), "user_prompt_length": len(user_prompt)}

helpers/diagram.py CHANGED Viewed

@@ -187,7 +187,9 @@ Please provide the corrected Mermaid code that will render successfully."""
         # Use NVIDIA_LARGE for better error correction
         selection = {"provider": "nvidia_large", "model": os.getenv("NVIDIA_LARGE", "openai/gpt-oss-120b")}
-        response = await generate_answer_with_model(selection, sys_prompt, user_prompt, None, None, user_id, "diagram_fix")
         if response:
             # Clean up the response

         # Use NVIDIA_LARGE for better error correction
         selection = {"provider": "nvidia_large", "model": os.getenv("NVIDIA_LARGE", "openai/gpt-oss-120b")}
+        # Import rotators from setup
+        from helpers.setup import gemini_rotator, nvidia_rotator
+        response = await generate_answer_with_model(selection, sys_prompt, user_prompt, gemini_rotator, nvidia_rotator, user_id, "diagram_fix")
         if response:
             # Clean up the response

legacy.py CHANGED Viewed

@@ -791,7 +791,7 @@ Return only the variations, one per line, no numbering or extra text."""
         from utils.api.router import generate_answer_with_model
         selection = {"provider": "nvidia", "model": os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct")}
-        response = await generate_answer_with_model(selection, sys_prompt, user_prompt, None, nvidia_rotator, user_id="system", context="legacy_analysis")
         # Parse variations
         variations = [line.strip() for line in response.split('\n') if line.strip()]

         from utils.api.router import generate_answer_with_model
         selection = {"provider": "nvidia", "model": os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct")}
+        response = await generate_answer_with_model(selection, sys_prompt, user_prompt, gemini_rotator, nvidia_rotator, user_id="system", context="legacy_analysis")
         # Parse variations
         variations = [line.strip() for line in response.split('\n') if line.strip()]

memo/consolidation.py CHANGED Viewed

@@ -217,6 +217,21 @@ Create a single consolidated memory:"""
                             metadata={"count": len(contents)}
                         )
                     # Use Qwen for better memory consolidation reasoning
                     from utils.api.router import qwen_chat_completion
                     consolidated_content = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "memory_consolidation")

                             metadata={"count": len(contents)}
                         )
+                    # Track memo agent usage
+                    try:
+                        from utils.analytics import get_analytics_tracker
+                        tracker = get_analytics_tracker()
+                        if tracker:
+                            await tracker.track_agent_usage(
+                                user_id=user_id,
+                                agent_name="memo",
+                                action="consolidate",
+                                context="memory_consolidation",
+                                metadata={"memories_count": len(memories)}
+                            )
+                    except Exception:
+                        pass
                     # Use Qwen for better memory consolidation reasoning
                     from utils.api.router import qwen_chat_completion
                     consolidated_content = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "memory_consolidation")

memo/nvidia.py CHANGED Viewed

@@ -29,7 +29,7 @@ async def nvidia_chat(system_prompt: str, user_prompt: str, nvidia_key: str, rot
         if tracker:
             await tracker.track_model_usage(
                 user_id=user_id,
-                model_name=NVIDIA_SMALL,
                 provider="nvidia",
                 context=context,
                 metadata={"system_prompt_length": len(system_prompt), "user_prompt_length": len(user_prompt)}
@@ -59,6 +59,21 @@ async def qwen_chat(system_prompt: str, user_prompt: str, rotator, user_id: str
     """
     Qwen chat call for medium complexity tasks with thinking mode.
     """
     try:
         return await qwen_chat_completion(system_prompt, user_prompt, rotator, user_id, "memo_qwen_chat")
     except Exception as e:

         if tracker:
             await tracker.track_model_usage(
                 user_id=user_id,
+                model_name=os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct"),
                 provider="nvidia",
                 context=context,
                 metadata={"system_prompt_length": len(system_prompt), "user_prompt_length": len(user_prompt)}
     """
     Qwen chat call for medium complexity tasks with thinking mode.
     """
+    # Track memo agent usage
+    try:
+        from utils.analytics import get_analytics_tracker
+        tracker = get_analytics_tracker()
+        if tracker:
+            await tracker.track_agent_usage(
+                user_id=user_id,
+                agent_name="memo",
+                action="chat",
+                context="memo_qwen_chat",
+                metadata={"query": user_prompt[:100]}
+            )
+    except Exception:
+        pass
     try:
         return await qwen_chat_completion(system_prompt, user_prompt, rotator, user_id, "memo_qwen_chat")
     except Exception as e:

memo/plan/execution.py CHANGED Viewed

@@ -388,6 +388,21 @@ Select the most relevant Q&A memories:"""
                     metadata={"question": question[:100], "memories_count": len(memories)}
                 )
             # Use Qwen for better memory selection reasoning
             from utils.api.router import qwen_chat_completion
             response = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "memory_selection")

                     metadata={"question": question[:100], "memories_count": len(memories)}
                 )
+            # Track memo agent usage
+            try:
+                from utils.analytics import get_analytics_tracker
+                tracker = get_analytics_tracker()
+                if tracker:
+                    await tracker.track_agent_usage(
+                        user_id=user_id,
+                        agent_name="memo",
+                        action="select",
+                        context="memory_selection",
+                        metadata={"query": query}
+                    )
+            except Exception:
+                pass
             # Use Qwen for better memory selection reasoning
             from utils.api.router import qwen_chat_completion
             response = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "memory_selection")

memo/plan/intent.py CHANGED Viewed

@@ -148,6 +148,21 @@ Respond with only the intent name (e.g., "ENHANCEMENT")."""
                     metadata={"question": question[:100]}
                 )
             # Use Qwen for better intent detection reasoning
             from utils.api.router import qwen_chat_completion
             response = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "intent_detection")

                     metadata={"question": question[:100]}
                 )
+            # Track memo agent usage
+            try:
+                from utils.analytics import get_analytics_tracker
+                tracker = get_analytics_tracker()
+                if tracker:
+                    await tracker.track_agent_usage(
+                        user_id=user_id,
+                        agent_name="memo",
+                        action="intent",
+                        context="intent_detection",
+                        metadata={"query": query}
+                    )
+            except Exception:
+                pass
             # Use Qwen for better intent detection reasoning
             from utils.api.router import qwen_chat_completion
             response = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "intent_detection")

memo/retrieval.py CHANGED Viewed

@@ -259,6 +259,21 @@ Should this question be enhanced with context?"""
                     metadata={"question": question[:100]}
                 )
             # Use Qwen for better context enhancement reasoning
             from utils.api.router import qwen_chat_completion
             response = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "enhancement_decision")
@@ -343,6 +358,21 @@ Create an enhanced version that incorporates this context naturally."""
                     metadata={"question": question[:100]}
                 )
             # Use Qwen for better question enhancement reasoning
             from utils.api.router import qwen_chat_completion
             enhanced_question = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "question_enhancement")
@@ -420,6 +450,21 @@ Create an enhanced version that incorporates this context naturally."""
                     metadata={"instructions": instructions[:100]}
                 )
             # Use Qwen for better instruction enhancement reasoning
             from utils.api.router import qwen_chat_completion
             enhanced_instructions = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "instruction_enhancement")

                     metadata={"question": question[:100]}
                 )
+            # Track memo agent usage
+            try:
+                from utils.analytics import get_analytics_tracker
+                tracker = get_analytics_tracker()
+                if tracker:
+                    await tracker.track_agent_usage(
+                        user_id=user_id,
+                        agent_name="memo",
+                        action="enhance",
+                        context="enhancement_decision",
+                        metadata={"query": query}
+                    )
+            except Exception:
+                pass
             # Use Qwen for better context enhancement reasoning
             from utils.api.router import qwen_chat_completion
             response = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "enhancement_decision")
                     metadata={"question": question[:100]}
                 )
+            # Track memo agent usage
+            try:
+                from utils.analytics import get_analytics_tracker
+                tracker = get_analytics_tracker()
+                if tracker:
+                    await tracker.track_agent_usage(
+                        user_id=user_id,
+                        agent_name="memo",
+                        action="enhance",
+                        context="question_enhancement",
+                        metadata={"query": question}
+                    )
+            except Exception:
+                pass
             # Use Qwen for better question enhancement reasoning
             from utils.api.router import qwen_chat_completion
             enhanced_question = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "question_enhancement")
                     metadata={"instructions": instructions[:100]}
                 )
+            # Track memo agent usage
+            try:
+                from utils.analytics import get_analytics_tracker
+                tracker = get_analytics_tracker()
+                if tracker:
+                    await tracker.track_agent_usage(
+                        user_id=user_id,
+                        agent_name="memo",
+                        action="enhance",
+                        context="instruction_enhancement",
+                        metadata={"instructions": instructions}
+                    )
+            except Exception:
+                pass
             # Use Qwen for better instruction enhancement reasoning
             from utils.api.router import qwen_chat_completion
             enhanced_instructions = await qwen_chat_completion(sys_prompt, user_prompt, nvidia_rotator, user_id, "instruction_enhancement")

routes/reports.py CHANGED Viewed

@@ -1272,7 +1272,7 @@ Return the renumbered headings in the format: "level: new_number: heading_text"
         # Use NVIDIA model for heading re-numbering
         selection = {"provider": "nvidia", "model": os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct")}
-        response = await generate_answer_with_model(selection, sys_prompt, user_prompt, None, nvidia_rotator, user_id, "report_heading_fix")
         # Parse the AI response
         renumbered_headings = []

         # Use NVIDIA model for heading re-numbering
         selection = {"provider": "nvidia", "model": os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct")}
+        response = await generate_answer_with_model(selection, sys_prompt, user_prompt, gemini_rotator, nvidia_rotator, user_id, "report_heading_fix")
         # Parse the AI response
         renumbered_headings = []

utils/api/router.py CHANGED Viewed

@@ -228,7 +228,7 @@ async def qwen_chat_completion(system_prompt: str, user_prompt: str, nvidia_rota
         if tracker and user_id:
             await tracker.track_model_usage(
                 user_id=user_id,
-                model_name="meta/llama-3.1-8b-instruct",
                 provider="nvidia",
                 context=context or "qwen_completion",
                 metadata={"system_prompt_length": len(system_prompt), "user_prompt_length": len(user_prompt)}
@@ -320,7 +320,7 @@ async def nvidia_large_chat_completion(system_prompt: str, user_prompt: str, nvi
         if tracker and user_id:
             await tracker.track_model_usage(
                 user_id=user_id,
-                model_name="openai/gpt-oss-120b",
                 provider="nvidia_large",
                 context=context or "nvidia_large_completion",
                 metadata={"system_prompt_length": len(system_prompt), "user_prompt_length": len(user_prompt)}

         if tracker and user_id:
             await tracker.track_model_usage(
                 user_id=user_id,
+                model_name=os.getenv("NVIDIA_MEDIUM", "qwen/qwen3-next-80b-a3b-thinking"),
                 provider="nvidia",
                 context=context or "qwen_completion",
                 metadata={"system_prompt_length": len(system_prompt), "user_prompt_length": len(user_prompt)}
         if tracker and user_id:
             await tracker.track_model_usage(
                 user_id=user_id,
+                model_name=os.getenv("NVIDIA_LARGE", "openai/gpt-oss-120b"),
                 provider="nvidia_large",
                 context=context or "nvidia_large_completion",
                 metadata={"system_prompt_length": len(system_prompt), "user_prompt_length": len(user_prompt)}

utils/service/pdf.py CHANGED Viewed

@@ -9,6 +9,7 @@ from datetime import datetime
 from typing import List, Dict
 from fastapi import HTTPException
 from utils.logger import get_logger
 logger = get_logger("PDF", __name__)
@@ -691,7 +692,7 @@ Return only the formatted references, one per line, numbered sequentially."""
         user_prompt = f"Format these sources in IEEE style:\n\n{source_data}"
         selection = {"provider": "nvidia", "model": os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct")}
-        response = await generate_answer_with_model(selection, sys_prompt, user_prompt, None, nvidia_rotator, user_id="system", context="pdf_citation")
         # Parse the response into individual references
         references = [line.strip() for line in response.split('\n') if line.strip() and line.strip().startswith('[')]

 from typing import List, Dict
 from fastapi import HTTPException
 from utils.logger import get_logger
+from helpers.setup import gemini_rotator, nvidia_rotator
 logger = get_logger("PDF", __name__)
         user_prompt = f"Format these sources in IEEE style:\n\n{source_data}"
         selection = {"provider": "nvidia", "model": os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct")}
+        response = await generate_answer_with_model(selection, sys_prompt, user_prompt, gemini_rotator, nvidia_rotator, user_id="system", context="pdf_citation")
         # Parse the response into individual references
         references = [line.strip() for line in response.split('\n') if line.strip() and line.strip().startswith('[')]

utils/service/summarizer.py CHANGED Viewed

@@ -4,11 +4,12 @@ from typing import List
 from utils.logger import get_logger
 from utils.api.rotator import robust_post_json, APIKeyRotator
 from utils.api.router import qwen_chat_completion, nvidia_large_chat_completion
 logger = get_logger("SUM", __name__)
-# Create a module-level NVIDIA API key rotator (uses NVIDIA_API_1..N)
-ROTATOR = APIKeyRotator(prefix="NVIDIA_API_", max_slots=5)
 async def llama_chat(messages, temperature: float = 0.2, user_id: str = "system", context: str = "llama_chat") -> str:
@@ -85,7 +86,7 @@ async def nvidia_large_summarize(text: str, max_sentences: int = 3) -> str:
         if tracker:
             await tracker.track_model_usage(
                 user_id="system",
-                model_name="openai/gpt-oss-120b",
                 provider="nvidia_large",
                 context="summarization",
                 metadata={"text_length": len(text)}
@@ -156,7 +157,7 @@ async def clean_chunk_text(text: str) -> str:
         if tracker:
             await tracker.track_model_usage(
                 user_id="system",
-                model_name="meta/llama-3.1-8b-instruct",
                 provider="nvidia",
                 context="content_cleaning",
                 metadata={"text_length": len(text)}
@@ -187,7 +188,7 @@ async def qwen_summarize(text: str, max_sentences: int = 3) -> str:
         if tracker:
             await tracker.track_model_usage(
                 user_id="system",
-                model_name="meta/llama-3.1-8b-instruct",
                 provider="nvidia",
                 context="qwen_summarization",
                 metadata={"text_length": len(text)}

 from utils.logger import get_logger
 from utils.api.rotator import robust_post_json, APIKeyRotator
 from utils.api.router import qwen_chat_completion, nvidia_large_chat_completion
+from helpers.setup import nvidia_rotator
 logger = get_logger("SUM", __name__)
+# Use the shared NVIDIA API key rotator from helpers.setup
+ROTATOR = nvidia_rotator
 async def llama_chat(messages, temperature: float = 0.2, user_id: str = "system", context: str = "llama_chat") -> str:
         if tracker:
             await tracker.track_model_usage(
                 user_id="system",
+                model_name=os.getenv("NVIDIA_LARGE", "openai/gpt-oss-120b"),
                 provider="nvidia_large",
                 context="summarization",
                 metadata={"text_length": len(text)}
         if tracker:
             await tracker.track_model_usage(
                 user_id="system",
+                model_name=os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct"),
                 provider="nvidia",
                 context="content_cleaning",
                 metadata={"text_length": len(text)}
         if tracker:
             await tracker.track_model_usage(
                 user_id="system",
+                model_name=os.getenv("NVIDIA_SMALL", "meta/llama-3.1-8b-instruct"),
                 provider="nvidia",
                 context="qwen_summarization",
                 metadata={"text_length": len(text)}