Spaces:

MarcosFRGames
/

TeleChars-AI-API

Running

App Files Files

MarcosFRGames commited on Dec 2, 2025

Commit

f5bb8ea

verified ·

1 Parent(s): 2d16631

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -15

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import requests
 import tempfile
 import json
 from concurrent.futures import ThreadPoolExecutor
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
@@ -22,7 +23,7 @@ class LLMManager:
         self.models = {}
         self.models_config = models_config
         self.executor = ThreadPoolExecutor(max_workers=2)
-        self.generation_lock = theading.Lock()
         self.load_all_models()
     def load_all_models(self):
@@ -42,7 +43,7 @@ class LLMManager:
                 llm_instance = Llama(
                     model_path=temp_path,
                     n_ctx=MAX_CONTEXT_TOKENS,
-                    n_batch=128,
                     n_threads=2,
                     n_threads_batch=2,
                     use_mlock=True,
@@ -106,26 +107,35 @@ class LLMManager:
                 if model_data and "error" in model_data:
                     error_msg += f": {model_data['error']}"
                 return {"error": error_msg}
-            response = model_data["instance"].create_chat_completion(
-                messages=messages,
-                **kwargs
-            )
             response["provider"] = "telechars-ai"
             response["model"] = model_name
             return response
         finally:
-            # Siempre liberar el lock
             self.generation_lock.release()
-        def get_loaded_models(self):
-            """Obtener lista de modelos cargados"""
-            loaded = []
-            for name, data in self.models.items():
-                if data["loaded"]:
-                    loaded.append(name)
-            return loaded
     def get_all_models_status(self):
         """Obtener estado de todos los modelos"""

 import tempfile
 import json
 from concurrent.futures import ThreadPoolExecutor
+import signal
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
         self.models = {}
         self.models_config = models_config
         self.executor = ThreadPoolExecutor(max_workers=2)
+        self.generation_lock = threading.Lock()
         self.load_all_models()
     def load_all_models(self):
                 llm_instance = Llama(
                     model_path=temp_path,
                     n_ctx=MAX_CONTEXT_TOKENS,
+                    n_batch=96,
                     n_threads=2,
                     n_threads_batch=2,
                     use_mlock=True,
                 if model_data and "error" in model_data:
                     error_msg += f": {model_data['error']}"
                 return {"error": error_msg}
+            def timeout_handler(signum, frame):
+                raise TimeoutError("Timeout en generación (120 segundos)")
+            signal.signal(signal.SIGALRM, timeout_handler)
+            signal.alarm(120)
+            try:
+                response = model_data["instance"].create_chat_completion(
+                    messages=messages,
+                    **kwargs
+                )
+            finally:
+                signal.alarm(0)
             response["provider"] = "telechars-ai"
             response["model"] = model_name
             return response
         finally:
             self.generation_lock.release()
+    def get_loaded_models(self):
+        """Obtener lista de modelos cargados"""
+        loaded = []
+        for name, data in self.models.items():
+            if data["loaded"]:
+                loaded.append(name)
+        return loaded
     def get_all_models_status(self):
         """Obtener estado de todos los modelos"""