Spaces:

ka1kuk
/

LLM-api

Running

ka1kuk commited on Mar 16, 2024

Commit

62f3d3a

verified ·

1 Parent(s): 565d26c

Update apis/chat_api.py

Files changed (1) hide show

apis/chat_api.py CHANGED Viewed

@@ -187,7 +187,7 @@ class ChatAPIApp:
             data_response = streamer.chat_return_dict(stream_response)
             return data_response
-    async def chat_embedding(self, input, model_name, api_key):
         api_url = f"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_name}"
         headers = {"Authorization": f"Bearer {api_key}"}
         response = requests.post(api_url, headers=headers, json={"inputs": input})
@@ -206,7 +206,7 @@ class ChatAPIApp:
             try:
                 for attempt in range(3):  # Retry logic
                     try:
-                        embeddings = await self.chat_embedding(request.input, request.model, request.api_key)
                         data = [
                             {"object": "embedding", "index": i, "embedding": embedding}
                             for i, embedding in enumerate(embeddings)
@@ -214,7 +214,7 @@ class ChatAPIApp:
                         return {
                             "object": "list",
                             "data": data,
-                            "model": request.model_name,
                             "usage": {"prompt_tokens": len(request.input), "total_tokens": len(request.input)}
                         }
                     except RuntimeError as e:

             data_response = streamer.chat_return_dict(stream_response)
             return data_response
+    async def chat_embedding(self, input, model_name, api_key: str = Depends(extract_api_key)):
         api_url = f"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_name}"
         headers = {"Authorization": f"Bearer {api_key}"}
         response = requests.post(api_url, headers=headers, json={"inputs": input})
             try:
                 for attempt in range(3):  # Retry logic
                     try:
+                        embeddings = await self.chat_embedding(request.input, request.model, api_key)
                         data = [
                             {"object": "embedding", "index": i, "embedding": embedding}
                             for i, embedding in enumerate(embeddings)
                         return {
                             "object": "list",
                             "data": data,
+                            "model": request.model,
                             "usage": {"prompt_tokens": len(request.input), "total_tokens": len(request.input)}
                         }
                     except RuntimeError as e: