Spaces:

gbrabbit
/

lily_fast_api

Sleeping

App Files Files Community

gbrabbit commited on Aug 8

Commit

159a5fc

1 Parent(s): 060116e

Auto commit at 09-2025-08 6:57:03

Browse files

Files changed (6) hide show

lily_llm_api/app_v2.py +12 -11
lily_llm_api/models/kanana_1_5_v_3b_instruct.py +4 -2
lily_llm_api/models/kanana_1_5_v_3b_instruct_250809_0055.py +3 -1
lily_llm_core/config.py +3 -3
test.py +5 -3
test_hf_private.py +60 -0

lily_llm_api/app_v2.py CHANGED Viewed

@@ -65,6 +65,7 @@ app.add_middleware(
         "http://127.0.0.1:8001",
         "http://localhost:3000",
         "http://127.0.0.1:3000",
         "*"  # 개발 중에는 모든 origin 허용
     ],
     allow_credentials=True,
@@ -485,7 +486,7 @@ async def generate_multimodal(
             return_tensors="pt",
             padding=True,
             truncation=True,
-            max_length=100,
         )
         if 'token_type_ids' in inputs:
@@ -557,10 +558,10 @@ async def generate_multimodal(
                         top_k=40,
                         top_p=top_p,
                         repetition_penalty=1.1,
-                        no_repeat_ngram_size=2,
                         pad_token_id=tokenizer.eos_token_id,
                         eos_token_id=tokenizer.eos_token_id,
-                        use_cache=True
                     )
                     logger.info("✅ 실제 멀티모달 생성 성공!")
@@ -578,9 +579,9 @@ async def generate_multimodal(
                     enhanced_inputs = tokenizer(
                         enhanced_formatted_prompt,
                         return_tensors="pt",
-                        padding=True,
-                        truncation=True,
-                        max_length=256
                     )
                     if 'token_type_ids' in enhanced_inputs:
@@ -597,10 +598,10 @@ async def generate_multimodal(
                         top_k=40,
                         top_p=top_p,
                         repetition_penalty=1.1,
-                        no_repeat_ngram_size=2,
                         pad_token_id=tokenizer.eos_token_id,
                         eos_token_id=tokenizer.eos_token_id,
-                        use_cache=True
                     )
             else:
                 # 텍스트 전용 생성
@@ -613,11 +614,11 @@ async def generate_multimodal(
                     temperature=temperature,
                     top_k=40,
                     top_p=top_p,
-                    repetition_penalty=1.1,
-                    no_repeat_ngram_size=2,
                     pad_token_id=tokenizer.eos_token_id,
                     eos_token_id=tokenizer.eos_token_id,
-                    use_cache=True
                 )
         # 응답 추출

         "http://127.0.0.1:8001",
         "http://localhost:3000",
         "http://127.0.0.1:3000",
+        "https://hearthchat-production.up.railway.app",
         "*"  # 개발 중에는 모든 origin 허용
     ],
     allow_credentials=True,
             return_tensors="pt",
             padding=True,
             truncation=True,
+            max_length=max_length,
         )
         if 'token_type_ids' in inputs:
                         top_k=40,
                         top_p=top_p,
                         repetition_penalty=1.1,
+                        # no_repeat_ngram_size=2,
                         pad_token_id=tokenizer.eos_token_id,
                         eos_token_id=tokenizer.eos_token_id,
+                        # use_cache=True
                     )
                     logger.info("✅ 실제 멀티모달 생성 성공!")
                     enhanced_inputs = tokenizer(
                         enhanced_formatted_prompt,
                         return_tensors="pt",
+                        # padding=True,
+                        # truncation=True,
+                        max_length=max_length
                     )
                     if 'token_type_ids' in enhanced_inputs:
                         top_k=40,
                         top_p=top_p,
                         repetition_penalty=1.1,
+                        # no_repeat_ngram_size=2,
                         pad_token_id=tokenizer.eos_token_id,
                         eos_token_id=tokenizer.eos_token_id,
+                        # use_cache=True
                     )
             else:
                 # 텍스트 전용 생성
                     temperature=temperature,
                     top_k=40,
                     top_p=top_p,
+                    # repetition_penalty=1.1,
+                    # no_repeat_ngram_size=2,
                     pad_token_id=tokenizer.eos_token_id,
                     eos_token_id=tokenizer.eos_token_id,
+                    # use_cache=True
                 )
         # 응답 추출

lily_llm_api/models/kanana_1_5_v_3b_instruct.py CHANGED Viewed

@@ -16,6 +16,8 @@ HF_TOKEN = os.getenv("HF_TOKEN")
 logger = logging.getLogger(__name__)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 class Kanana15V3bInstructProfile:
     """Kanana-1.5-v-3b-instruct 모델 프로필"""
@@ -181,7 +183,7 @@ class Kanana15V3bInstructProfile:
                     token=HF_TOKEN,
                     torch_dtype=torch.float16,
                     trust_remote_code=True,
-                    cache_dir="/app/cache/transformers",
                     # device_map="auto",
                     # low_cpu_mem_usage=True,
                 ).to(DEVICE)
@@ -197,7 +199,7 @@ class Kanana15V3bInstructProfile:
     def get_generation_config(self) -> Dict[str, Any]:
         # 모델 파라미터 최적화 설정, max_new_tokens : 생성되는 텍스트 길이 최대값 (이미지 설명을 위해 증가)
-        return {"max_new_tokens": 256, "temperature": 0.7, "do_sample": True, "top_k": 40, "top_p": 0.9, "repetition_penalty": 1.1}
     def extract_response(self, full_text: str, formatted_prompt: str = None, **kwargs) -> str:
         """

 logger = logging.getLogger(__name__)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+max_new_tokens = 64
 class Kanana15V3bInstructProfile:
     """Kanana-1.5-v-3b-instruct 모델 프로필"""
                     token=HF_TOKEN,
                     torch_dtype=torch.float16,
                     trust_remote_code=True,
+                    # cache_dir="/app/cache/transformers",
                     # device_map="auto",
                     # low_cpu_mem_usage=True,
                 ).to(DEVICE)
     def get_generation_config(self) -> Dict[str, Any]:
         # 모델 파라미터 최적화 설정, max_new_tokens : 생성되는 텍스트 길이 최대값 (이미지 설명을 위해 증가)
+        return {"max_new_tokens": max_new_tokens, "temperature": 0.7, "do_sample": True, "top_k": 40, "top_p": 0.9, "repetition_penalty": 1.1}
     def extract_response(self, full_text: str, formatted_prompt: str = None, **kwargs) -> str:
         """

lily_llm_api/models/kanana_1_5_v_3b_instruct_250809_0055.py CHANGED Viewed

@@ -16,6 +16,8 @@ HF_TOKEN = os.getenv("HF_TOKEN")
 logger = logging.getLogger(__name__)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 class Kanana15V3bInstructProfile:
     """Kanana-1.5-v-3b-instruct 모델 프로필"""
@@ -175,7 +177,7 @@ class Kanana15V3bInstructProfile:
     def get_generation_config(self) -> Dict[str, Any]:
         # 모델 파라미터 최적화 설정, max_new_tokens : 생성되는 텍스트 길이 최대값 (이미지 설명을 위해 증가)
-        return {"max_new_tokens": 256, "temperature": 0.7, "do_sample": True, "top_k": 40, "top_p": 0.9, "repetition_penalty": 1.1}
     def extract_response(self, full_text: str, formatted_prompt: str = None, **kwargs) -> str:
         """

 logger = logging.getLogger(__name__)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+max_new_tokens = 64
 class Kanana15V3bInstructProfile:
     """Kanana-1.5-v-3b-instruct 모델 프로필"""
     def get_generation_config(self) -> Dict[str, Any]:
         # 모델 파라미터 최적화 설정, max_new_tokens : 생성되는 텍스트 길이 최대값 (이미지 설명을 위해 증가)
+        return {"max_new_tokens": max_new_tokens, "temperature": 0.7, "do_sample": True, "top_k": 40, "top_p": 0.9, "repetition_penalty": 1.1}
     def extract_response(self, full_text: str, formatted_prompt: str = None, **kwargs) -> str:
         """

lily_llm_core/config.py CHANGED Viewed

@@ -27,16 +27,16 @@ class DatabaseSettings(BaseSettings):
 class ModelSettings(BaseSettings):
     """모델 설정"""
-    default_model: str = Field(default="polyglot-ko-1.3b-chat", description="기본 모델")
     model_cache_dir: str = Field(default="./models", description="모델 캐시 디렉토리")
     model_download_timeout: int = Field(default=3600, description="모델 다운로드 타임아웃 (초)")
     model_max_memory: str = Field(default="4GB", description="모델 최대 메모리 사용량")
     model_device: str = Field(default="auto", description="모델 실행 디바이스 (auto/cpu/cuda)")
     model_precision: str = Field(default="float16", description="모델 정밀도 (float16/float32/bfloat16)")
-    # 모델별 설정
     polyglot_ko_1_3b_chat_model_path: str = Field(default="./models/polyglot-ko-1.3b-chat", description="Polyglot 1.3b 모델 경로")
-    kanana_1_5_v_3b_instruct_model_path: str = Field(default="./models/kanana_1_5_v_3b_instruct", description="Kanana 1.5 v 3b 모델 경로")
     polyglot_ko_5_8b_chat_model_path: str = Field(default="./models/polyglot-ko-5.8b-chat", description="Polyglot 5.8b 모델 경로")
     class Config:

 class ModelSettings(BaseSettings):
     """모델 설정"""
+    default_model: str = Field(default="kanana-1.5-v-3b-instruct", description="기본 모델")
     model_cache_dir: str = Field(default="./models", description="모델 캐시 디렉토리")
     model_download_timeout: int = Field(default=3600, description="모델 다운로드 타임아웃 (초)")
     model_max_memory: str = Field(default="4GB", description="모델 최대 메모리 사용량")
     model_device: str = Field(default="auto", description="모델 실행 디바이스 (auto/cpu/cuda)")
     model_precision: str = Field(default="float16", description="모델 정밀도 (float16/float32/bfloat16)")
+    # 모델별 설정
+    kanana_1_5_v_3b_instruct_model_path: str = Field(default="./models/kanana_1_5_v_3b_instruct", description="Kanana 1.5 v 3b 모델 경로")
     polyglot_ko_1_3b_chat_model_path: str = Field(default="./models/polyglot-ko-1.3b-chat", description="Polyglot 1.3b 모델 경로")
     polyglot_ko_5_8b_chat_model_path: str = Field(default="./models/polyglot-ko-5.8b-chat", description="Polyglot 5.8b 모델 경로")
     class Config:

test.py CHANGED Viewed

@@ -1,11 +1,13 @@
 import requests
 import json
 import os # os 모듈 추가
 # 1. 환경 변수에서 허깅페이스 토큰을 가져옵니다.
 #    터미널에서 `set HUGGING_FACE_TOKEN=hf_...` (Windows) 또는
 #    `export HUGGING_FACE_TOKEN=hf_...` (Mac/Linux) 명령으로 미리 설정합니다.
-HF_TOKEN = os.getenv("HUGGING_FACE_TOKEN")
 # 허깅페이스 FastAPI 서버 URL
 HF_API_BASE = "https://gbrabbit-lily-fast-api.hf.space"
@@ -26,7 +28,7 @@ def test_generate_text():
         data = {
             'prompt': '안녕하세요! Private 스페이스에서 잘 지내시나요?',
-            'max_length': 128
         }
         print(f"📤 요청 데이터 (Form): {json.dumps(data, ensure_ascii=False)}")
@@ -36,7 +38,7 @@ def test_generate_text():
             f"{HF_API_BASE}/generate",
             headers=headers,  # <<-- 인증 헤더 추가!
             data=data,
-            timeout=300
         )
         print(f"✅ 상태 코드: {response.status_code}") # 이제 200이 표시될 것입니다.

 import requests
 import json
 import os # os 모듈 추가
+from dotenv import load_dotenv
+load_dotenv()
 # 1. 환경 변수에서 허깅페이스 토큰을 가져옵니다.
 #    터미널에서 `set HUGGING_FACE_TOKEN=hf_...` (Windows) 또는
 #    `export HUGGING_FACE_TOKEN=hf_...` (Mac/Linux) 명령으로 미리 설정합니다.
+HF_TOKEN = os.getenv("HF_TOKEN")
 # 허깅페이스 FastAPI 서버 URL
 HF_API_BASE = "https://gbrabbit-lily-fast-api.hf.space"
         data = {
             'prompt': '안녕하세요! Private 스페이스에서 잘 지내시나요?',
+            'max_length': 20
         }
         print(f"📤 요청 데이터 (Form): {json.dumps(data, ensure_ascii=False)}")
             f"{HF_API_BASE}/generate",
             headers=headers,  # <<-- 인증 헤더 추가!
             data=data,
+            timeout=2000
         )
         print(f"✅ 상태 코드: {response.status_code}") # 이제 200이 표시될 것입니다.

test_hf_private.py ADDED Viewed

	@@ -0,0 +1,60 @@

+import requests
+import json
+import os # os 모듈 추가
+from dotenv import load_dotenv
+load_dotenv()
+# 1. 환경 변수에서 허깅페이스 토큰을 가져옵니다.
+#    터미널에서 `set HUGGING_FACE_TOKEN=hf_...` (Windows) 또는
+#    `export HUGGING_FACE_TOKEN=hf_...` (Mac/Linux) 명령으로 미리 설정합니다.
+HF_TOKEN = os.getenv("HF_TOKEN")
+# 허깅페이스 FastAPI 서버 URL
+HF_API_BASE = "https://gbrabbit-lily-fast-api.hf.space"
+def test_generate_text():
+    """텍스트 생성 테스트 (인증 추가)"""
+    print("\n🔍 텍스트 생성 테스트...")
+    if not HF_TOKEN:
+        print("❌ HUGGING_FACE_TOKEN 환경 변수가 설정되지 않았습니다.")
+        return False
+    try:
+        # 2. 인증 토큰을 담을 헤더(headers)를 생성합니다.
+        headers = {
+            "Authorization": f"Bearer {HF_TOKEN}"
+        }
+        data = {
+            'prompt': '안녕하세요! Private 스페이스에서 잘 지내시나요?',
+            'max_length': 128
+        }
+        print(f"📤 요청 데이터 (Form): {json.dumps(data, ensure_ascii=False)}")
+        # 3. requests.post 호출 시 headers 파라미터를 추가합니다.
+        response = requests.post(
+            f"{HF_API_BASE}/generate",
+            headers=headers,  # <<-- 인증 헤더 추가!
+            data=data,
+            timeout=500
+        )
+        print(f"✅ 상태 코드: {response.status_code}") # 이제 200이 표시될 것입니다.
+        if response.status_code == 200:
+            result = response.json()
+            print(f"✅ 응답: {json.dumps(result, indent=2, ensure_ascii=False)}")
+        else:
+            print(f"❌ 응답: {response.text}")
+        return response.status_code == 200
+    except Exception as e:
+        print(f"❌ 텍스트 생성 테스트 실패: {e}")
+        return False
+# 스크립트 실행
+if __name__ == "__main__":
+    test_generate_text()