Spaces:

gbrabbit
/

lily_fast_api

Sleeping

App Files Files Community

gbrabbit commited on Aug 23

Commit

cbf7778

1 Parent(s): 84635f1

Auto commit at 23-2025-08 13:31:17

Browse files

Files changed (2) hide show

lily_llm_api/app_v2_origin.py +0 -0
lily_llm_api/services/generation_service.py +20 -9

lily_llm_api/app_v2_origin.py ADDED Viewed

The diff for this file is too large to render. See raw diff

lily_llm_api/services/generation_service.py CHANGED Viewed

@@ -358,24 +358,35 @@ def generate_sync(prompt: str, image_data_list: Optional[List[bytes]], max_lengt
                                 if 'vision_grid_thw' in combined_image_metas:
                                     vision_grid = combined_image_metas['vision_grid_thw']
                                     if isinstance(vision_grid, list):
-                                        # 🔄 Kanana 모델 요구사항: (T, H, W) 형태의 3차원 텐서
                                         if len(vision_grid) == 1 and len(vision_grid[0]) == 3:
-                                            # [(1, 34, 52)] -> (1, 34, 52) 텐서로 변환
                                             t, h, w = vision_grid[0]
-                                            # 🔄 3차원 텐서로 변환: (1, H, W) 형태
-                                            processed_image_metas['vision_grid_thw'] = torch.tensor([[t, h, w]], dtype=torch.long)
                                             print(f"🔍 [DEBUG] vision_grid_thw 텐서 변환: {vision_grid} -> {processed_image_metas['vision_grid_thw'].shape}")
                                         else:
-                                            # 🔄 다른 형태의 경우 원본 유지
-                                            processed_image_metas['vision_grid_thw'] = torch.tensor(vision_grid, dtype=torch.long)
                                             print(f"🔍 [DEBUG] vision_grid_thw 텐서 변환 (기본): {vision_grid} -> {processed_image_metas['vision_grid_thw'].shape}")
                                     else:
-                                        processed_image_metas['vision_grid_thw'] = vision_grid
-                                # 🔄 다른 메타데이터는 그대로 유지
                                 for key, value in combined_image_metas.items():
                                     if key != 'vision_grid_thw':
-                                        processed_image_metas[key] = value
                                 generate_kwargs = {
                                     'input_ids': input_ids,

                                 if 'vision_grid_thw' in combined_image_metas:
                                     vision_grid = combined_image_metas['vision_grid_thw']
                                     if isinstance(vision_grid, list):
+                                        # 🔄 Kanana 모델 요구사항: 배치 차원을 맞춤
                                         if len(vision_grid) == 1 and len(vision_grid[0]) == 3:
+                                            # [(1, 34, 52)] -> (1, 1, 34, 52) 텐서로 변환 (배치 차원 추가)
                                             t, h, w = vision_grid[0]
+                                            # 🔄 4차원 텐서로 변환: (batch_size, T, H, W) 형태
+                                            processed_image_metas['vision_grid_thw'] = torch.tensor([[[t, h, w]]], dtype=torch.long)
                                             print(f"🔍 [DEBUG] vision_grid_thw 텐서 변환: {vision_grid} -> {processed_image_metas['vision_grid_thw'].shape}")
                                         else:
+                                            # 🔄 다른 형태의 경우 배치 차원 추가
+                                            processed_image_metas['vision_grid_thw'] = torch.tensor([vision_grid], dtype=torch.long)
                                             print(f"🔍 [DEBUG] vision_grid_thw 텐서 변환 (기본): {vision_grid} -> {processed_image_metas['vision_grid_thw'].shape}")
                                     else:
+                                        # 텐서인 경우 배치 차원 확인 및 추가
+                                        if len(vision_grid.shape) == 3:
+                                            processed_image_metas['vision_grid_thw'] = vision_grid.unsqueeze(0)
+                                        else:
+                                            processed_image_metas['vision_grid_thw'] = vision_grid
+                                # 🔄 다른 메타데이터도 배치 차원 맞춤
                                 for key, value in combined_image_metas.items():
                                     if key != 'vision_grid_thw':
+                                        if isinstance(value, list):
+                                            # 리스트인 경우 배치 차원 추가
+                                            processed_image_metas[key] = [value]
+                                        elif isinstance(value, torch.Tensor) and len(value.shape) == 2:
+                                            # 2차원 텐서인 경우 배치 차원 추가
+                                            processed_image_metas[key] = value.unsqueeze(0)
+                                        else:
+                                            processed_image_metas[key] = value
                                 generate_kwargs = {
                                     'input_ids': input_ids,