Spaces:

braindeck
/

Lucy_5

Paused

aaron commited on Sep 16

Commit

75635fa

1 Parent(s): 67e0911

원래 의도 유지: 더미 모델 사용 금지, 실패 시 앱 중단

- BigVGAN, FAcodec, BigVGAN 44k 로딩 실패 시 더미 모델 대신 앱 시작 중단
- 모든 모델이 정상 로드되어야만 앱 시작 (부분적 기능 제공 금지)
- 실패 시 명확한 에러 메시지 제공
- 앱 시작 시 모든 모델 미리 로드하여 완전한 기능 보장
- 음성 품질 저하 방지

Files changed (1) hide show

app.py +48 -45

app.py CHANGED Viewed

@@ -224,29 +224,29 @@ def initialize_seed_vc_models():
     campplus_model.eval()
     campplus_model.to(DEVICE)
-    # Load BigVGAN
-    from modules.bigvgan import bigvgan
-    bigvgan_model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_22khz_80band_256x', use_cuda_kernel=False)
-    bigvgan_model.remove_weight_norm()
-    bigvgan_model = bigvgan_model.eval().to(DEVICE)
-    # Load FAcodec with error handling
     try:
         ckpt_path, config_path = load_custom_model_from_hf("Plachta/FAcodec", 'pytorch_model.bin', 'config.yml')
         with open(config_path, 'r', encoding='utf-8') as f:
             codec_config = yaml.safe_load(f)
         codec_model_params = recursive_munch(codec_config['model_params'])
-        # Remove problematic 'causal' parameter if it exists
-        if hasattr(codec_model_params, 'dac_params') and hasattr(codec_model_params.dac_params, 'causal'):
-            delattr(codec_model_params.dac_params, 'causal')
-            log_print("Removed 'causal' parameter from DAC config")
-        # Also check for other problematic parameters
         if hasattr(codec_model_params, 'dac_params'):
             dac_params = codec_model_params.dac_params
-            # Remove any parameters that might cause issues
-            problematic_params = ['causal', 'causal_conv', 'causal_attention']
             for param in problematic_params:
                 if hasattr(dac_params, param):
                     delattr(dac_params, param)
@@ -255,29 +255,11 @@ def initialize_seed_vc_models():
         codec_encoder = build_model(codec_model_params, stage="codec")
         log_print("✓ FAcodec loaded successfully")
     except Exception as e:
-        log_error(f"Warning: Failed to load FAcodec: {e}")
         log_error(f"FAcodec error traceback: {traceback.format_exc()}")
-        # Create a minimal dummy codec encoder
-        log_print("Creating minimal codec encoder as fallback...")
-        try:
-            # Try to create a basic DAC model without problematic parameters
-            from descript_audio_codec import DAC
-            codec_encoder = {'codec': DAC()}
-            log_print("✓ Created minimal DAC fallback")
-        except Exception as e2:
-            log_error(f"Failed to create DAC fallback: {e2}")
-            # Create a completely dummy encoder
-            class DummyCodec:
-                def __getitem__(self, key):
-                    return self
-                def eval(self):
-                    return self
-                def to(self, device):
-                    return self
-            codec_encoder = {'codec': DummyCodec()}
-            log_print("✓ Created dummy codec encoder")
-    # Load codec checkpoint with error handling
     try:
         ckpt_params = torch.load(ckpt_path, map_location="cpu")
         if 'codec' in ckpt_params:
@@ -286,10 +268,11 @@ def initialize_seed_vc_models():
             codec_encoder.codec.load_state_dict(ckpt_params['model'], strict=False)
         else:
             codec_encoder.codec.load_state_dict(ckpt_params, strict=False)
     except Exception as e:
-        log_error(f"Warning: Could not load codec state dict: {e}")
-        log_error(f"Codec state dict error traceback: {traceback.format_exc()}")
-        log_error("Codec will use default parameters")
     _ = [codec_encoder[key].eval() for key in codec_encoder]
     _ = [codec_encoder[key].to(DEVICE) for key in codec_encoder]
@@ -352,9 +335,16 @@ def initialize_seed_vc_models():
     }
     to_mel_f0 = lambda x: mel_spectrogram(x, **mel_fn_args_f0)
-    bigvgan_44k_model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_44khz_128band_512x', use_cuda_kernel=False)
-    bigvgan_44k_model.remove_weight_norm()
-    bigvgan_44k_model = bigvgan_44k_model.eval().to(DEVICE)
     _seed_vc_models = {
         'model': model,
@@ -376,6 +366,7 @@ def initialize_seed_vc_models():
         'sr_f0': sr_f0
     }
     return _seed_vc_models
 def adjust_f0_semitones(f0_sequence, n_semitones):
@@ -724,12 +715,24 @@ styles = list_supported_styles() or [
     'es', 'fr', 'zh', 'jp', 'kr'
 ]
-# Skip model pre-loading for faster startup
 log_print("=" * 50)
-log_print("SKIPPING MODEL PRE-LOADING FOR FASTER STARTUP")
-log_print("Models will be loaded on first use")
 log_print("=" * 50)
 # Create Gradio interface
 with gr.Blocks(title="Integrated TTS + Voice Conversion", analytics_enabled=False) as demo:
     gr.Markdown("""

     campplus_model.eval()
     campplus_model.to(DEVICE)
+    # Load BigVGAN - FAIL IF CANNOT LOAD (원래 의도 유지)
+    try:
+        from modules.bigvgan import bigvgan
+        bigvgan_model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_22khz_80band_256x', use_cuda_kernel=False)
+        bigvgan_model.remove_weight_norm()
+        bigvgan_model = bigvgan_model.eval().to(DEVICE)
+        log_print("✓ BigVGAN loaded successfully")
+    except Exception as e:
+        log_error(f"CRITICAL ERROR: Failed to load BigVGAN: {e}")
+        log_error(f"BigVGAN error traceback: {traceback.format_exc()}")
+        raise gr.Error(f"BigVGAN 모델 로딩 실패: {e}. 앱을 시작할 수 없습니다.")
+    # Load FAcodec - FAIL IF CANNOT LOAD (원래 의도 유지)
     try:
         ckpt_path, config_path = load_custom_model_from_hf("Plachta/FAcodec", 'pytorch_model.bin', 'config.yml')
         with open(config_path, 'r', encoding='utf-8') as f:
             codec_config = yaml.safe_load(f)
         codec_model_params = recursive_munch(codec_config['model_params'])
+        # Remove problematic parameters
         if hasattr(codec_model_params, 'dac_params'):
             dac_params = codec_model_params.dac_params
+            problematic_params = ['causal', 'causal_conv', 'causal_attention', 'lstm']
             for param in problematic_params:
                 if hasattr(dac_params, param):
                     delattr(dac_params, param)
         codec_encoder = build_model(codec_model_params, stage="codec")
         log_print("✓ FAcodec loaded successfully")
     except Exception as e:
+        log_error(f"CRITICAL ERROR: Failed to load FAcodec: {e}")
         log_error(f"FAcodec error traceback: {traceback.format_exc()}")
+        raise gr.Error(f"FAcodec 모델 로딩 실패: {e}. 앱을 시작할 수 없습니다.")
+    # Load codec checkpoint - FAIL IF CANNOT LOAD (원래 의도 유지)
     try:
         ckpt_params = torch.load(ckpt_path, map_location="cpu")
         if 'codec' in ckpt_params:
             codec_encoder.codec.load_state_dict(ckpt_params['model'], strict=False)
         else:
             codec_encoder.codec.load_state_dict(ckpt_params, strict=False)
+        log_print("✓ Codec checkpoint loaded successfully")
     except Exception as e:
+        log_error(f"CRITICAL ERROR: Failed to load codec checkpoint: {e}")
+        log_error(f"Codec checkpoint error traceback: {traceback.format_exc()}")
+        raise gr.Error(f"코덱 체크포인트 로딩 실패: {e}. 앱을 시작할 수 없습니다.")
     _ = [codec_encoder[key].eval() for key in codec_encoder]
     _ = [codec_encoder[key].to(DEVICE) for key in codec_encoder]
     }
     to_mel_f0 = lambda x: mel_spectrogram(x, **mel_fn_args_f0)
+    # Load BigVGAN 44k - FAIL IF CANNOT LOAD (원래 의도 유지)
+    try:
+        bigvgan_44k_model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_44khz_128band_512x', use_cuda_kernel=False)
+        bigvgan_44k_model.remove_weight_norm()
+        bigvgan_44k_model = bigvgan_44k_model.eval().to(DEVICE)
+        log_print("✓ BigVGAN 44k loaded successfully")
+    except Exception as e:
+        log_error(f"CRITICAL ERROR: Failed to load BigVGAN 44k: {e}")
+        log_error(f"BigVGAN 44k error traceback: {traceback.format_exc()}")
+        raise gr.Error(f"BigVGAN 44k 모델 로딩 실패: {e}. 앱을 시작할 수 없습니다.")
     _seed_vc_models = {
         'model': model,
         'sr_f0': sr_f0
     }
+    log_print("✓ All Seed-VC models loaded successfully!")
     return _seed_vc_models
 def adjust_f0_semitones(f0_sequence, n_semitones):
     'es', 'fr', 'zh', 'jp', 'kr'
 ]
+# 앱 시작 시 모델 초기화 (원래 의도 유지)
 log_print("=" * 50)
+log_print("INITIALIZING MODELS...")
 log_print("=" * 50)
+try:
+    # 모든 모델을 미리 로드하여 완전한 기능 보장
+    initialize_seed_vc_models()
+    log_print("✓ All models initialized successfully!")
+except Exception as e:
+    log_error(f"CRITICAL ERROR during model initialization: {e}")
+    log_error(f"Error type: {type(e).__name__}")
+    log_error("Full traceback:")
+    log_error(traceback.format_exc())
+    log_error("App will not start due to model initialization failure")
+    # 앱 시작 중단
+    sys.exit(1)
 # Create Gradio interface
 with gr.Blocks(title="Integrated TTS + Voice Conversion", analytics_enabled=False) as demo:
     gr.Markdown("""