Spaces:

CLEAR-Global
/

TWB-Voice-TTS

Running

App Files Files Community

Alp commited on Jul 30

Commit

8548594

1 Parent(s): 9502afd

d vectors fix intent

Browse files

Files changed (1) hide show

app.py +9 -30

app.py CHANGED Viewed

@@ -48,6 +48,8 @@ def load_model(language):
         model_repo = MODELS[language]["model_repo"]
         model_name = MODELS[language]["model_name"]
         config_name = MODELS[language]["config_name"]
         try:
             from huggingface_hub import hf_hub_download
             import json
@@ -67,61 +69,38 @@ def load_model(language):
             speakers_file = hf_hub_download(repo_id=model_repo, filename=speakers_filename)
             language_ids_file = hf_hub_download(repo_id=model_repo, filename=language_ids_filename)
-            # CRITICAL FIX: Remove problematic d_vector configurations
-            # Based on the error, the speakers.pth format is incompatible with d_vector loading
-            if "d_vector_file" in config:
-                del config["d_vector_file"]
-            if "model_args" in config and "d_vector_file" in config["model_args"]:
-                del config["model_args"]["d_vector_file"]
-            # Update the remaining paths to point to the downloaded files
             config["speakers_file"] = speakers_file
             config["language_ids_file"] = language_ids_file
             config["model_args"]["speakers_file"] = speakers_file
             config["model_args"]["language_ids_file"] = language_ids_file
-            # Set use_d_vector_file to False to avoid d_vector loading issues
-            config["use_d_vector_file"] = False
-            config["model_args"]["use_d_vector_file"] = False
-            # Ensure speaker embedding is enabled the correct way
-            config["use_speaker_embedding"] = True
-            config["model_args"]["use_speaker_embedding"] = True
-            # Remove speaker encoder paths that might cause issues
-            if "model_args" in config:
-                if "speaker_encoder_config_path" in config["model_args"]:
-                    config["model_args"]["speaker_encoder_config_path"] = ""
-                if "speaker_encoder_model_path" in config["model_args"]:
-                    config["model_args"]["speaker_encoder_model_path"] = ""
             # Save the updated config to a temporary file
             import tempfile
             temp_config = tempfile.NamedTemporaryFile(mode='w', suffix='.json', delete=False)
             json.dump(config, temp_config, indent=2)
             temp_config.close()
             print(f"Loading {language} model with config:")
             print(f"- use_speaker_embedding: {config.get('use_speaker_embedding')}")
             print(f"- use_d_vector_file: {config.get('use_d_vector_file')}")
             print(f"- speakers_file: {config.get('speakers_file')}")
             # Load TTS model with specific model and config paths
             loaded_models[language] = TTS(model_path=model_path,
                                           config_path=temp_config.name,
                                           gpu=torch.cuda.is_available())
-            # Clean up temporary config file
-            os.unlink(temp_config.name)
         except Exception as e:
             print(f"Error loading {language} model: {e}")
             import traceback
             traceback.print_exc()
             return None
     return loaded_models[language]
 def update_speakers(language):
     """Update speaker dropdown based on selected language"""
     if language in MODELS:

         model_repo = MODELS[language]["model_repo"]
         model_name = MODELS[language]["model_name"]
         config_name = MODELS[language]["config_name"]
         try:
             from huggingface_hub import hf_hub_download
             import json
             speakers_file = hf_hub_download(repo_id=model_repo, filename=speakers_filename)
             language_ids_file = hf_hub_download(repo_id=model_repo, filename=language_ids_filename)
+            # Update the config paths to point to the downloaded files
             config["speakers_file"] = speakers_file
             config["language_ids_file"] = language_ids_file
             config["model_args"]["speakers_file"] = speakers_file
             config["model_args"]["language_ids_file"] = language_ids_file
+            config["model_args"]["d_vector_file"] = [language_ids_file]
             # Save the updated config to a temporary file
             import tempfile
             temp_config = tempfile.NamedTemporaryFile(mode='w', suffix='.json', delete=False)
             json.dump(config, temp_config, indent=2)
             temp_config.close()
             print(f"Loading {language} model with config:")
             print(f"- use_speaker_embedding: {config.get('use_speaker_embedding')}")
             print(f"- use_d_vector_file: {config.get('use_d_vector_file')}")
+            print(f"- d_vector_file: {config.get('d_vector_file')}")
             print(f"- speakers_file: {config.get('speakers_file')}")
             # Load TTS model with specific model and config paths
             loaded_models[language] = TTS(model_path=model_path,
                                           config_path=temp_config.name,
                                           gpu=torch.cuda.is_available())
         except Exception as e:
             print(f"Error loading {language} model: {e}")
             import traceback
             traceback.print_exc()
             return None
     return loaded_models[language]
 def update_speakers(language):
     """Update speaker dropdown based on selected language"""
     if language in MODELS: