Spaces:

DroolingPanda
/

teachingAssistant

Sleeping

App Files Files Community

Michael Hu commited on Sep 30

Commit

237cb26

1 Parent(s): 1e2d288

feat: replace legacy TTS providers with Chatterbox as the single, default provider

Browse files

Files changed (21) hide show

DEVELOPER_GUIDE.md +1 -1
README.md +4 -7
app.py +1 -1
config.example.json +1 -1
src/application/dtos/processing_request_dto.py +1 -1
src/application/services/configuration_service.py +2 -2
src/domain/interfaces/audio_processing.py +1 -1
src/domain/interfaces/speech_synthesis.py +1 -1
src/infrastructure/config/app_config.py +1 -1
src/infrastructure/tts/__init__.py +1 -21
src/infrastructure/tts/dummy_provider.py +0 -139
src/infrastructure/tts/provider_factory.py +8 -20
tests/integration/test_audio_processing_pipeline.py +7 -7
tests/integration/test_file_handling.py +15 -15
tests/integration/test_performance_and_errors.py +6 -6
tests/integration/test_provider_integration.py +9 -9
tests/unit/application/dtos/test_processing_request_dto.py +23 -23
tests/unit/application/services/test_audio_processing_service.py +5 -5
tests/unit/application/services/test_configuration_service.py +3 -3
tests/unit/domain/interfaces/test_speech_synthesis.py +9 -9
tests/unit/infrastructure/factories/test_tts_provider_factory.py +13 -26

DEVELOPER_GUIDE.md CHANGED Viewed

@@ -187,7 +187,7 @@ class AppConfig:
     # ... existing configuration ...
     # TTS Provider Configuration
-    TTS_PROVIDERS = os.getenv('TTS_PROVIDERS', 'kokoro,dia,cosyvoice2,my_tts,dummy').split(',')
     # Provider-specific settings
     MY_TTS_API_KEY = os.getenv('MY_TTS_API_KEY')

     # ... existing configuration ...
     # TTS Provider Configuration
+    TTS_PROVIDERS = os.getenv('TTS_PROVIDERS', 'chatterbox,my_tts').split(',')
     # Provider-specific settings
     MY_TTS_API_KEY = os.getenv('MY_TTS_API_KEY')

README.md CHANGED Viewed

@@ -95,10 +95,7 @@ graph TD
 - **NLLB** - Meta's No Language Left Behind model
 ### Text-to-Speech (TTS)
-- **Kokoro** - High-quality neural TTS
-- **Dia** - Fast neural TTS
-- **CosyVoice2** - Advanced voice synthesis
-- **Dummy** - Test provider for development
 ## 📖 Usage
@@ -135,7 +132,7 @@ request = ProcessingRequestDto(
     audio=audio_upload,
     asr_model="whisper-small",
     target_language="zh",
-    voice="kokoro",
     speed=1.0
 )
@@ -179,7 +176,7 @@ Create a `.env` file or set environment variables:
 ```bash
 # Provider preferences (comma-separated, in order of preference)
-TTS_PROVIDERS=kokoro,dia,cosyvoice2,dummy
 STT_PROVIDERS=whisper,parakeet
 TRANSLATION_PROVIDERS=nllb
@@ -201,7 +198,7 @@ The system automatically detects available providers and falls back gracefully:
 from src.infrastructure.config.dependency_container import DependencyContainer
 container = DependencyContainer()
-container.configure_tts_providers(['kokoro', 'dummy'])  # Preferred order
 ```
 ## 🏗️ Architecture Benefits

 - **NLLB** - Meta's No Language Left Behind model
 ### Text-to-Speech (TTS)
+- **Chatterbox** - High-quality neural TTS provider
 ## 📖 Usage
     audio=audio_upload,
     asr_model="whisper-small",
     target_language="zh",
+    voice="chatterbox",
     speed=1.0
 )
 ```bash
 # Provider preferences (comma-separated, in order of preference)
+TTS_PROVIDERS=chatterbox
 STT_PROVIDERS=whisper,parakeet
 TRANSLATION_PROVIDERS=nllb
 from src.infrastructure.config.dependency_container import DependencyContainer
 container = DependencyContainer()
+container.configure_tts_providers(['chatterbox'])  # Preferred order
 ```
 ## 🏗️ Architecture Benefits

app.py CHANGED Viewed

@@ -110,7 +110,7 @@ def get_supported_configurations() -> dict:
         # Return fallback configurations
         return {
             'asr_models': ['whisper-small', 'parakeet'],
-            'voices': ['kokoro', 'dia', 'cosyvoice2', 'dummy'],
             'languages': ['en', 'zh', 'es', 'fr', 'de'],
             'audio_formats': ['wav', 'mp3'],
             'max_file_size_mb': 100,

         # Return fallback configurations
         return {
             'asr_models': ['whisper-small', 'parakeet'],
+            'voices': ['chatterbox'],
             'languages': ['en', 'zh', 'es', 'fr', 'de'],
             'audio_formats': ['wav', 'mp3'],
             'max_file_size_mb': 100,

config.example.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "tts": {
-    "preferred_providers": ["kokoro", "dia", "cosyvoice2", "dummy"],
     "default_voice": "default",
     "default_speed": 1.0,
     "default_language": "en",

 {
   "tts": {
+    "preferred_providers": ["chatterbox"],
     "default_voice": "default",
     "default_speed": 1.0,
     "default_language": "en",

src/application/dtos/processing_request_dto.py CHANGED Viewed

@@ -57,7 +57,7 @@ class ProcessingRequestDto:
             raise ValueError("Voice cannot be empty")
         # Validate voice options
-        supported_voices = ['kokoro', 'dia', 'cosyvoice2', 'dummy']
         if self.voice not in supported_voices:
             raise ValueError(f"Unsupported voice: {self.voice}. Supported: {supported_voices}")

             raise ValueError("Voice cannot be empty")
         # Validate voice options
+        supported_voices = ['chatterbox']
         if self.voice not in supported_voices:
             raise ValueError(f"Unsupported voice: {self.voice}. Supported: {supported_voices}")

src/application/services/configuration_service.py CHANGED Viewed

@@ -294,7 +294,7 @@ class ConfigurationApplicationService:
         Raises:
             ConfigurationException: If validation fails
         """
-        valid_providers = ['chatterbox', 'dummy']
         valid_languages = ['en', 'es', 'fr', 'de', 'it', 'pt', 'ru', 'ja', 'ko', 'zh']
         for key, value in updates.items():
@@ -515,7 +515,7 @@ class ConfigurationApplicationService:
             # Check TTS providers
             tts_factory = self._container.resolve(type(self._container._get_tts_factory()))
-            for provider in ['chatterbox', 'dummy']:
                 try:
                     tts_factory.create_provider(provider)
                     availability['tts'][provider] = True

         Raises:
             ConfigurationException: If validation fails
         """
+        valid_providers = ['chatterbox']
         valid_languages = ['en', 'es', 'fr', 'de', 'it', 'pt', 'ru', 'ja', 'ko', 'zh']
         for key, value in updates.items():
             # Check TTS providers
             tts_factory = self._container.resolve(type(self._container._get_tts_factory()))
+            for provider in ['chatterbox']:
                 try:
                     tts_factory.create_provider(provider)
                     availability['tts'][provider] = True

src/domain/interfaces/audio_processing.py CHANGED Viewed

@@ -111,7 +111,7 @@ class IAudioProcessingService(ABC):
             # Configure voice settings
             voice_settings = VoiceSettings(
-                voice_id="kokoro",
                 speed=1.0,
                 language="zh"
             )

             # Configure voice settings
             voice_settings = VoiceSettings(
+                voice_id="chatterbox",
                 speed=1.0,
                 language="zh"
             )

src/domain/interfaces/speech_synthesis.py CHANGED Viewed

@@ -98,7 +98,7 @@ class ISpeechSynthesisService(ABC):
             # Configure voice settings
             voice_settings = VoiceSettings(
-                voice_id="kokoro",
                 speed=1.0,
                 pitch=0.0,
                 volume=1.0

             # Configure voice settings
             voice_settings = VoiceSettings(
+                voice_id="chatterbox",
                 speed=1.0,
                 pitch=0.0,
                 volume=1.0

src/infrastructure/config/app_config.py CHANGED Viewed

@@ -12,7 +12,7 @@ logger = logging.getLogger(__name__)
 @dataclass
 class TTSConfig:
     """Configuration for TTS providers."""
-    preferred_providers: List[str] = field(default_factory=lambda: ['chatterbox', 'dummy'])
     default_voice: str = 'default'
     default_speed: float = 1.0
     default_language: str = 'en'

 @dataclass
 class TTSConfig:
     """Configuration for TTS providers."""
+    preferred_providers: List[str] = field(default_factory=lambda: ['chatterbox'])
     default_voice: str = 'default'
     default_speed: float = 1.0
     default_language: str = 'en'

src/infrastructure/tts/__init__.py CHANGED Viewed

@@ -1,24 +1,8 @@
 """TTS provider implementations."""
 from .provider_factory import TTSProviderFactory
-from .dummy_provider import DummyTTSProvider
-# Try to import optional providers
-try:
-    from .kokoro_provider import KokoroTTSProvider
-except ImportError:
-    KokoroTTSProvider = None
-try:
-    from .dia_provider import DiaTTSProvider
-except ImportError:
-    DiaTTSProvider = None
-try:
-    from .cosyvoice2_provider import CosyVoice2TTSProvider
-except ImportError:
-    CosyVoice2TTSProvider = None
 try:
     from .chatterbox_provider import ChatterboxTTSProvider
 except ImportError:
@@ -26,9 +10,5 @@ except ImportError:
 __all__ = [
     'TTSProviderFactory',
-    'DummyTTSProvider',
-    'KokoroTTSProvider',
-    'DiaTTSProvider',
-    'CosyVoice2TTSProvider',
     'ChatterboxTTSProvider'
 ]

 """TTS provider implementations."""
 from .provider_factory import TTSProviderFactory
+# Try to import chatterbox provider
 try:
     from .chatterbox_provider import ChatterboxTTSProvider
 except ImportError:
 __all__ = [
     'TTSProviderFactory',
     'ChatterboxTTSProvider'
 ]

src/infrastructure/tts/dummy_provider.py DELETED Viewed

@@ -1,139 +0,0 @@
-"""Dummy TTS provider implementation for testing and fallback."""
-import logging
-import numpy as np
-import soundfile as sf
-import io
-from typing import Iterator, TYPE_CHECKING
-if TYPE_CHECKING:
-    from ...domain.models.speech_synthesis_request import SpeechSynthesisRequest
-from ..base.tts_provider_base import TTSProviderBase
-from ...domain.exceptions import SpeechSynthesisException
-logger = logging.getLogger(__name__)
-class DummyTTSProvider(TTSProviderBase):
-    """Dummy TTS provider that generates sine wave audio for testing."""
-    def __init__(self):
-        """Initialize the Dummy TTS provider."""
-        super().__init__(
-            provider_name="Dummy",
-            supported_languages=['en', 'es', 'fr', 'de', 'it', 'pt', 'ru', 'ja', 'ko', 'zh']
-        )
-    def is_available(self) -> bool:
-        """Dummy TTS is always available."""
-        return True
-    def get_available_voices(self) -> list[str]:
-        """Get available voices for Dummy TTS."""
-        return ['default', 'male', 'female', 'robot']
-    def _generate_audio(self, request: 'SpeechSynthesisRequest') -> tuple[bytes, int]:
-        """Generate dummy sine wave audio."""
-        try:
-            # Extract parameters from request
-            text = request.text_content.text
-            speed = request.voice_settings.speed
-            # Generate a simple sine wave based on text length and speed
-            sample_rate = 24000
-            # Rough approximation of speech duration adjusted by speed
-            duration = min(len(text) / (20 * speed), 10)
-            # Create time array
-            t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
-            # Generate sine wave (440 Hz base frequency)
-            frequency = 440
-            audio = 0.5 * np.sin(2 * np.pi * frequency * t)
-            # Add some variation based on voice setting
-            voice = request.voice_settings.voice_id
-            if voice == 'male':
-                # Lower frequency for male voice
-                audio = 0.5 * np.sin(2 * np.pi * 220 * t)
-            elif voice == 'female':
-                # Higher frequency for female voice
-                audio = 0.5 * np.sin(2 * np.pi * 660 * t)
-            elif voice == 'robot':
-                # Square wave for robot voice
-                audio = 0.5 * np.sign(np.sin(2 * np.pi * 440 * t))
-            # Convert to bytes
-            audio_bytes = self._numpy_to_bytes(audio, sample_rate)
-            logger.info(f"Generated dummy audio: duration={duration:.2f}s, voice={voice}")
-            return audio_bytes, sample_rate
-        except Exception as e:
-            self._handle_provider_error(e, "dummy audio generation")
-    def _generate_audio_stream(self, request: 'SpeechSynthesisRequest') -> Iterator[tuple[bytes, int, bool]]:
-        """Generate dummy sine wave audio stream."""
-        try:
-            # Extract parameters from request
-            text = request.text_content.text
-            speed = request.voice_settings.speed
-            # Generate audio in chunks
-            sample_rate = 24000
-            chunk_duration = 1.0  # 1 second chunks
-            total_duration = min(len(text) / (20 * speed), 10)
-            chunks_count = int(np.ceil(total_duration / chunk_duration))
-            for chunk_idx in range(chunks_count):
-                start_time = chunk_idx * chunk_duration
-                end_time = min((chunk_idx + 1) * chunk_duration, total_duration)
-                actual_duration = end_time - start_time
-                if actual_duration <= 0:
-                    break
-                # Create time array for this chunk
-                t = np.linspace(0, actual_duration, int(sample_rate * actual_duration), endpoint=False)
-                # Generate sine wave
-                frequency = 440
-                audio = 0.5 * np.sin(2 * np.pi * frequency * t)
-                # Apply voice variations
-                voice = request.voice_settings.voice_id
-                if voice == 'male':
-                    audio = 0.5 * np.sin(2 * np.pi * 220 * t)
-                elif voice == 'female':
-                    audio = 0.5 * np.sin(2 * np.pi * 660 * t)
-                elif voice == 'robot':
-                    audio = 0.5 * np.sign(np.sin(2 * np.pi * 440 * t))
-                # Convert to bytes
-                audio_bytes = self._numpy_to_bytes(audio, sample_rate)
-                # Check if this is the final chunk
-                is_final = (chunk_idx == chunks_count - 1)
-                yield audio_bytes, sample_rate, is_final
-        except Exception as e:
-            self._handle_provider_error(e, "dummy streaming audio generation")
-    def _numpy_to_bytes(self, audio_array: np.ndarray, sample_rate: int) -> bytes:
-        """Convert numpy audio array to bytes."""
-        try:
-            # Create an in-memory buffer
-            buffer = io.BytesIO()
-            # Write audio data to buffer as WAV
-            sf.write(buffer, audio_array, sample_rate, format='WAV')
-            # Get bytes from buffer
-            buffer.seek(0)
-            return buffer.read()
-        except Exception as e:
-            raise SpeechSynthesisException(f"Failed to convert audio to bytes: {str(e)}") from e

src/infrastructure/tts/provider_factory.py CHANGED Viewed

@@ -18,20 +18,17 @@ class TTSProviderFactory:
         self._register_default_providers()
     def _register_default_providers(self):
-        """Register all available TTS providers."""
         # Import providers dynamically to avoid import errors if dependencies are missing
-        # Always register dummy provider as fallback
-        from .dummy_provider import DummyTTSProvider
-        self._providers['dummy'] = DummyTTSProvider
         # Register only Chatterbox provider
         try:
             from .chatterbox_provider import ChatterboxTTSProvider
             self._providers['chatterbox'] = ChatterboxTTSProvider
             logger.info("Registered Chatterbox TTS provider")
         except ImportError as e:
-            logger.info(f"Chatterbox TTS provider not available: {e}")
     def get_available_providers(self) -> List[str]:
         """Get list of available TTS providers."""
@@ -44,10 +41,7 @@ class TTSProviderFactory:
                 # Create instance if not cached
                 if name not in self._provider_instances:
                     logger.info(f"Creating instance for {name} provider")
-                    if name == 'chatterbox':
-                        self._provider_instances[name] = provider_class()
-                    else:
-                        self._provider_instances[name] = provider_class()
                 # Check if provider is available
                 logger.info(f"Checking availability for {name}")
@@ -94,11 +88,8 @@ class TTSProviderFactory:
             provider_class = self._providers[provider_name]
             # Create instance with appropriate parameters
-            if provider_name == 'chatterbox':
-                lang_code = kwargs.get('lang_code', 'en')
-                provider = provider_class(lang_code=lang_code)
-            else:
-                provider = provider_class(**kwargs)
             # Verify the provider is available
             if not provider.is_available():
@@ -126,7 +117,7 @@ class TTSProviderFactory:
             SpeechSynthesisException: If no providers are available
         """
         if preferred_providers is None:
-            preferred_providers = ['chatterbox', 'dummy']
         logger.info(f"🔄 Getting TTS provider with fallback, preferred order: {preferred_providers}")
         available_providers = self.get_available_providers()
@@ -174,10 +165,7 @@ class TTSProviderFactory:
             # Create instance if not cached
             if provider_name not in self._provider_instances:
                 provider_class = self._providers[provider_name]
-                if provider_name == 'chatterbox':
-                    self._provider_instances[provider_name] = provider_class()
-                else:
-                    self._provider_instances[provider_name] = provider_class()
             provider = self._provider_instances[provider_name]

         self._register_default_providers()
     def _register_default_providers(self):
+        """Register available TTS providers."""
         # Import providers dynamically to avoid import errors if dependencies are missing
         # Register only Chatterbox provider
         try:
             from .chatterbox_provider import ChatterboxTTSProvider
             self._providers['chatterbox'] = ChatterboxTTSProvider
             logger.info("Registered Chatterbox TTS provider")
         except ImportError as e:
+            logger.warning(f"Chatterbox TTS provider not available: {e}")
+            raise SpeechSynthesisException("No TTS providers available - Chatterbox is required") from e
     def get_available_providers(self) -> List[str]:
         """Get list of available TTS providers."""
                 # Create instance if not cached
                 if name not in self._provider_instances:
                     logger.info(f"Creating instance for {name} provider")
+                    self._provider_instances[name] = provider_class()
                 # Check if provider is available
                 logger.info(f"Checking availability for {name}")
             provider_class = self._providers[provider_name]
             # Create instance with appropriate parameters
+            lang_code = kwargs.get('lang_code', 'en')
+            provider = provider_class(lang_code=lang_code)
             # Verify the provider is available
             if not provider.is_available():
             SpeechSynthesisException: If no providers are available
         """
         if preferred_providers is None:
+            preferred_providers = ['chatterbox']
         logger.info(f"🔄 Getting TTS provider with fallback, preferred order: {preferred_providers}")
         available_providers = self.get_available_providers()
             # Create instance if not cached
             if provider_name not in self._provider_instances:
                 provider_class = self._providers[provider_name]
+                self._provider_instances[provider_name] = provider_class()
             provider = self._provider_instances[provider_name]

tests/integration/test_audio_processing_pipeline.py CHANGED Viewed

@@ -61,7 +61,7 @@ class TestAudioProcessingPipeline:
         # TTS configuration
         config.get_tts_config.return_value = {
-            'preferred_providers': ['kokoro', 'dia', 'cosyvoice2', 'dummy']
         }
         return config
@@ -124,7 +124,7 @@ class TestAudioProcessingPipeline:
             asr_model="whisper-small",
             target_language="es",
             source_language="en",
-            voice="kokoro",
             speed=1.0,
             requires_translation=True
         )
@@ -152,7 +152,7 @@ class TestAudioProcessingPipeline:
             asr_model="whisper-small",
             target_language="en",
             source_language="en",
-            voice="kokoro",
             speed=1.0,
             requires_translation=False
         )
@@ -171,7 +171,7 @@ class TestAudioProcessingPipeline:
             asr_model="whisper-medium",
             target_language="fr",
             source_language="en",
-            voice="dia",
             speed=1.5,
             requires_translation=True
         )
@@ -179,7 +179,7 @@ class TestAudioProcessingPipeline:
         result = audio_service.process_audio_pipeline(request)
         assert result.success is True
-        assert result.metadata['voice'] == "dia"
         assert result.metadata['speed'] == 1.5
         assert result.metadata['asr_model'] == "whisper-medium"
@@ -208,7 +208,7 @@ class TestAudioProcessingPipeline:
             audio=large_audio,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.0,
             requires_translation=True
         )
@@ -296,7 +296,7 @@ class TestAudioProcessingPipeline:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
-                voice="kokoro",
                 speed=1.0,
                 requires_translation=True
             )

         # TTS configuration
         config.get_tts_config.return_value = {
+            'preferred_providers': ['chatterbox']
         }
         return config
             asr_model="whisper-small",
             target_language="es",
             source_language="en",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             asr_model="whisper-small",
             target_language="en",
             source_language="en",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=False
         )
             asr_model="whisper-medium",
             target_language="fr",
             source_language="en",
+            voice="chatterbox",
             speed=1.5,
             requires_translation=True
         )
         result = audio_service.process_audio_pipeline(request)
         assert result.success is True
+        assert result.metadata['voice'] == "chatterbox"
         assert result.metadata['speed'] == 1.5
         assert result.metadata['asr_model'] == "whisper-medium"
             audio=large_audio,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox",
                 speed=1.0,
                 requires_translation=True
             )

tests/integration/test_file_handling.py CHANGED Viewed

@@ -57,7 +57,7 @@ class TestFileHandling:
         # TTS configuration
         config.get_tts_config.return_value = {
-            'preferred_providers': ['dummy']
         }
         return config
@@ -139,7 +139,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -170,7 +170,7 @@ class TestFileHandling:
                 audio=audio_upload,
                 asr_model="whisper-small",
                 target_language="en",
-                voice="dummy",
                 speed=1.0,
                 requires_translation=False
             )
@@ -194,7 +194,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -226,7 +226,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -262,7 +262,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -294,7 +294,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -325,7 +325,7 @@ class TestFileHandling:
                     audio=audio_upload,
                     asr_model="whisper-small",
                     target_language="es",
-                    voice="dummy",
                     speed=1.0,
                     requires_translation=True
                 )
@@ -373,7 +373,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -405,7 +405,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -435,7 +435,7 @@ class TestFileHandling:
                 audio=audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
-                voice="dummy",
                 speed=1.0,
                 requires_translation=True
             )
@@ -474,7 +474,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -501,7 +501,7 @@ class TestFileHandling:
                 audio=audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
-                voice="dummy",
                 speed=1.0,
                 requires_translation=True
             )
@@ -533,7 +533,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )
@@ -561,7 +561,7 @@ class TestFileHandling:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="dummy",
             speed=1.0,
             requires_translation=True
         )

         # TTS configuration
         config.get_tts_config.return_value = {
+            'preferred_providers': ['chatterbox']
         }
         return config
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
                 audio=audio_upload,
                 asr_model="whisper-small",
                 target_language="en",
+                voice="chatterbox",
                 speed=1.0,
                 requires_translation=False
             )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
                     audio=audio_upload,
                     asr_model="whisper-small",
                     target_language="es",
+                    voice="chatterbox",
                     speed=1.0,
                     requires_translation=True
                 )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
                 audio=audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox",
                 speed=1.0,
                 requires_translation=True
             )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
                 audio=audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox",
                 speed=1.0,
                 requires_translation=True
             )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )

tests/integration/test_performance_and_errors.py CHANGED Viewed

@@ -61,7 +61,7 @@ class TestPerformanceAndErrors:
         # TTS configuration
         config.get_tts_config.return_value = {
-            'preferred_providers': ['kokoro', 'dia', 'cosyvoice2', 'dummy'],
             'provider_timeout': 30.0,
             'max_retries': 3
         }
@@ -133,7 +133,7 @@ class TestPerformanceAndErrors:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.0,
             requires_translation=True
         )
@@ -243,7 +243,7 @@ class TestPerformanceAndErrors:
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.0,
             requires_translation=True
         )
@@ -359,7 +359,7 @@ class TestPerformanceAndErrors:
             audio=invalid_audio,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.0,
             requires_translation=True
         )
@@ -389,7 +389,7 @@ class TestPerformanceAndErrors:
             audio=oversized_audio,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.0,
             requires_translation=True
         )
@@ -413,7 +413,7 @@ class TestPerformanceAndErrors:
             audio=corrupted_audio,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.0,
             requires_translation=True
         )

         # TTS configuration
         config.get_tts_config.return_value = {
+            'preferred_providers': ['chatterbox'],
             'provider_timeout': 30.0,
             'max_retries': 3
         }
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=invalid_audio,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=oversized_audio,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )
             audio=corrupted_audio,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             requires_translation=True
         )

tests/integration/test_provider_integration.py CHANGED Viewed

@@ -31,7 +31,7 @@ class TestProviderIntegration:
         config = Mock(spec=AppConfig)
         # TTS configuration
-        config.tts.preferred_providers = ['kokoro', 'dia', 'cosyvoice2', 'dummy']
         config.tts.fallback_enabled = True
         config.tts.provider_timeout = 30.0
@@ -85,7 +85,7 @@ class TestProviderIntegration:
         )
         # Test each TTS provider
-        providers_to_test = ['kokoro', 'dia', 'cosyvoice2', 'dummy']
         for provider_name in providers_to_test:
             with patch(f'src.infrastructure.tts.{provider_name}_provider') as mock_provider_module:
@@ -247,7 +247,7 @@ class TestProviderIntegration:
     def test_provider_configuration_loading(self, dependency_container, mock_config):
         """Test provider configuration loading and validation."""
         # Test TTS configuration
-        tts_provider = dependency_container.get_tts_provider('dummy')
         assert tts_provider is not None
         # Test STT configuration
@@ -310,7 +310,7 @@ class TestProviderIntegration:
             # Measure performance
             start_time = time.time()
-            provider = dependency_container.get_tts_provider('dummy')
             result = provider.synthesize(synthesis_request)
             end_time = time.time()
@@ -322,7 +322,7 @@ class TestProviderIntegration:
     def test_provider_resource_cleanup(self, dependency_container):
         """Test provider resource cleanup."""
         # Get multiple providers
-        tts_provider = dependency_container.get_tts_provider('dummy')
         stt_provider = dependency_container.get_stt_provider('whisper-small')
         translation_provider = dependency_container.get_translation_provider()
@@ -356,7 +356,7 @@ class TestProviderIntegration:
         def synthesize_audio():
             try:
-                provider = dependency_container.get_tts_provider('dummy')
                 with patch.object(provider, 'synthesize') as mock_synthesize:
                     mock_synthesize.return_value = AudioContent(
                         data=b"concurrent_audio_data",
@@ -396,15 +396,15 @@ class TestProviderIntegration:
         """Test dynamic provider configuration updates."""
         # Initial configuration
         initial_providers = mock_config.tts.preferred_providers
-        assert 'kokoro' in initial_providers
         # Update configuration
-        mock_config.tts.preferred_providers = ['dia', 'dummy']
         # Verify configuration update affects provider selection
         # (This would require actual implementation of dynamic config updates)
         updated_providers = mock_config.tts.preferred_providers
-        assert 'dia' in updated_providers
         assert 'dummy' in updated_providers
     def test_provider_health_checking(self, dependency_container):

         config = Mock(spec=AppConfig)
         # TTS configuration
+        config.tts.preferred_providers = ['chatterbox']
         config.tts.fallback_enabled = True
         config.tts.provider_timeout = 30.0
         )
         # Test each TTS provider
+        providers_to_test = ['chatterbox']
         for provider_name in providers_to_test:
             with patch(f'src.infrastructure.tts.{provider_name}_provider') as mock_provider_module:
     def test_provider_configuration_loading(self, dependency_container, mock_config):
         """Test provider configuration loading and validation."""
         # Test TTS configuration
+        tts_provider = dependency_container.get_tts_provider('chatterbox')
         assert tts_provider is not None
         # Test STT configuration
             # Measure performance
             start_time = time.time()
+            provider = dependency_container.get_tts_provider('chatterbox')
             result = provider.synthesize(synthesis_request)
             end_time = time.time()
     def test_provider_resource_cleanup(self, dependency_container):
         """Test provider resource cleanup."""
         # Get multiple providers
+        tts_provider = dependency_container.get_tts_provider('chatterbox')
         stt_provider = dependency_container.get_stt_provider('whisper-small')
         translation_provider = dependency_container.get_translation_provider()
         def synthesize_audio():
             try:
+                provider = dependency_container.get_tts_provider('chatterbox')
                 with patch.object(provider, 'synthesize') as mock_synthesize:
                     mock_synthesize.return_value = AudioContent(
                         data=b"concurrent_audio_data",
         """Test dynamic provider configuration updates."""
         # Initial configuration
         initial_providers = mock_config.tts.preferred_providers
+        assert 'chatterbox' in initial_providers
         # Update configuration
+        mock_config.tts.preferred_providers = ['chatterbox']
         # Verify configuration update affects provider selection
         # (This would require actual implementation of dynamic config updates)
         updated_providers = mock_config.tts.preferred_providers
+        assert 'chatterbox' in updated_providers
         assert 'dummy' in updated_providers
     def test_provider_health_checking(self, dependency_container):

tests/unit/application/dtos/test_processing_request_dto.py CHANGED Viewed

@@ -24,7 +24,7 @@ class TestProcessingRequestDto:
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.0,
             source_language="en"
         )
@@ -43,7 +43,7 @@ class TestProcessingRequestDto:
             audio=sample_audio_upload,
             asr_model="whisper-medium",
             target_language="fr",
-            voice="dia"
         )
         assert dto.speed == 1.0  # Default speed
@@ -61,7 +61,7 @@ class TestProcessingRequestDto:
             audio=sample_audio_upload,
             asr_model="whisper-large",
             target_language="de",
-            voice="cosyvoice2",
             additional_params=additional_params
         )
@@ -74,7 +74,7 @@ class TestProcessingRequestDto:
                 audio="invalid_audio",  # Not AudioUploadDto
                 asr_model="whisper-small",
                 target_language="es",
-                voice="kokoro"
             )
     def test_empty_asr_model_validation(self, sample_audio_upload):
@@ -84,7 +84,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="",
                 target_language="es",
-                voice="kokoro"
             )
     def test_unsupported_asr_model_validation(self, sample_audio_upload):
@@ -94,7 +94,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="invalid-model",
                 target_language="es",
-                voice="kokoro"
             )
     def test_supported_asr_models(self, sample_audio_upload):
@@ -107,7 +107,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model=model,
                 target_language="es",
-                voice="kokoro"
             )
             assert dto.asr_model == model
@@ -118,7 +118,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="",
-                voice="kokoro"
             )
     def test_unsupported_target_language_validation(self, sample_audio_upload):
@@ -128,7 +128,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="invalid-lang",
-                voice="kokoro"
             )
     def test_unsupported_source_language_validation(self, sample_audio_upload):
@@ -138,7 +138,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
-                voice="kokoro",
                 source_language="invalid-lang"
             )
@@ -155,7 +155,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language=lang,
-                voice="kokoro",
                 source_language=lang
             )
             assert dto.target_language == lang
@@ -183,7 +183,7 @@ class TestProcessingRequestDto:
     def test_supported_voices(self, sample_audio_upload):
         """Test all supported voices"""
-        supported_voices = ['kokoro', 'dia', 'cosyvoice2', 'dummy']
         for voice in supported_voices:
             # Should not raise exception
@@ -202,7 +202,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
-                voice="kokoro",
                 speed=0.3  # Too low
             )
@@ -213,7 +213,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
-                voice="kokoro",
                 speed=2.5  # Too high
             )
@@ -227,7 +227,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
-                voice="kokoro",
                 speed=speed
             )
             assert dto.speed == speed
@@ -239,7 +239,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
-                voice="kokoro",
                 additional_params="invalid"  # Not a dict
             )
@@ -249,7 +249,7 @@ class TestProcessingRequestDto:
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="en",
-            voice="kokoro",
             source_language="en"
         )
@@ -261,7 +261,7 @@ class TestProcessingRequestDto:
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             source_language="en"
         )
@@ -273,7 +273,7 @@ class TestProcessingRequestDto:
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro"
         )
         assert dto.requires_translation is True  # Assume translation needed
@@ -284,7 +284,7 @@ class TestProcessingRequestDto:
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.5,
             source_language="en",
             additional_params={"custom": "value"}
@@ -296,7 +296,7 @@ class TestProcessingRequestDto:
         assert result['asr_model'] == "whisper-small"
         assert result['target_language'] == "es"
         assert result['source_language'] == "en"
-        assert result['voice'] == "kokoro"
         assert result['speed'] == 1.5
         assert result['requires_translation'] is True
         assert result['additional_params'] == {"custom": "value"}
@@ -367,7 +367,7 @@ class TestProcessingRequestDto:
                 audio=sample_audio_upload,
                 asr_model="",  # Invalid empty model
                 target_language="es",
-                voice="kokoro"
             )
     def test_additional_params_default_initialization(self, sample_audio_upload):
@@ -376,7 +376,7 @@ class TestProcessingRequestDto:
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             additional_params=None
         )

             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             source_language="en"
         )
             audio=sample_audio_upload,
             asr_model="whisper-medium",
             target_language="fr",
+            voice="chatterbox"
         )
         assert dto.speed == 1.0  # Default speed
             audio=sample_audio_upload,
             asr_model="whisper-large",
             target_language="de",
+            voice="chatterbox",
             additional_params=additional_params
         )
                 audio="invalid_audio",  # Not AudioUploadDto
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox"
             )
     def test_empty_asr_model_validation(self, sample_audio_upload):
                 audio=sample_audio_upload,
                 asr_model="",
                 target_language="es",
+                voice="chatterbox"
             )
     def test_unsupported_asr_model_validation(self, sample_audio_upload):
                 audio=sample_audio_upload,
                 asr_model="invalid-model",
                 target_language="es",
+                voice="chatterbox"
             )
     def test_supported_asr_models(self, sample_audio_upload):
                 audio=sample_audio_upload,
                 asr_model=model,
                 target_language="es",
+                voice="chatterbox"
             )
             assert dto.asr_model == model
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="",
+                voice="chatterbox"
             )
     def test_unsupported_target_language_validation(self, sample_audio_upload):
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="invalid-lang",
+                voice="chatterbox"
             )
     def test_unsupported_source_language_validation(self, sample_audio_upload):
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox",
                 source_language="invalid-lang"
             )
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language=lang,
+                voice="chatterbox",
                 source_language=lang
             )
             assert dto.target_language == lang
     def test_supported_voices(self, sample_audio_upload):
         """Test all supported voices"""
+        supported_voices = ['chatterbox']
         for voice in supported_voices:
             # Should not raise exception
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox",
                 speed=0.3  # Too low
             )
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox",
                 speed=2.5  # Too high
             )
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox",
                 speed=speed
             )
             assert dto.speed == speed
                 audio=sample_audio_upload,
                 asr_model="whisper-small",
                 target_language="es",
+                voice="chatterbox",
                 additional_params="invalid"  # Not a dict
             )
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="en",
+            voice="chatterbox",
             source_language="en"
         )
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             source_language="en"
         )
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox"
         )
         assert dto.requires_translation is True  # Assume translation needed
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.5,
             source_language="en",
             additional_params={"custom": "value"}
         assert result['asr_model'] == "whisper-small"
         assert result['target_language'] == "es"
         assert result['source_language'] == "en"
+        assert result['voice'] == "chatterbox"
         assert result['speed'] == 1.5
         assert result['requires_translation'] is True
         assert result['additional_params'] == {"custom": "value"}
                 audio=sample_audio_upload,
                 asr_model="",  # Invalid empty model
                 target_language="es",
+                voice="chatterbox"
             )
     def test_additional_params_default_initialization(self, sample_audio_upload):
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             additional_params=None
         )

tests/unit/application/services/test_audio_processing_service.py CHANGED Viewed

@@ -71,7 +71,7 @@ class TestAudioProcessingApplicationService:
         }
         config.get_tts_config.return_value = {
-            'preferred_providers': ['kokoro', 'dia']
         }
         return config
@@ -92,7 +92,7 @@ class TestAudioProcessingApplicationService:
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
-            voice="kokoro",
             speed=1.0,
             source_language="en"
         )
@@ -279,7 +279,7 @@ class TestAudioProcessingApplicationService:
     def test_perform_speech_synthesis_success(self, mock_open, service, mock_container):
         """Test successful speech synthesis"""
         text = TextContent(text="Hola mundo", language="es")
-        voice = "kokoro"
         speed = 1.0
         language = "es"
         temp_dir = "/tmp/test"
@@ -306,7 +306,7 @@ class TestAudioProcessingApplicationService:
     def test_perform_speech_synthesis_failure(self, service, mock_container):
         """Test speech synthesis failure"""
         text = TextContent(text="Hola mundo", language="es")
-        voice = "kokoro"
         speed = 1.0
         language = "es"
         temp_dir = "/tmp/test"
@@ -379,7 +379,7 @@ class TestAudioProcessingApplicationService:
         # Verify expected values
         assert 'whisper-small' in result['asr_models']
-        assert 'kokoro' in result['voices']
         assert 'en' in result['languages']
     def test_cleanup(self, service):

         }
         config.get_tts_config.return_value = {
+            'preferred_providers': ['chatterbox']
         }
         return config
             audio=sample_audio_upload,
             asr_model="whisper-small",
             target_language="es",
+            voice="chatterbox",
             speed=1.0,
             source_language="en"
         )
     def test_perform_speech_synthesis_success(self, mock_open, service, mock_container):
         """Test successful speech synthesis"""
         text = TextContent(text="Hola mundo", language="es")
+        voice = "chatterbox"
         speed = 1.0
         language = "es"
         temp_dir = "/tmp/test"
     def test_perform_speech_synthesis_failure(self, service, mock_container):
         """Test speech synthesis failure"""
         text = TextContent(text="Hola mundo", language="es")
+        voice = "chatterbox"
         speed = 1.0
         language = "es"
         temp_dir = "/tmp/test"
         # Verify expected values
         assert 'whisper-small' in result['asr_models']
+        assert 'chatterbox' in result['voices']
         assert 'en' in result['languages']
     def test_cleanup(self, service):

tests/unit/application/services/test_configuration_service.py CHANGED Viewed

@@ -29,7 +29,7 @@ class TestConfigurationApplicationService:
         # Mock configuration methods
         config.get_tts_config.return_value = {
-            'preferred_providers': ['kokoro', 'dia'],
             'default_speed': 1.0,
             'default_language': 'en',
             'enable_streaming': False,
@@ -128,7 +128,7 @@ class TestConfigurationApplicationService:
         """Test successful TTS configuration retrieval"""
         result = service.get_tts_configuration()
-        assert result['preferred_providers'] == ['kokoro', 'dia']
         assert result['default_speed'] == 1.0
         mock_config.get_tts_config.assert_called_once()
@@ -303,7 +303,7 @@ class TestConfigurationApplicationService:
     def test_validate_tts_updates_valid(self, service):
         """Test TTS updates validation with valid data"""
         updates = {
-            'preferred_providers': ['kokoro', 'dia'],
             'default_speed': 1.5,
             'default_language': 'es',
             'enable_streaming': True,

         # Mock configuration methods
         config.get_tts_config.return_value = {
+            'preferred_providers': ['chatterbox'],
             'default_speed': 1.0,
             'default_language': 'en',
             'enable_streaming': False,
         """Test successful TTS configuration retrieval"""
         result = service.get_tts_configuration()
+        assert result['preferred_providers'] == ['chatterbox']
         assert result['default_speed'] == 1.0
         mock_config.get_tts_config.assert_called_once()
     def test_validate_tts_updates_valid(self, service):
         """Test TTS updates validation with valid data"""
         updates = {
+            'preferred_providers': ['chatterbox'],
             'default_speed': 1.5,
             'default_language': 'es',
             'enable_streaming': True,

tests/unit/domain/interfaces/test_speech_synthesis.py CHANGED Viewed

@@ -215,24 +215,24 @@ class TestISpeechSynthesisService:
         class KokoroImplementation(ISpeechSynthesisService):
             def synthesize(self, request):
-                return AudioContent(data=b"kokoro_audio", format="wav", sample_rate=22050, duration=1.0)
             def synthesize_stream(self, request):
-                yield AudioChunk(data=b"kokoro_chunk", format="wav", sample_rate=22050, chunk_index=0, is_final=True)
         class DiaImplementation(ISpeechSynthesisService):
             def synthesize(self, request):
-                return AudioContent(data=b"dia_audio", format="wav", sample_rate=22050, duration=1.0)
             def synthesize_stream(self, request):
-                yield AudioChunk(data=b"dia_chunk", format="wav", sample_rate=22050, chunk_index=0, is_final=True)
-        kokoro = KokoroImplementation()
-        dia = DiaImplementation()
-        assert isinstance(kokoro, ISpeechSynthesisService)
-        assert isinstance(dia, ISpeechSynthesisService)
-        assert type(kokoro) != type(dia)
     def test_interface_methods_can_be_called_polymorphically(self):
         """Test that interface methods can be called polymorphically."""

         class KokoroImplementation(ISpeechSynthesisService):
             def synthesize(self, request):
+                return AudioContent(data=b"chatterbox_audio", format="wav", sample_rate=22050, duration=1.0)
             def synthesize_stream(self, request):
+                yield AudioChunk(data=b"chatterbox_chunk", format="wav", sample_rate=22050, chunk_index=0, is_final=True)
         class DiaImplementation(ISpeechSynthesisService):
             def synthesize(self, request):
+                return AudioContent(data=b"chatterbox2_audio", format="wav", sample_rate=22050, duration=1.0)
             def synthesize_stream(self, request):
+                yield AudioChunk(data=b"chatterbox2_chunk", format="wav", sample_rate=22050, chunk_index=0, is_final=True)
+        chatterbox1 = KokoroImplementation()
+        chatterbox2 = DiaImplementation()
+        assert isinstance(chatterbox1, ISpeechSynthesisService)
+        assert isinstance(chatterbox2, ISpeechSynthesisService)
+        assert type(chatterbox1) != type(chatterbox2)
     def test_interface_methods_can_be_called_polymorphically(self):
         """Test that interface methods can be called polymorphically."""

tests/unit/infrastructure/factories/test_tts_provider_factory.py CHANGED Viewed

@@ -41,31 +41,21 @@ class TestTTSProviderFactory:
         """Test factory initialization."""
         assert isinstance(self.factory._providers, dict)
         assert isinstance(self.factory._provider_instances, dict)
-        assert 'dummy' in self.factory._providers
-    @patch('src.infrastructure.tts.provider_factory.DummyTTSProvider')
-    def test_register_default_providers_dummy(self, mock_dummy):
-        """Test registration of dummy provider."""
         factory = TTSProviderFactory()
-        assert 'dummy' in factory._providers
-        assert factory._providers['dummy'] == mock_dummy
-    @patch('src.infrastructure.tts.provider_factory.KokoroTTSProvider')
-    def test_register_default_providers_kokoro_available(self, mock_kokoro):
-        """Test registration of Kokoro provider when available."""
-        factory = TTSProviderFactory()
-        assert 'kokoro' in factory._providers
-        assert factory._providers['kokoro'] == mock_kokoro
-    @patch('src.infrastructure.tts.kokoro_provider.KokoroTTSProvider', side_effect=ImportError("Not available"))
-    def test_register_default_providers_kokoro_unavailable(self, mock_kokoro):
-        """Test handling when Kokoro provider is not available."""
-        factory = TTSProviderFactory()
-        # Should not crash, just not register the provider
-        assert 'kokoro' not in factory._providers or factory._providers.get('kokoro') is None
     @patch.object(TTSProviderFactory, '_providers', {'mock': MockTTSProvider})
     def test_get_available_providers(self):
@@ -116,14 +106,11 @@ class TestTTSProviderFactory:
             with pytest.raises(SpeechSynthesisException, match="Failed to create TTS provider mock"):
                 self.factory.create_provider('mock')
-    @patch.object(TTSProviderFactory, '_providers', {'mock': MockTTSProvider})
     def test_create_provider_with_lang_code(self):
         """Test creating provider with language code."""
         with patch.object(MockTTSProvider, 'is_available', return_value=True):
-            # Mock providers that accept lang_code
-            self.factory._providers['kokoro'] = MockTTSProvider
-            provider = self.factory.create_provider('kokoro', lang_code='en')
             assert isinstance(provider, MockTTSProvider)
     @patch.object(TTSProviderFactory, '_providers', {

         """Test factory initialization."""
         assert isinstance(self.factory._providers, dict)
         assert isinstance(self.factory._provider_instances, dict)
+        assert 'chatterbox' in self.factory._providers
+    @patch('src.infrastructure.tts.provider_factory.ChatterboxTTSProvider')
+    def test_register_default_providers_chatterbox(self, mock_chatterbox):
+        """Test registration of chatterbox provider."""
         factory = TTSProviderFactory()
+        assert 'chatterbox' in factory._providers
+        assert factory._providers['chatterbox'] == mock_chatterbox
+    @patch('src.infrastructure.tts.chatterbox_provider.ChatterboxTTSProvider', side_effect=ImportError("Not available"))
+    def test_register_default_providers_chatterbox_unavailable(self, mock_chatterbox):
+        """Test handling when Chatterbox provider is not available."""
+        with pytest.raises(SpeechSynthesisException, match="No TTS providers available"):
+            TTSProviderFactory()
     @patch.object(TTSProviderFactory, '_providers', {'mock': MockTTSProvider})
     def test_get_available_providers(self):
             with pytest.raises(SpeechSynthesisException, match="Failed to create TTS provider mock"):
                 self.factory.create_provider('mock')
+    @patch.object(TTSProviderFactory, '_providers', {'chatterbox': MockTTSProvider})
     def test_create_provider_with_lang_code(self):
         """Test creating provider with language code."""
         with patch.object(MockTTSProvider, 'is_available', return_value=True):
+            provider = self.factory.create_provider('chatterbox', lang_code='en')
             assert isinstance(provider, MockTTSProvider)
     @patch.object(TTSProviderFactory, '_providers', {