Spaces:

PlotweaverModel
/

AudioBook

Running

App Files Files Community

PlotweaverModel commited on 4 days ago

Commit

f53f3bc

verified ·

1 Parent(s): 0b4922d

Upload app.py

Browse files

Files changed (1) hide show

app.py +86 -64

app.py CHANGED Viewed

@@ -129,14 +129,14 @@ PRESET_VOICES = [
 ]
 # YourVoic voices mapped by language
-# Each language has specific voice names on YourVoic
 YOURVOIC_VOICE_MAP = {
     # African
     "Afrikaans": ["Annika", "Willem"],
     "Amharic": ["Abebe", "Meron"],
     "Swahili": ["Jabari", "Amara"],
-    # Indian
-    "Hindi": ["Natasha", "Rahul", "Deepika", "Aditya"],
     "Marathi": ["Anjali", "Rohan"],
     "Bengali": ["Sneha", "Aryan"],
     "Telugu": ["Arjun", "Lakshmi"],
@@ -147,19 +147,19 @@ YOURVOIC_VOICE_MAP = {
     "Punjabi": ["Vikram", "Simran"],
     "Odia": ["Kavya", "Subham"],
     "Assamese": ["Jyoti", "Bikash"],
-    "Maithili": ["Priya", "Rahul"],
-    "Kashmiri": ["Priya", "Rahul"],
-    "Sindhi": ["Priya", "Rahul"],
-    "Konkani": ["Priya", "Rahul"],
-    "Dogri": ["Priya", "Rahul"],
-    "Manipuri": ["Priya", "Rahul"],
-    "Bodo": ["Priya", "Rahul"],
-    "Sanskrit": ["Priya", "Rahul"],
     # South Asian
-    "Urdu": ["Natasha", "Rahul"],
-    "Nepali": ["Priya", "Rahul"],
-    "Sinhala": ["Priya", "Rahul"],
-    # Fallback
     "English": ["Peter", "Sarah", "Caleb"],
 }
@@ -710,30 +710,30 @@ DESCRIPTION = """
 The app automatically selects the right engine based on your chosen language. Or pick manually!
 """
-# Build language dropdown grouped by engine
 lang_choices = []
-# Qwen languages first (starred)
 for name in LANGUAGES:
     if LANGUAGES[name]["engine"] == "qwen":
-        lang_choices.append(f"Q: {name}")
 # African languages
 for name in ["Afrikaans", "Amharic", "Swahili"]:
     if name in LANGUAGES:
-        lang_choices.append(f"YV: {name}")
 # Indian languages
 for name in ["Hindi", "Marathi", "Bengali", "Telugu", "Tamil", "Gujarati", "Kannada",
              "Malayalam", "Punjabi", "Odia", "Assamese", "Maithili", "Kashmiri",
              "Sindhi", "Konkani", "Dogri", "Manipuri", "Bodo", "Sanskrit"]:
     if name in LANGUAGES:
-        lang_choices.append(f"YV: {name}")
 # South Asian
 for name in ["Urdu", "Nepali", "Sinhala"]:
     if name in LANGUAGES:
-        lang_choices.append(f"YV: {name}")
 def clean_language_name(choice):
-    return choice.replace("Q: ", "").replace("YV: ", "").replace("* ", "").strip()
 def auto_select_engine(language_name):
@@ -743,32 +743,55 @@ def auto_select_engine(language_name):
     return "qwen"
-def on_voice_mode_change(mode):
-    if mode == "Clone a Voice":
-        return (gr.update(visible=False), gr.update(visible=True), gr.update(visible=True),
-                gr.update(visible=False), gr.update(visible=False), gr.update(visible=False))
-    elif mode == "YourVoic (Emotional AI)":
-        return (gr.update(visible=False), gr.update(visible=False), gr.update(visible=False),
-                gr.update(visible=True), gr.update(visible=True), gr.update(visible=True))
-    else:  # Preset Voice
-        return (gr.update(visible=True), gr.update(visible=False), gr.update(visible=False),
-                gr.update(visible=False), gr.update(visible=False), gr.update(visible=False))
 def on_language_change(lang_choice):
-    """Auto-switch voice engine when language changes."""
     lang = clean_language_name(lang_choice)
     engine = auto_select_engine(lang)
     if engine == "yourvoic":
-        return gr.update(value="YourVoic (Emotional AI)")
     else:
-        return gr.update(value="Preset Voice")
-def generate_wrapper(text_input, file_input, language_choice, voice_mode,
                      preset_voice, clone_audio, yv_voice, yv_model, yv_emotion,
                      add_pauses, progress=gr.Progress()):
     language = clean_language_name(language_choice)
     return generate_audiobook(
         text_input, file_input, language, voice_mode,
         preset_voice, clone_audio, yv_voice, yv_model, yv_emotion,
@@ -788,36 +811,34 @@ with gr.Blocks(title="Audiobook Generator") as demo:
                                  file_types=[".txt", ".md", ".text", ".pdf", ".docx", ".doc"], type="filepath")
             sample_btn = gr.Button("Load Sample Text", variant="secondary", size="sm")
-            target_lang = gr.Dropdown(choices=lang_choices, value="Q: English", label="Target Language",
-                                      info="Q: = Qwen engine, YV: = YourVoic engine. Auto-switches voice engine.")
-            voice_mode = gr.Radio(
-                choices=["Preset Voice", "Clone a Voice", "YourVoic (Emotional AI)"],
-                value="Preset Voice", label="Voice Engine",
-            )
-            # Preset voice controls
             preset_voice = gr.Dropdown(choices=PRESET_VOICES, value="Jennifer -- Cinematic narrator",
-                                       label="Qwen Preset Voice", visible=True)
-            # Clone voice controls
-            clone_audio = gr.Audio(label="Voice Sample (10s-3min)", type="filepath", visible=False)
-            clone_info = gr.Markdown(
-                value=("> **Voice cloning tips:** 10-180s clear speech, no background noise. "
-                       "Supports 10 core languages only."),
-                visible=False,
-            )
-            # YourVoic controls
-            yv_voice = gr.Dropdown(choices=YOURVOIC_VOICES, value="Natasha -- Hindi",
                                    label="YourVoic Voice", visible=False, allow_custom_value=True,
-                                   info="Type any voice name or pick from the list")
             yv_model = gr.Dropdown(choices=YOURVOIC_MODELS, value="aura-prime -- Balanced quality and speed (recommended)",
                                    label="YourVoic Model", visible=False)
             yv_emotion = gr.Dropdown(choices=YOURVOIC_EMOTIONS, value="friendly",
                                      label="Emotion Style", visible=False,
                                      info="Add emotional expression to the narration")
             add_pauses = gr.Checkbox(value=True, label="Add pauses between sections", info="1.5s silence between chunks")
             generate_btn = gr.Button("Generate Audiobook", variant="primary", size="lg")
@@ -828,19 +849,20 @@ with gr.Blocks(title="Audiobook Generator") as demo:
             with gr.Accordion("Translation / Narration Transcript", open=False):
                 transcript_output = gr.Markdown()
     sample_btn.click(fn=lambda: SAMPLE_TEXT, outputs=text_input)
-    # Auto-switch voice engine when language changes
-    target_lang.change(fn=on_language_change, inputs=target_lang, outputs=[voice_mode])
-    voice_mode.change(
-        fn=on_voice_mode_change, inputs=voice_mode,
-        outputs=[preset_voice, clone_audio, clone_info, yv_voice, yv_model, yv_emotion],
     )
     generate_btn.click(
         fn=generate_wrapper,
-        inputs=[text_input, file_input, target_lang, voice_mode,
                 preset_voice, clone_audio, yv_voice, yv_model, yv_emotion, add_pauses],
         outputs=[audio_output, stats_output, transcript_output],
     )

 ]
 # YourVoic voices mapped by language
+# Confirmed voice names from yourvoic.com
 YOURVOIC_VOICE_MAP = {
     # African
     "Afrikaans": ["Annika", "Willem"],
     "Amharic": ["Abebe", "Meron"],
     "Swahili": ["Jabari", "Amara"],
+    # Indian - confirmed from yourvoic.com
+    "Hindi": ["Rahul", "Deepika", "Aditya"],
     "Marathi": ["Anjali", "Rohan"],
     "Bengali": ["Sneha", "Aryan"],
     "Telugu": ["Arjun", "Lakshmi"],
     "Punjabi": ["Vikram", "Simran"],
     "Odia": ["Kavya", "Subham"],
     "Assamese": ["Jyoti", "Bikash"],
+    "Maithili": ["Rahul", "Deepika"],
+    "Kashmiri": ["Rahul", "Deepika"],
+    "Sindhi": ["Rahul", "Deepika"],
+    "Konkani": ["Rahul", "Deepika"],
+    "Dogri": ["Rahul", "Deepika"],
+    "Manipuri": ["Rahul", "Deepika"],
+    "Bodo": ["Rahul", "Deepika"],
+    "Sanskrit": ["Rahul", "Deepika"],
     # South Asian
+    "Urdu": ["Rahul", "Deepika"],
+    "Nepali": ["Rahul", "Deepika"],
+    "Sinhala": ["Rahul", "Deepika"],
+    # English fallback
     "English": ["Peter", "Sarah", "Caleb"],
 }
 The app automatically selects the right engine based on your chosen language. Or pick manually!
 """
+# Build language dropdown - clean names, no prefixes
 lang_choices = []
+# Qwen languages first
 for name in LANGUAGES:
     if LANGUAGES[name]["engine"] == "qwen":
+        lang_choices.append(name)
 # African languages
 for name in ["Afrikaans", "Amharic", "Swahili"]:
     if name in LANGUAGES:
+        lang_choices.append(name)
 # Indian languages
 for name in ["Hindi", "Marathi", "Bengali", "Telugu", "Tamil", "Gujarati", "Kannada",
              "Malayalam", "Punjabi", "Odia", "Assamese", "Maithili", "Kashmiri",
              "Sindhi", "Konkani", "Dogri", "Manipuri", "Bodo", "Sanskrit"]:
     if name in LANGUAGES:
+        lang_choices.append(name)
 # South Asian
 for name in ["Urdu", "Nepali", "Sinhala"]:
     if name in LANGUAGES:
+        lang_choices.append(name)
 def clean_language_name(choice):
+    return choice.strip()
 def auto_select_engine(language_name):
     return "qwen"
 def on_language_change(lang_choice):
+    """Auto-switch visible controls based on language engine."""
     lang = clean_language_name(lang_choice)
     engine = auto_select_engine(lang)
     if engine == "yourvoic":
+        return (
+            gr.update(visible=False),  # preset_voice
+            gr.update(visible=True),   # yv_voice
+            gr.update(visible=True),   # yv_model
+            gr.update(visible=True),   # yv_emotion
+            gr.update(value=f"Engine: YourVoic (1000+ emotional voices)"),  # engine_label
+            gr.update(visible=False, value=False),  # use_clone - hide and uncheck
+            gr.update(visible=False),  # clone_audio
+            gr.update(visible=False),  # clone_info
+        )
     else:
+        return (
+            gr.update(visible=True),   # preset_voice
+            gr.update(visible=False),  # yv_voice
+            gr.update(visible=False),  # yv_model
+            gr.update(visible=False),  # yv_emotion
+            gr.update(value=f"Engine: Qwen3.5-Omni-Plus (translate + speak)"),  # engine_label
+            gr.update(visible=True),   # use_clone - show
+            gr.update(visible=False),  # clone_audio (still hidden until checkbox checked)
+            gr.update(visible=False),  # clone_info
+        )
+def on_clone_toggle(use_clone):
+    """Show/hide clone controls."""
+    if use_clone:
+        return gr.update(visible=True), gr.update(visible=True)
+    return gr.update(visible=False), gr.update(visible=False)
+def generate_wrapper(text_input, file_input, language_choice, use_clone,
                      preset_voice, clone_audio, yv_voice, yv_model, yv_emotion,
                      add_pauses, progress=gr.Progress()):
     language = clean_language_name(language_choice)
+    engine = auto_select_engine(language)
+    # Build voice_mode string for the pipeline
+    if use_clone:
+        voice_mode = "Clone a Voice"
+    elif engine == "yourvoic":
+        voice_mode = "YourVoic (Emotional AI)"
+    else:
+        voice_mode = "Preset Voice"
     return generate_audiobook(
         text_input, file_input, language, voice_mode,
         preset_voice, clone_audio, yv_voice, yv_model, yv_emotion,
                                  file_types=[".txt", ".md", ".text", ".pdf", ".docx", ".doc"], type="filepath")
             sample_btn = gr.Button("Load Sample Text", variant="secondary", size="sm")
+            target_lang = gr.Dropdown(choices=lang_choices, value="English", label="Target Language",
+                                      info="The right voice engine is selected automatically based on language.")
+            engine_label = gr.Markdown(value="Engine: Qwen3.5-Omni-Plus (translate + speak)")
+            # Qwen preset voice (visible for Qwen languages)
             preset_voice = gr.Dropdown(choices=PRESET_VOICES, value="Jennifer -- Cinematic narrator",
+                                       label="Narrator Voice", visible=True)
+            # YourVoic controls (visible for YourVoic languages)
+            yv_voice = gr.Dropdown(choices=YOURVOIC_VOICES, value="Rahul -- Hindi",
                                    label="YourVoic Voice", visible=False, allow_custom_value=True,
+                                   info="Auto-matched to your language. Type custom name if needed.")
             yv_model = gr.Dropdown(choices=YOURVOIC_MODELS, value="aura-prime -- Balanced quality and speed (recommended)",
                                    label="YourVoic Model", visible=False)
             yv_emotion = gr.Dropdown(choices=YOURVOIC_EMOTIONS, value="friendly",
                                      label="Emotion Style", visible=False,
                                      info="Add emotional expression to the narration")
+            # Voice cloning toggle (optional, works for Qwen languages only)
+            use_clone = gr.Checkbox(value=False, label="Use Voice Cloning (Qwen, 10 languages only)",
+                                    info="Clone a voice from audio sample instead of using preset")
+            clone_audio = gr.Audio(label="Voice Sample (10s-3min)", type="filepath", visible=False)
+            clone_info = gr.Markdown(
+                value="> 10-180s clear speech, no background noise. Supports: EN, ZH, JA, KO, DE, FR, RU, PT, ES, IT.",
+                visible=False,
+            )
             add_pauses = gr.Checkbox(value=True, label="Add pauses between sections", info="1.5s silence between chunks")
             generate_btn = gr.Button("Generate Audiobook", variant="primary", size="lg")
             with gr.Accordion("Translation / Narration Transcript", open=False):
                 transcript_output = gr.Markdown()
+    # Events
     sample_btn.click(fn=lambda: SAMPLE_TEXT, outputs=text_input)
+    target_lang.change(
+        fn=on_language_change, inputs=target_lang,
+        outputs=[preset_voice, yv_voice, yv_model, yv_emotion, engine_label,
+                 use_clone, clone_audio, clone_info],
     )
+    use_clone.change(fn=on_clone_toggle, inputs=use_clone, outputs=[clone_audio, clone_info])
     generate_btn.click(
         fn=generate_wrapper,
+        inputs=[text_input, file_input, target_lang, use_clone,
                 preset_voice, clone_audio, yv_voice, yv_model, yv_emotion, add_pauses],
         outputs=[audio_output, stats_output, transcript_output],
     )