Spaces:

Kit-Lemonfoot
/

vtuber_rvc_models

Running

App Files Files Community

Kit-Lemonfoot commited on Dec 2, 2023

Commit

dcb0521

1 Parent(s): 9bf15a9

Added more Holostars, more Phase, Kizuna, updated Pekora and Kaela, and fixed many bugs.

Browse files

Files changed (2) hide show

app.py +78 -22
edgetts_db.py +230 -0

app.py CHANGED Viewed

@@ -27,20 +27,23 @@ from lib.infer_pack.models import (
 )
 from vc_infer_pipeline import VC
 from config import Config
 config = Config()
 logging.getLogger("numba").setLevel(logging.WARNING)
 limitation = os.getenv("SYSTEM") == "spaces"
 #limitation=True
 audio_mode = []
 f0method_mode = []
 if limitation is True:
     f0method_info = "PM is better for testing, RMVPE is better for finalized generations. (Default: RMVPE)"
-    audio_mode = ["TTS Audio", "Upload audio"]
     f0method_mode = ["pm", "rmvpe"]
 else:
     f0method_info = "PM is fast but low quality, crepe and harvest are slow but good quality, RMVPE is the best of both worlds. (Default: RMVPE)"
-    audio_mode = ["TTS Audio", "Youtube", "Upload audio"]
     f0method_mode = ["pm", "crepe", "harvest", "rmvpe"]
 #if os.path.isfile("rmvpe.pt"):
@@ -54,7 +57,7 @@ vcArr.append(VC(32000, config))
 vcArr.append(VC(40000, config))
 vcArr.append(VC(48000, config))
-def infer(name, path, index, vc_audio_mode, vc_input, vc_upload, tts_text, tts_voice, f0_up_key, f0_method, index_rate, filter_radius, resample_sr, rms_mix_rate, protect):
     try:
         #Setup audio
         if vc_audio_mode == "Input path" or "Youtube" and vc_input != "":
@@ -71,17 +74,35 @@ def infer(name, path, index, vc_audio_mode, vc_input, vc_upload, tts_text, tts_v
                 audio = librosa.to_mono(audio.transpose(1, 0))
             if sampling_rate != 16000:
                 audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
-        elif vc_audio_mode == "TTS Audio":
             if len(tts_text) > 250 and limitation:
                 return "Text is too long.", None
-            if tts_text is None or tts_voice is None:
                 return "You need to enter text and select a voice.", None
-            asyncio.run(edge_tts.Communicate(tts_text, "-".join(tts_voice.split('-')[:-1])).save("tts.mp3"))
-            audio, sr = librosa.load("tts.mp3", sr=16000, mono=True)
             duration = audio.shape[0] / sr
             if duration > 30 and limitation:
                 return "Your text generated an audio that was too long.", None
             vc_input = "tts.mp3"
         times = [0, 0, 0]
         f0_up_key = int(f0_up_key)
@@ -264,9 +285,11 @@ def change_audio_mode(vc_audio_mode):
             gr.Slider.update(visible=False),
             gr.Audio.update(visible=False),
             gr.Button.update(visible=False),
-            # TTS
             gr.Textbox.update(visible=False),
-            gr.Dropdown.update(visible=False)
         )
     elif vc_audio_mode == "Upload audio":
         return (
@@ -284,9 +307,11 @@ def change_audio_mode(vc_audio_mode):
             gr.Slider.update(visible=False),
             gr.Audio.update(visible=False),
             gr.Button.update(visible=False),
-            # TTS
             gr.Textbox.update(visible=False),
-            gr.Dropdown.update(visible=False)
         )
     elif vc_audio_mode == "Youtube":
         return (
@@ -306,9 +331,11 @@ def change_audio_mode(vc_audio_mode):
             gr.Button.update(visible=True),
             # TTS
             gr.Textbox.update(visible=False),
-            gr.Dropdown.update(visible=False)
         )
-    elif vc_audio_mode == "TTS Audio":
         return (
             # Input & Upload
             gr.Textbox.update(visible=False),
@@ -326,7 +353,31 @@ def change_audio_mode(vc_audio_mode):
             gr.Button.update(visible=False),
             # TTS
             gr.Textbox.update(visible=True),
-            gr.Dropdown.update(visible=True)
         )
     else:
         return (
@@ -346,14 +397,15 @@ def change_audio_mode(vc_audio_mode):
             gr.Button.update(visible=False),
             # TTS
             gr.Textbox.update(visible=False, interactive=True),
-            gr.Dropdown.update(visible=False, interactive=True)
         )
 if __name__ == '__main__':
     load_hubert()
     categories = load_model()
-    tts_voice_list = asyncio.get_event_loop().run_until_complete(edge_tts.list_voices())
-    voices = [f"{v['ShortName']}-{v['Gender']}" for v in tts_voice_list]
     with gr.Blocks(theme=gr.themes.Base()) as app:
         gr.Markdown(
             "# <center> VTuber RVC Models\n"
@@ -383,7 +435,7 @@ if __name__ == '__main__':
                                 )
                             with gr.Row():
                                 with gr.Column():
-                                    vc_audio_mode = gr.Dropdown(label="Input voice", choices=audio_mode, allow_custom_value=False, value="TTS Audio")
                                     # Input and Upload
                                     vc_input = gr.Textbox(label="Input audio path", visible=False)
                                     vc_upload = gr.Audio(label="Upload audio file", visible=False, interactive=True)
@@ -397,7 +449,9 @@ if __name__ == '__main__':
                                     vc_audio_preview = gr.Audio(label="Audio Preview", visible=False)
                                     # TTS
                                     tts_text = gr.Textbox(visible=True, label="TTS text", info="Text to speech input (There is a limit of 250 characters)", interactive=True)
-                                    tts_voice = gr.Dropdown(label="Edge-tts speaker", choices=voices, visible=True, allow_custom_value=False, value="en-US-AnaNeural-Female", interactive=True)
                                 with gr.Column():
                                     vc_transform0 = gr.Number(label="Transpose", value=0, info='Type "12" to change from male to female voice. Type "-12" to change female to male voice')
                                     f0method0 = gr.Radio(
@@ -489,6 +543,7 @@ if __name__ == '__main__':
                                 resample_sr0,
                                 rms_mix_rate0,
                                 protect0,
                             ],
                             outputs=[vc_log, vc_output]
                         )
@@ -519,15 +574,16 @@ if __name__ == '__main__':
                                 vc_combined_output,
                                 vc_combine,
                                 tts_text,
-                                tts_voice
                             ]
                         )
         gr.Markdown(
             "## <center>Credit to:\n"
             "#### <center>Original devs:\n"
-            "<center>the RVC Project, lj1995, zomehwh \n\n"
             "#### <center>Model creators:\n"
-            "<center>dacoolkid44, Hijack, Maki Ligon, megaaziib, KitLemonfoot, yeey5, Sui, MahdeenSky, Itaxhix, Acato, Kyuubical, Listra92, IshimaIshimsky, ZomballTH, Jotape91, RigidSpinner, RandomAssBettel, Mimizukari, Oida, Shu-Kun, Nhat Minh, Ardha27, Legitdark, TempoHawk, 0x3e9, Kaiaya, Skeetawn, Sonphantrung, Pianissimo, Gloomwastragic, Sunesu, Aimbo, Act8113, Blyxeen\n"
         )
 if limitation is True:
     app.queue(concurrency_count=1, max_size=20, api_open=config.api).launch(share=config.colab)

 )
 from vc_infer_pipeline import VC
 from config import Config
+from edgetts_db import tts_order_voice
 config = Config()
 logging.getLogger("numba").setLevel(logging.WARNING)
 limitation = os.getenv("SYSTEM") == "spaces"
 #limitation=True
+language_dict = tts_order_voice
 audio_mode = []
 f0method_mode = []
 if limitation is True:
     f0method_info = "PM is better for testing, RMVPE is better for finalized generations. (Default: RMVPE)"
+    audio_mode = ["Edge-TTS", "Upload audio", "Record Audio"]
     f0method_mode = ["pm", "rmvpe"]
 else:
     f0method_info = "PM is fast but low quality, crepe and harvest are slow but good quality, RMVPE is the best of both worlds. (Default: RMVPE)"
+    audio_mode = ["Edge-TTS", "Youtube", "Upload audio", "Record Audio"]
     f0method_mode = ["pm", "crepe", "harvest", "rmvpe"]
 #if os.path.isfile("rmvpe.pt"):
 vcArr.append(VC(40000, config))
 vcArr.append(VC(48000, config))
+def infer(name, path, index, vc_audio_mode, vc_input, vc_upload, tts_text, tts_voice, f0_up_key, f0_method, index_rate, filter_radius, resample_sr, rms_mix_rate, protect, record_button):
     try:
         #Setup audio
         if vc_audio_mode == "Input path" or "Youtube" and vc_input != "":
                 audio = librosa.to_mono(audio.transpose(1, 0))
             if sampling_rate != 16000:
                 audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
+            tts_text = "Uploaded Audio"
+        elif vc_audio_mode == "Edge-TTS":
             if len(tts_text) > 250 and limitation:
                 return "Text is too long.", None
+            if tts_text is None or tts_voice is None or tts_text=="":
                 return "You need to enter text and select a voice.", None
+            voice = language_dict[tts_voice]
+            asyncio.run(edge_tts.Communicate(tts_text, voice).save("tts.mp3"))
+            try:
+                audio, sr = librosa.load("tts.mp3", sr=16000, mono=True)
+            except:
+                return "ERROR: Invalid characters for the chosen TTS speaker. (Change your TTS speaker to one that supports your language!)", None
             duration = audio.shape[0] / sr
             if duration > 30 and limitation:
                 return "Your text generated an audio that was too long.", None
             vc_input = "tts.mp3"
+        elif vc_audio_mode == "Record Audio":
+            if record_button is None:
+                return "Please record some audio.", None
+            sampling_rate, audio = record_button
+            duration = audio.shape[0] / sampling_rate
+            if duration > 60 and limitation:
+                return "Too long! Please record an audio file that is less than 1 minute.", None
+            audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
+            if len(audio.shape) > 1:
+                audio = librosa.to_mono(audio.transpose(1, 0))
+            if sampling_rate != 16000:
+                audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
+            tts_text = "Recorded Audio"
         times = [0, 0, 0]
         f0_up_key = int(f0_up_key)
             gr.Slider.update(visible=False),
             gr.Audio.update(visible=False),
             gr.Button.update(visible=False),
+            # EdgeTTS
             gr.Textbox.update(visible=False),
+            gr.Dropdown.update(visible=False),
+            # Record Own
+            gr.Audio.update(visible=False)
         )
     elif vc_audio_mode == "Upload audio":
         return (
             gr.Slider.update(visible=False),
             gr.Audio.update(visible=False),
             gr.Button.update(visible=False),
+            # EdgeTTS
             gr.Textbox.update(visible=False),
+            gr.Dropdown.update(visible=False),
+            # Record Own
+            gr.Audio.update(visible=False)
         )
     elif vc_audio_mode == "Youtube":
         return (
             gr.Button.update(visible=True),
             # TTS
             gr.Textbox.update(visible=False),
+            gr.Dropdown.update(visible=False),
+            # Record Own
+            gr.Audio.update(visible=False)
         )
+    elif vc_audio_mode == "Edge-TTS":
         return (
             # Input & Upload
             gr.Textbox.update(visible=False),
             gr.Button.update(visible=False),
             # TTS
             gr.Textbox.update(visible=True),
+            gr.Dropdown.update(visible=True),
+            # Record Own
+            gr.Audio.update(visible=False)
+        )
+    elif vc_audio_mode == "Record Audio":
+        return (
+            # Input & Upload
+            gr.Textbox.update(visible=False),
+            gr.Audio.update(visible=False),
+            # Youtube
+            gr.Dropdown.update(visible=False),
+            gr.Textbox.update(visible=False),
+            gr.Dropdown.update(visible=False),
+            gr.Button.update(visible=False),
+            gr.Audio.update(visible=False),
+            gr.Audio.update(visible=False),
+            gr.Audio.update(visible=False),
+            gr.Slider.update(visible=False),
+            gr.Audio.update(visible=False),
+            gr.Button.update(visible=False),
+            # TTS
+            gr.Textbox.update(visible=False),
+            gr.Dropdown.update(visible=False),
+            # Record Own
+            gr.Audio.update(visible=True)
         )
     else:
         return (
             gr.Button.update(visible=False),
             # TTS
             gr.Textbox.update(visible=False, interactive=True),
+            gr.Dropdown.update(visible=False, interactive=True),
+            # Record Own
+            gr.Audio.update(visible=False)
         )
 if __name__ == '__main__':
     load_hubert()
     categories = load_model()
+    voices = list(language_dict.keys())
     with gr.Blocks(theme=gr.themes.Base()) as app:
         gr.Markdown(
             "# <center> VTuber RVC Models\n"
                                 )
                             with gr.Row():
                                 with gr.Column():
+                                    vc_audio_mode = gr.Dropdown(label="Input voice", choices=audio_mode, allow_custom_value=False, value="Edge-TTS")
                                     # Input and Upload
                                     vc_input = gr.Textbox(label="Input audio path", visible=False)
                                     vc_upload = gr.Audio(label="Upload audio file", visible=False, interactive=True)
                                     vc_audio_preview = gr.Audio(label="Audio Preview", visible=False)
                                     # TTS
                                     tts_text = gr.Textbox(visible=True, label="TTS text", info="Text to speech input (There is a limit of 250 characters)", interactive=True)
+                                    tts_voice = gr.Dropdown(label="Edge-tts speaker", choices=voices, visible=True, allow_custom_value=False, value="English-Ana (Female)", interactive=True)
+                                    # Record Own
+                                    record_button = gr.Audio(source="microphone", label="Record your own audio", visible=False, interactive=True)
                                 with gr.Column():
                                     vc_transform0 = gr.Number(label="Transpose", value=0, info='Type "12" to change from male to female voice. Type "-12" to change female to male voice')
                                     f0method0 = gr.Radio(
                                 resample_sr0,
                                 rms_mix_rate0,
                                 protect0,
+                                record_button
                             ],
                             outputs=[vc_log, vc_output]
                         )
                                 vc_combined_output,
                                 vc_combine,
                                 tts_text,
+                                tts_voice,
+                                record_button
                             ]
                         )
         gr.Markdown(
             "## <center>Credit to:\n"
             "#### <center>Original devs:\n"
+            "<center>the RVC Project, lj1995, zomehwh, sysf\n\n"
             "#### <center>Model creators:\n"
+            "<center>dacoolkid44, Hijack, Maki Ligon, megaaziib, KitLemonfoot, yeey5, Sui, MahdeenSky, Itaxhix, Acato, Kyuubical, Listra92, IshimaIshimsky, ZomballTH, Jotape91, RigidSpinner, RandomAssBettel, Mimizukari, Oida, Shu-Kun, Nhat Minh, Ardha27, Legitdark, TempoHawk, 0x3e9, Kaiaya, Skeetawn, Sonphantrung, Pianissimo, RavenCutie21, Gloomwastragic, Sunesu, Aimbo, Act8113, Blyxeen\n"
         )
 if limitation is True:
     app.queue(concurrency_count=1, max_size=20, api_open=config.api).launch(share=config.colab)

edgetts_db.py ADDED Viewed

	@@ -0,0 +1,230 @@

+tts_order_voice = {'English-Jenny (Female)': 'en-US-JennyNeural',
+ 'English-Guy (Male)': 'en-US-GuyNeural',
+ 'English-Ana (Female)': 'en-US-AnaNeural',
+ 'English-Aria (Female)': 'en-US-AriaNeural',
+ 'English-Christopher (Male)': 'en-US-ChristopherNeural',
+ 'English-Eric (Male)': 'en-US-EricNeural',
+ 'English-Michelle (Female)': 'en-US-MichelleNeural',
+ 'English-Roger (Male)': 'en-US-RogerNeural',
+ 'Spanish (Mexican)-Dalia (Female)': 'es-MX-DaliaNeural',
+ 'Spanish (Mexican)-Jorge- (Male)': 'es-MX-JorgeNeural',
+ 'Korean-Sun-Hi- (Female)': 'ko-KR-SunHiNeural',
+ 'Korean-InJoon- (Male)': 'ko-KR-InJoonNeural',
+'Thai-Premwadee- (Female)': 'th-TH-PremwadeeNeural',
+ 'Thai-Niwat- (Male)': 'th-TH-NiwatNeural',
+ 'Vietnamese-HoaiMy- (Female)': 'vi-VN-HoaiMyNeural',
+'Vietnamese-NamMinh- (Male)': 'vi-VN-NamMinhNeural',
+ 'Japanese-Nanami- (Female)': 'ja-JP-NanamiNeural',
+ 'Japanese-Keita- (Male)': 'ja-JP-KeitaNeural',
+ 'French-Denise- (Female)': 'fr-FR-DeniseNeural',
+ 'French-Eloise- (Female)': 'fr-FR-EloiseNeural',
+ 'French-Henri- (Male)': 'fr-FR-HenriNeural',
+ 'Brazilian-Francisca- (Female)': 'pt-BR-FranciscaNeural',
+ 'Brazilian-Antonio- (Male)': 'pt-BR-AntonioNeural',
+ 'Indonesian-Ardi- (Male)': 'id-ID-ArdiNeural',
+ 'Indonesian-Gadis- (Female)': 'id-ID-GadisNeural',
+ 'Hebrew-Avri- (Male)': 'he-IL-AvriNeural',
+ 'Hebrew-Hila- (Female)': 'he-IL-HilaNeural',
+'Italian-Isabella- (Female)': 'it-IT-IsabellaNeural',
+ 'Italian-Diego- (Male)': 'it-IT-DiegoNeural',
+ 'Italian-Elsa- (Female)': 'it-IT-ElsaNeural',
+ 'Dutch-Colette- (Female)': 'nl-NL-ColetteNeural',
+ 'Dutch-Fenna- (Female)': 'nl-NL-FennaNeural',
+ 'Dutch-Maarten- (Male)': 'nl-NL-MaartenNeural',
+'Malese-Osman- (Male)': 'ms-MY-OsmanNeural',
+ 'Malese-Yasmin- (Female)': 'ms-MY-YasminNeural',
+ 'Norwegian-Pernille- (Female)': 'nb-NO-PernilleNeural',
+ 'Norwegian-Finn- (Male)': 'nb-NO-FinnNeural',
+ 'Swedish-Sofie- (Female)': 'sv-SE-SofieNeural',
+ 'ArabicSwedish-Mattias- (Male)': 'sv-SE-MattiasNeural',
+ 'Arabic-Hamed- (Male)': 'ar-SA-HamedNeural',
+ 'Arabic-Zariyah- (Female)': 'ar-SA-ZariyahNeural',
+ 'Greek-Athina- (Female)': 'el-GR-AthinaNeural',
+ 'Greek-Nestoras- (Male)': 'el-GR-NestorasNeural',
+'German-Katja- (Female)': 'de-DE-KatjaNeural',
+ 'German-Amala- (Female)': 'de-DE-AmalaNeural',
+ 'German-Conrad- (Male)': 'de-DE-ConradNeural',
+ 'German-Killian- (Male)': 'de-DE-KillianNeural',
+ 'Afrikaans-Adri- (Female)': 'af-ZA-AdriNeural',
+ 'Afrikaans-Willem- (Male)': 'af-ZA-WillemNeural',
+ 'Ethiopian-Ameha- (Male)': 'am-ET-AmehaNeural',
+ 'Ethiopian-Mekdes- (Female)': 'am-ET-MekdesNeural',
+ 'Arabic (UAD)-Fatima- (Female)': 'ar-AE-FatimaNeural',
+ 'Arabic (UAD)-Hamdan- (Male)': 'ar-AE-HamdanNeural',
+ 'Arabic (Bahrain)-Ali- (Male)': 'ar-BH-AliNeural',
+ 'Arabic (Bahrain)-Laila- (Female)': 'ar-BH-LailaNeural',
+ 'Arabic (Algeria)-Ismael- (Male)': 'ar-DZ-IsmaelNeural',
+ 'Arabic (Egypt)-Salma- (Female)': 'ar-EG-SalmaNeural',
+ 'Arabic (Egypt)-Shakir- (Male)': 'ar-EG-ShakirNeural',
+ 'Arabic (Iraq)-Bassel- (Male)': 'ar-IQ-BasselNeural',
+ 'Arabic (Iraq)-Rana- (Female)': 'ar-IQ-RanaNeural',
+ 'Arabic (Jordan)-Sana- (Female)': 'ar-JO-SanaNeural',
+ 'Arabic (Jordan)-Taim- (Male)': 'ar-JO-TaimNeural',
+ 'Arabic (Kuwait)-Fahed- (Male)': 'ar-KW-FahedNeural',
+ 'Arabic (Kuwait)-Noura- (Female)': 'ar-KW-NouraNeural',
+ 'Arabic (Lebanon)-Layla- (Female)': 'ar-LB-LaylaNeural',
+ 'Arabic (Lebanon)-Rami- (Male)': 'ar-LB-RamiNeural',
+ 'Arabic (Libya)-Iman- (Female)': 'ar-LY-ImanNeural',
+ 'Arabic (Libya)-Omar- (Male)': 'ar-LY-OmarNeural',
+ 'Arabic (Morocco)-Jamal- (Male)': 'ar-MA-JamalNeural',
+ 'Arabic (Morocco)-Mouna- (Female)': 'ar-MA-MounaNeural',
+ 'Arabic (Oman)-Abdullah- (Male)': 'ar-OM-AbdullahNeural',
+ 'Arabic (Oman)-Aysha- (Female)': 'ar-OM-AyshaNeural',
+ 'Arabic (Qatar)-Amal- (Female)': 'ar-QA-AmalNeural',
+ 'Arabic (Qatar)-Moaz- (Male)': 'ar-QA-MoazNeural',
+ 'Arabic (Syrian Arab Republic)-Amany- (Female)': 'ar-SY-AmanyNeural',
+ 'Arabic (Syrian Arab Republic)-Laith- (Male)': 'ar-SY-LaithNeural',
+ 'Arabic (Tunisia)-Hedi- (Male)': 'ar-TN-HediNeural',
+ 'Arabic (Tunisia)-Reem- (Female)': 'ar-TN-ReemNeural',
+ 'Arabic (Yemen	)-Maryam- (Female)': 'ar-YE-MaryamNeural',
+ 'Arabic (Yemen	)-Saleh- (Male)': 'ar-YE-SalehNeural',
+ 'Azerbaijani-Babek- (Male)': 'az-AZ-BabekNeural',
+ 'Azerbaijani-Banu- (Female)': 'az-AZ-BanuNeural',
+ 'Bulgarian-Borislav- (Male)': 'bg-BG-BorislavNeural',
+ 'Bulgarian-Kalina- (Female)': 'bg-BG-KalinaNeural',
+ 'Bengali (Bangladesh)-Nabanita- (Female)': 'bn-BD-NabanitaNeural',
+ 'Bengali (Bangladesh)-Pradeep- (Male)': 'bn-BD-PradeepNeural',
+ 'Bengali (India)-Bashkar- (Male)': 'bn-IN-BashkarNeural',
+ 'Bengali (India)-Tanishaa- (Female)': 'bn-IN-TanishaaNeural',
+ 'Bosniak (Bosnia and Herzegovina)-Goran- (Male)': 'bs-BA-GoranNeural',
+ 'Bosniak (Bosnia and Herzegovina)-Vesna- (Female)': 'bs-BA-VesnaNeural',
+ 'Catalan (Spain)-Joana- (Female)': 'ca-ES-JoanaNeural',
+ 'Catalan (Spain)-Enric- (Male)': 'ca-ES-EnricNeural',
+ 'Czech (Czech Republic)-Antonin- (Male)': 'cs-CZ-AntoninNeural',
+ 'Czech (Czech Republic)-Vlasta- (Female)': 'cs-CZ-VlastaNeural',
+ 'Welsh (UK)-Aled- (Male)': 'cy-GB-AledNeural',
+ 'Welsh (UK)-Nia- (Female)': 'cy-GB-NiaNeural',
+ 'Danish (Denmark)-Christel- (Female)': 'da-DK-ChristelNeural',
+ 'Danish (Denmark)-Jeppe- (Male)': 'da-DK-JeppeNeural',
+ 'German (Austria)-Ingrid- (Female)': 'de-AT-IngridNeural',
+ 'German (Austria)-Jonas- (Male)': 'de-AT-JonasNeural',
+ 'German (Switzerland)-Jan- (Male)': 'de-CH-JanNeural',
+ 'German (Switzerland)-Leni- (Female)': 'de-CH-LeniNeural',
+ 'English (Australia)-Natasha- (Female)': 'en-AU-NatashaNeural',
+ 'English (Australia)-William- (Male)': 'en-AU-WilliamNeural',
+ 'English (Canada)-Clara- (Female)': 'en-CA-ClaraNeural',
+ 'English (Canada)-Liam- (Male)': 'en-CA-LiamNeural',
+ 'English (UK)-Libby- (Female)': 'en-GB-LibbyNeural',
+ 'English (UK)-Maisie- (Female)': 'en-GB-MaisieNeural',
+ 'English (UK)-Ryan- (Male)': 'en-GB-RyanNeural',
+ 'English (UK)-Sonia- (Female)': 'en-GB-SoniaNeural',
+ 'English (UK)-Thomas- (Male)': 'en-GB-ThomasNeural',
+ 'English (Hong Kong)-Sam- (Male)': 'en-HK-SamNeural',
+ 'English (Hong Kong)-Yan- (Female)': 'en-HK-YanNeural',
+ 'English (Ireland)-Connor- (Male)': 'en-IE-ConnorNeural',
+ 'English (Ireland)-Emily- (Female)': 'en-IE-EmilyNeural',
+ 'English (India)-Neerja- (Female)': 'en-IN-NeerjaNeural',
+ 'English (India)-Prabhat- (Male)': 'en-IN-PrabhatNeural',
+ 'English (Kenya)-Asilia- (Female)': 'en-KE-AsiliaNeural',
+ 'English (Kenya)-Chilemba- (Male)': 'en-KE-ChilembaNeural',
+ 'English (Nigeria)-Abeo- (Male)': 'en-NG-AbeoNeural',
+'English (Nigeria)-Ezinne- (Female)': 'en-NG-EzinneNeural',
+ 'English (New Zealand)-Mitchell- (Male)': 'en-NZ-MitchellNeural',
+ 'English (Philippines)-James- (Male)': 'en-PH-JamesNeural',
+ 'English (Philippines)-Rosa- (Female)': 'en-PH-RosaNeural',
+ 'English (Singapore)-Luna- (Female)': 'en-SG-LunaNeural',
+ 'English (Singapore)-Wayne- (Male)': 'en-SG-WayneNeural',
+ 'English (Tanzania)-Elimu- (Male)': 'en-TZ-ElimuNeural',
+ 'English (Tanzania)-Imani- (Female)': 'en-TZ-ImaniNeural',
+ 'English (South Africa)-Leah- (Female)': 'en-ZA-LeahNeural',
+ 'English (South Africa)-Luke- (Male)': 'en-ZA-LukeNeural',
+'Spanish (Argentina)-Elena- (Female)': 'es-AR-ElenaNeural',
+ 'Spanish (Argentina)-Tomas- (Male)': 'es-AR-TomasNeural',
+ 'Spanish (Bolivia)-Marcelo- (Male)': 'es-BO-MarceloNeural',
+ 'Spanish (Bolivia)-Sofia- (Female)': 'es-BO-SofiaNeural',
+ 'Spanish (Colombia)-Gonzalo- (Male)': 'es-CO-GonzaloNeural',
+ 'Spanish (Colombia)-Salome- (Female)': 'es-CO-SalomeNeural',
+ 'Spanish (Costa Rica)-Juan- (Male)': 'es-CR-JuanNeural',
+ 'Spanish (Costa Rica)-Maria- (Female)': 'es-CR-MariaNeural',
+ 'Spanish (Cuba)-Belkys- (Female)': 'es-CU-BelkysNeural',
+ 'Spanish (Dominican Republic)-Emilio- (Male)': 'es-DO-EmilioNeural',
+ 'Spanish (Dominican Republic)-Ramona- (Female)': 'es-DO-RamonaNeural',
+ 'Spanish (Ecuador)-Andrea- (Female)': 'es-EC-AndreaNeural',
+ 'Spanish (Ecuador)-Luis- (Male)': 'es-EC-LuisNeural',
+ 'Spanish (Spain)-Alvaro- (Male)': 'es-ES-AlvaroNeural',
+ 'Spanish (Spain)-Elvira- (Female)': 'es-ES-ElviraNeural',
+ 'Spanish (Equatorial Guinea)-Teresa- (Female)': 'es-GQ-TeresaNeural',
+ 'Spanish (Guatemala)-Andres- (Male)': 'es-GT-AndresNeural',
+ 'Spanish (Guatemala)-Marta- (Female)': 'es-GT-MartaNeural',
+ 'Spanish (Honduras)-Carlos- (Male)': 'es-HN-CarlosNeural',
+ 'Spanish (Honduras)-Karla- (Female)': 'es-HN-KarlaNeural',
+ 'Spanish (Nicaragua)-Federico- (Male)': 'es-NI-FedericoNeural',
+ 'Spanish (Nicaragua)-Yolanda- (Female)': 'es-NI-YolandaNeural',
+ 'Spanish (Panama)-Margarita- (Female)': 'es-PA-MargaritaNeural',
+ 'Spanish (Panama)-Roberto- (Male)': 'es-PA-RobertoNeural',
+ 'Spanish (Peru)-Alex- (Male)': 'es-PE-AlexNeural',
+ 'Spanish (Peru)-Camila- (Female)': 'es-PE-CamilaNeural',
+ 'Spanish (Puerto Rico)-Karina- (Female)': 'es-PR-KarinaNeural',
+ 'Spanish (Puerto Rico)-Victor- (Male)': 'es-PR-VictorNeural',
+ 'Spanish (Paraguay)-Mario- (Male)': 'es-PY-MarioNeural',
+ 'Spanish (Paraguay)-Tania- (Female)': 'es-PY-TaniaNeural',
+ 'Spanish (El Salvador)-Lorena- (Female)': 'es-SV-LorenaNeural',
+ 'Spanish (El Salvador)-Rodrigo- (Male)': 'es-SV-RodrigoNeural',
+ 'Spanish (United States)-Alonso- (Male)': 'es-US-AlonsoNeural',
+ 'Spanish (United States)-Paloma- (Female)': 'es-US-PalomaNeural',
+ 'Spanish (Uruguay)-Mateo- (Male)': 'es-UY-MateoNeural',
+ 'Spanish (Uruguay)-Valentina- (Female)': 'es-UY-ValentinaNeural',
+ 'Spanish (Venezuela)-Paola- (Female)': 'es-VE-PaolaNeural',
+ 'Spanish (Venezuela)-Sebastian- (Male)': 'es-VE-SebastianNeural',
+'Estonian (Estonia)-Anu- (Female)': 'et-EE-AnuNeural',
+'Estonian (Estonia)-Kert- (Male)': 'et-EE-KertNeural',
+'Persian (Iran)-Dilara- (Female)': 'fa-IR-DilaraNeural',
+'Persian (Iran)-Farid- (Male)': 'fa-IR-FaridNeural',
+'Finnish (Finland)-Harri- (Male)': 'fi-FI-HarriNeural',
+'Finnish (Finland)-Noora- (Female)': 'fi-FI-NooraNeural',
+'French (Belgium)-Charline- (Female)': 'fr-BE-CharlineNeural',
+'French (Belgium)-Gerard- (Male)': 'fr-BE-GerardNeural',
+'French (Canada)-Sylvie- (Female)': 'fr-CA-SylvieNeural',
+'French (Canada)-Antoine- (Male)': 'fr-CA-AntoineNeural',
+'French (Canada)-Jean- (Male)': 'fr-CA-JeanNeural',
+'French (Switzerland)-Ariane- (Female)': 'fr-CH-ArianeNeural',
+'French (Switzerland)-Fabrice- (Male)': 'fr-CH-FabriceNeural',
+'Irish (Ireland)-Colm- (Male)': 'ga-IE-ColmNeural',
+'Irish (Ireland)-Orla- (Female)': 'ga-IE-OrlaNeural',
+'Galician (Spain)-Roi- (Male)': 'gl-ES-RoiNeural',
+'Galician (Spain)-Sabela- (Female)': 'gl-ES-SabelaNeural',
+'Gujarati (India)-Dhwani- (Female)': 'gu-IN-DhwaniNeural',
+'Gujarati (India)-Niranjan- (Male)': 'gu-IN-NiranjanNeural',
+'Hindi (India)-Madhur- (Male)': 'hi-IN-MadhurNeural',
+'Hindi (India)-Swara- (Female)': 'hi-IN-SwaraNeural',
+'Croatian (Croatia)-Gabrijela- (Female)': 'hr-HR-GabrijelaNeural',
+'Croatian (Croatia)-Srecko- (Male)': 'hr-HR-SreckoNeural',
+'Hungarian (Hungary)-Noemi- (Female)': 'hu-HU-NoemiNeural',
+'Hungarian (Hungary)-Tamas- (Male)': 'hu-HU-TamasNeural',
+'Icelandic (Iceland)-Gudrun- (Female)': 'is-IS-GudrunNeural',
+'Icelandic (Iceland)-Gunnar- (Male)': 'is-IS-GunnarNeural',
+'Javanese (Indonesia)-Dimas- (Male)': 'jv-ID-DimasNeural',
+'Javanese (Indonesia)-Siti- (Female)': 'jv-ID-SitiNeural',
+'Georgian (Georgia)-Eka- (Female)': 'ka-GE-EkaNeural',
+'Georgian (Georgia)-Giorgi- (Male)': 'ka-GE-GiorgiNeural',
+'Kazakh (Kazakhstan)-Aigul- (Female)': 'kk-KZ-AigulNeural',
+'Kazakh (Kazakhstan)-Daulet- (Male)': 'kk-KZ-DauletNeural',
+'Khmer (Cambodia)-Piseth- (Male)': 'km-KH-PisethNeural',
+'Khmer (Cambodia)-Sreymom- (Female)': 'km-KH-SreymomNeural',
+'Kannada (India)-Gagan- (Male)': 'kn-IN-GaganNeural',
+'Kannada (India)-Sapna- (Female)': 'kn-IN-SapnaNeural',
+'Lao (Laos)-Chanthavong- (Male)': 'lo-LA-ChanthavongNeural',
+'Lao (Laos)-Keomany- (Female)': 'lo-LA-KeomanyNeural',
+'Lithuanian (Lithuania)-Leonas- (Male)': 'lt-LT-LeonasNeural',
+'Lithuanian (Lithuania)-Ona- (Female)': 'lt-LT-OnaNeural',
+'Latvian (Latvia)-Everita- (Female)': 'lv-LV-EveritaNeural',
+'Latvian (Latvia)-Nils- (Male)': 'lv-LV-NilsNeural',
+'Macedonian (North Macedonia)-Aleksandar- (Male)': 'mk-MK-AleksandarNeural',
+'Macedonian (North Macedonia)-Marija- (Female)': 'mk-MK-MarijaNeural',
+'Malayalam (India)-Midhun- (Male)': 'ml-IN-MidhunNeural',
+'Malayalam (India)-Sobhana- (Female)': 'ml-IN-SobhanaNeural',
+'Mongolian (Mongolia)-Bataa- (Male)': 'mn-MN-BataaNeural',
+'Mongolian (Mongolia)-Yesui- (Female)': 'mn-MN-YesuiNeural',
+'Marathi (India)-Aarohi- (Female)': 'mr-IN-AarohiNeural',
+'Marathi (India)-Manohar- (Male)': 'mr-IN-ManoharNeural',
+'Maltese (Malta)-Grace- (Female)': 'mt-MT-GraceNeural',
+'Maltese (Malta)-Joseph- (Male)': 'mt-MT-JosephNeural',
+'Burmese (Myanmar)-Nilar- (Female)': 'my-MM-NilarNeural',
+'Burmese (Myanmar)-Thiha- (Male)': 'my-MM-ThihaNeural',
+'Nepali (Nepal)-Hemkala- (Female)': 'ne-NP-HemkalaNeural',
+'Nepali (Nepal)-Sagar- (Male)': 'ne-NP-SagarNeural',
+'Dutch (Belgium)-Arnaud- (Male)': 'nl-BE-ArnaudNeural',
+'Dutch (Belgium)-Dena- (Female)': 'nl-BE-DenaNeural',
+'Polish (Poland)-Marek- (Male)': 'pl-PL-MarekNeural',
+'Polish (Poland)-Zofia- (Female)': 'pl-PL-ZofiaNeural',
+'Pashto (Afghanistan)-Gul Nawaz- (Male)': 'ps-AF-Gul',}