Spaces:

jianuo
/

TTS_all_in_one

Runtime error

App Files Files Community

jianuo commited on Feb 3

Commit

6cce716

•

1 Parent(s): 446c342

添加新引擎

Browse files

Files changed (7) hide show

README.md +9 -1
TTSs/volcengine/__init__.py +1 -0
TTSs/volcengine/voice_list.xlsx +0 -0
TTSs/volcengine/volcengine.py +111 -0
main.py +48 -4
requirements.txt +2 -0
requirements_light.txt +10 -0

README.md CHANGED Viewed

@@ -10,7 +10,7 @@ pinned: false
 license: mit
 ---
-# TTS 4合1 引擎
 这是一个网页版的TTS引擎，支持以下4个TTS引擎：
@@ -18,6 +18,7 @@ license: mit
 - openai
 - genshin（原神）
 - REECHO 睿声
 其中，原神TTS引擎原作者为[红血球AE3803](https://space.bilibili.com/6589795)
@@ -64,6 +65,13 @@ license: mit
 API申请地址：https://dash.reecho.ai/apiKey
 ## 安装方法
 安装python（推荐3.10）

 license: mit
 ---
+# TTS 5合1 引擎
 这是一个网页版的TTS引擎，支持以下4个TTS引擎：
 - openai
 - genshin（原神）
 - REECHO 睿声
+- volcengine（火山引擎）
 其中，原神TTS引擎原作者为[红血球AE3803](https://space.bilibili.com/6589795)
 API申请地址：https://dash.reecho.ai/apiKey
+### volcengine（火山引擎）
+控制台&申请地址：https://console.volcengine.com/speech/service/8?AppID=9866746965
+`VOLCENGINE_APPID`：用于volcengine
+`VOLCENGINE_ACCESS_TOKEN`：用于volcengine
 ## 安装方法
 安装python（推荐3.10）

TTSs/volcengine/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ from .volcengine import tts, useful_voice

TTSs/volcengine/voice_list.xlsx ADDED Viewed

Binary file (14.6 kB). View file

TTSs/volcengine/volcengine.py ADDED Viewed

	@@ -0,0 +1,111 @@

+import base64
+import io
+import json
+import os
+import uuid
+from typing import Optional
+import pandas as pd
+import requests
+from pydub import AudioSegment
+from ..tts_utils import mix_background_music
+class avaliable_voice_type:
+    语言: Optional[str] = ""
+    场景: Optional[str] = ""
+    音色名称: str
+    voice_type: str
+    时间戳支持: bool = False
+    支持情感与风格类型: Optional[str] = ""
+    支持语言类型: Optional[str] = ""
+    def __repr__(self):
+        data = self.__dict__
+        text = ""
+        text += f"音色: {data['音色名称']}"
+        if data["语言"]:
+            text += f"——{data['语言']}"
+        if data["场景"]:
+            text += f"——{data['场景']}"
+        if data["支持情感与风格类型"]:
+            text += f"——{data['支持情感与风格类型']}"
+        if data["支持语言类型"]:
+            text += f"——{data['支持语言类型']}"
+        return text
+def get_data_map(filename="voice_list.xlsx"):
+    path = os.path.join(os.path.dirname(os.path.abspath(__file__)), filename)
+    df = pd.read_excel(path)
+    df.fillna('', inplace=True)
+    useful_voice = {}
+    for index, row in df.iterrows():
+        data = avaliable_voice_type()
+        data.语言 = row['语言']
+        data.场景 = row['场景']
+        data.音色名称 = row['音色名称']
+        data.voice_type = row['voice_type']
+        data.时间戳支持 = row['时间戳']
+        data.支持情感与风格类型 = row['支持情感/风格类型']
+        data.支持语言类型 = row['支持语言类型']
+        useful_voice[str(data)] = data
+    return useful_voice
+def tts(text, appid, access_token, voice, speed_ratio,
+        volume_ratio, pitch_ratio, 背景音乐, speaker_up, back_up):
+    host = "openspeech.bytedance.com"
+    api_url = f"https://{host}/api/v1/tts"
+    header = {"Authorization": f"Bearer;{access_token}"}
+    request_json = {
+        "app": {
+            "appid": appid,
+            "token": "access_token",
+            "cluster": "volcano_tts"
+        },
+        "user": {
+            "uid": "388808087185088"
+        },
+        "audio": {
+            "voice_type": useful_voice[voice].voice_type,
+            "encoding": "mp3",
+            "speed_ratio": speed_ratio,
+            "volume_ratio": volume_ratio,
+            "pitch_ratio": pitch_ratio,
+        },
+        "request": {
+            "reqid": str(uuid.uuid4()),
+            "text": text,
+            "text_type": "plain",
+            "operation": "query",
+            "with_frontend": 1,
+            "frontend_type": "unitTson"
+        }
+    }
+    try:
+        resp = requests.post(api_url, data=json.dumps(request_json), headers=header)
+        if "data" not in resp.json():
+            return str(resp.json()), None, None
+        data = resp.json()["data"]
+        mp3_file = base64.b64decode(data)
+        original_audio = AudioSegment.from_mp3(io.BytesIO(mp3_file))
+        return None, *mix_background_music(original_audio, 背景音乐, speaker_up,
+                                           back_up)
+    except Exception as e:
+        return str(e), None, None
+useful_voice = get_data_map()

main.py CHANGED Viewed

@@ -6,6 +6,7 @@ from TTSs import elevenlabs_tts
 from TTSs import genshin_api_tts
 from TTSs import openai_tts
 from TTSs import reecho_ai
 try:
     import load_env
@@ -26,10 +27,12 @@ with gr.Blocks() as TTS_merge:
                 config_genshin_api: gr.Group(visible=False),
                 config_genshin_local: gr.Group(visible=False),
                 config_reecho_ai: gr.Group(visible=False),
                 btn_eleven: gr.Button("一键合成", variant="primary", visible=False),
                 btn_openai: gr.Button("一键合成", variant="primary", visible=False),
                 btn_genshin_api: gr.Button("一键合成", variant="primary", visible=False),
                 btn_recho_ai: gr.Button("一键合成", variant="primary", visible=False),
                 btn_genshin_local: gr.Button("一键合成", variant="primary", visible=False),
             }
         else:
@@ -38,9 +41,11 @@ with gr.Blocks() as TTS_merge:
                 config_openai: gr.Group(visible=False),
                 config_genshin_api: gr.Group(visible=False),
                 config_reecho_ai: gr.Group(visible=False),
                 btn_eleven: gr.Button("一键合成", variant="primary", visible=False),
                 btn_openai: gr.Button("一键合成", variant="primary", visible=False),
                 btn_recho_ai: gr.Button("一键合成", variant="primary", visible=False),
                 btn_genshin_api: gr.Button("一键合成", variant="primary", visible=False),
             }
@@ -60,6 +65,10 @@ with gr.Blocks() as TTS_merge:
         elif select_bar == 'reecho-ai':
             available_configs[config_reecho_ai] = gr.Group(visible=True)
             available_configs[btn_recho_ai] = gr.Button("一键合成", variant="primary", visible=True)
         else:
             raise Exception('select error')
@@ -69,9 +78,9 @@ with gr.Blocks() as TTS_merge:
     with gr.Row():
         with gr.Column():
             if using_local:
-                select = ['elevenlabs', 'openai', 'genshin-api', 'reecho-ai', 'genshin-local']
             else:
-                select = ['elevenlabs', 'openai', 'genshin-api', 'reecho-ai']
             with gr.Group():
                 select_bar = gr.Dropdown(choices=select, label="选择测试接口", value=select[0], interactive=True)
@@ -189,6 +198,35 @@ with gr.Blocks() as TTS_merge:
                                      inputs=[reecho_api_key],
                                      outputs=[role])
                 if using_local:
                     with gr.Group(visible=False) as config_genshin_local:
                         from TTSs.genshin_bg import speakers as speakers_genshin_local
@@ -238,6 +276,7 @@ with gr.Blocks() as TTS_merge:
             btn_openai = gr.Button("一键合成", variant="primary", visible=False)
             btn_genshin_api = gr.Button("一键合成", variant="primary", visible=False)
             btn_recho_ai = gr.Button("一键合成", variant="primary", visible=False)
             if using_local:
                 btn_genshin_local = gr.Button("一键合成", variant="primary", visible=False)
@@ -251,12 +290,12 @@ with gr.Blocks() as TTS_merge:
         select_bar.change(change_config_page, inputs=[select_bar],
                           outputs=[config_eleven, config_openai, config_genshin_api, config_reecho_ai,
                                    config_genshin_local, btn_eleven,
-                                   btn_openai, btn_genshin_api, btn_recho_ai, btn_genshin_local])
     else:
         select_bar.change(change_config_page, inputs=[select_bar],
                           outputs=[config_eleven, config_openai, config_genshin_api, config_reecho_ai, btn_eleven,
                                    btn_openai,
-                                   btn_recho_ai, btn_genshin_api])
     btn_eleven.click(elevenlabs_tts.merge_audio,
                      inputs=[elevenlabs_api_key, text, audio, speaker_eleven, stability,
@@ -279,6 +318,11 @@ with gr.Blocks() as TTS_merge:
                                audio, speaker_up, back_up],
                        outputs=[text_output, ori_audio_output, mix_audio_output])
     if using_local:
         btn_genshin_local.click(genshin_local_tts.func_genshin,
                                 inputs=[

 from TTSs import genshin_api_tts
 from TTSs import openai_tts
 from TTSs import reecho_ai
+from TTSs import volcengine
 try:
     import load_env
                 config_genshin_api: gr.Group(visible=False),
                 config_genshin_local: gr.Group(visible=False),
                 config_reecho_ai: gr.Group(visible=False),
+                config_volcengine: gr.Group(visible=False),
                 btn_eleven: gr.Button("一键合成", variant="primary", visible=False),
                 btn_openai: gr.Button("一键合成", variant="primary", visible=False),
                 btn_genshin_api: gr.Button("一键合成", variant="primary", visible=False),
                 btn_recho_ai: gr.Button("一键合成", variant="primary", visible=False),
+                btn_volcengine: gr.Button("一键合成", variant="primary", visible=False),
                 btn_genshin_local: gr.Button("一键合成", variant="primary", visible=False),
             }
         else:
                 config_openai: gr.Group(visible=False),
                 config_genshin_api: gr.Group(visible=False),
                 config_reecho_ai: gr.Group(visible=False),
+                config_volcengine: gr.Group(visible=False),
                 btn_eleven: gr.Button("一键合成", variant="primary", visible=False),
                 btn_openai: gr.Button("一键合成", variant="primary", visible=False),
                 btn_recho_ai: gr.Button("一键合成", variant="primary", visible=False),
+                btn_volcengine: gr.Button("一键合成", variant="primary", visible=False),
                 btn_genshin_api: gr.Button("一键合成", variant="primary", visible=False),
             }
         elif select_bar == 'reecho-ai':
             available_configs[config_reecho_ai] = gr.Group(visible=True)
             available_configs[btn_recho_ai] = gr.Button("一键合成", variant="primary", visible=True)
+        elif select_bar == 'volcengine':
+            available_configs[config_volcengine] = gr.Group(visible=True)
+            available_configs[btn_volcengine] = gr.Button("一键合成", variant="primary", visible=True)
         else:
             raise Exception('select error')
     with gr.Row():
         with gr.Column():
             if using_local:
+                select = ['elevenlabs', 'openai', 'genshin-api', 'reecho-ai', 'volcengine', 'genshin-local']
             else:
+                select = ['elevenlabs', 'openai', 'genshin-api', 'reecho-ai', 'volcengine']
             with gr.Group():
                 select_bar = gr.Dropdown(choices=select, label="选择测试接口", value=select[0], interactive=True)
                                      inputs=[reecho_api_key],
                                      outputs=[role])
+                with gr.Group(visible=False) as config_volcengine:
+                    voices = list(volcengine.useful_voice.keys())
+                    with gr.Row():
+                        volcengine_appid = gr.Textbox(label="volcengine的appid（默认为环境变量值）",
+                                                      placeholder="请输入volcengine的appid",
+                                                      type="password",
+                                                      interactive=True,
+                                                      value=os.environ.get('VOLCENGINE_APPID', ''))
+                        volcengine_access_token = gr.Textbox(label="volcengine的access_token（默认为环境变量值）",
+                                                             placeholder="请输入volengine的access_token",
+                                                             type="password",
+                                                             interactive=True,
+                                                             value=os.environ.get('VOLCENGINE_ACCESS_TOKEN', ''))
+                    voice_type = gr.Dropdown(choices=voices, value=voices[0], label="音色选择", interactive=True)
+                    with gr.Row():
+                        speed_ratio = gr.Slider(minimum=0.2, maximum=3, value=1, step=0.1, label="语速",
+                                                interactive=True)
+                        volume_ratio = gr.Slider(minimum=0.1, maximum=3, value=1, step=0.1, label="音量",
+                                                 interactive=True)
+                        pitch_ratio = gr.Slider(minimum=0.1, maximum=3, value=1, step=0.1, label="音高",
+                                                interactive=True)
+                    with gr.Row():
+                        emotion = gr.Textbox(label="情感/风格（还未适配）", placeholder="请输入情感", interactive=True)
+                        language = gr.Textbox(label="语言类型（还未适配）", placeholder="请输入语言", interactive=True)
                 if using_local:
                     with gr.Group(visible=False) as config_genshin_local:
                         from TTSs.genshin_bg import speakers as speakers_genshin_local
             btn_openai = gr.Button("一键合成", variant="primary", visible=False)
             btn_genshin_api = gr.Button("一键合成", variant="primary", visible=False)
             btn_recho_ai = gr.Button("一键合成", variant="primary", visible=False)
+            btn_volcengine = gr.Button("一键合成", variant="primary", visible=True)
             if using_local:
                 btn_genshin_local = gr.Button("一键合成", variant="primary", visible=False)
         select_bar.change(change_config_page, inputs=[select_bar],
                           outputs=[config_eleven, config_openai, config_genshin_api, config_reecho_ai,
                                    config_genshin_local, btn_eleven,
+                                   btn_openai, btn_genshin_api, btn_recho_ai, btn_genshin_local, btn_volcengine, config_volcengine])
     else:
         select_bar.change(change_config_page, inputs=[select_bar],
                           outputs=[config_eleven, config_openai, config_genshin_api, config_reecho_ai, btn_eleven,
                                    btn_openai,
+                                   btn_recho_ai, btn_genshin_api, btn_volcengine, config_volcengine])
     btn_eleven.click(elevenlabs_tts.merge_audio,
                      inputs=[elevenlabs_api_key, text, audio, speaker_eleven, stability,
                                audio, speaker_up, back_up],
                        outputs=[text_output, ori_audio_output, mix_audio_output])
+    btn_volcengine.click(volcengine.tts,
+                         inputs=[text, volcengine_appid, volcengine_access_token, voice_type, speed_ratio,
+                                 volume_ratio, pitch_ratio, audio, speaker_up, back_up],
+                         outputs=[text_output, ori_audio_output, mix_audio_output])
     if using_local:
         btn_genshin_local.click(genshin_local_tts.func_genshin,
                                 inputs=[

requirements.txt CHANGED Viewed

@@ -32,3 +32,5 @@ g2p_en
 sentencepiece
 pykakasi
 langid

 sentencepiece
 pykakasi
 langid
+pandas
+openpyxl

requirements_light.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+librosa==0.9.2
+matplotlib
+elevenlabs
+openai
+numpy
+numba
+scipy
+gradio
+pandas
+openpyxl