vits-simple-api

Sleeping

App Files Files Community

Artrajz commited on Jun 5, 2023

Commit

5854014

•

1 Parent(s): 881cc0a

Upload 14 files

Browse files

Files changed (12) hide show

README_zh.md +12 -5
app.py +6 -5
config.py +4 -1
request.py +12 -7
requirements.txt +1 -1
text/cantonese.py +9 -0
text/mandarin.py +9 -0
text/shanghainese.py +9 -0
utils/merge.py +3 -3
utils/nlp.py +31 -14
utils/utils.py +0 -23
voice.py +49 -71

README_zh.md CHANGED Viewed

@@ -30,6 +30,8 @@
 - [x] SSML语音合成标记语言（完善中...）
 <details><summary>Update Logs</summary><pre><code>
 <h2>2023.5.24</h2>
 <p>添加dimensional_emotion api,从文件夹加载多个npy文件,Docker添加了Linux/ARM64和Linux/ARM64/v8平台</p>
 <h2>2023.5.15</h2>
@@ -52,12 +54,17 @@
 </code></pre></details>
 ## demo
 [![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https://huggingface.co/spaces/Artrajz/vits-simple-api)
 - `https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164`
 - 激动：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111`
 - 小声：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=2077`
@@ -273,15 +280,15 @@ pip install openjtalk==0.3.0.dev2 --index-url https://pypi.artrajz.cn/simple
 #### voice vits
-- GET http://127.0.0.1/voice?text=text
   其他参数不指定时均为默认值
-- GET http://127.0.0.1/voice?text=[ZH]text[ZH][JA]text[JA]&lang=mix
   lang=mix时文本要标注
-- GET http://127.0.0.1/voice?text=text&id=142&format=wav&lang=zh&length=1.4
   文本为text，角色id为142，音频格式为wav，文本语言为zh，语音长度为1.4，其余参数默认
@@ -490,7 +497,7 @@ def voice_dimensional_emotion(upload_path):
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------------------ |
 | 合成文本      | text      | true    |         | str   |                                                              |
 | 角色id        | id        | false   | 0       | int   |                                                              |
-| 音频格式      | format    | false   | wav     | str   | wav,ogg,silk                                                 |
 | 文本语言      | lang      | false   | auto    | str   | auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 |
 | 语音长度/语速 | length    | false   | 1.0     | float | 调节语音长度，相当于调节语速，该数值越大语速越慢             |
 | 噪声          | noise     | false   | 0.667   | float |                                                              |
@@ -528,7 +535,7 @@ def voice_dimensional_emotion(upload_path):
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------------------ |
 | 合成文本      | text      | true    |         | str   |                                                              |
 | 角色id        | id        | false   | 0       | int   |                                                              |
-| 音频格式      | format    | false   | wav     | str   | wav,ogg,silk                                                 |
 | 文本语言      | lang      | false   | auto    | str   | auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 |
 | 语音长度/语速 | length    | false   | 1.0     | float | 调节语音长度，相当于调节语速，该数值越大语速越慢             |
 | 噪声          | noise     | false   | 0.667   | float |                                                              |

 - [x] SSML语音合成标记语言（完善中...）
 <details><summary>Update Logs</summary><pre><code>
+<h2>2023.6.5</h2>
+<p>更换音频编码使用的库，增加flac格式，增加中文对读简单数学公式的支持</p>
 <h2>2023.5.24</h2>
 <p>添加dimensional_emotion api,从文件夹加载多个npy文件,Docker添加了Linux/ARM64和Linux/ARM64/v8平台</p>
 <h2>2023.5.15</h2>
 </code></pre></details>
 ## demo
 [![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https://huggingface.co/spaces/Artrajz/vits-simple-api)
+注意不同的id支持的语言可能有所不同。[speakers](https://artrajz-vits-simple-api.hf.space/voice/speakers)
 - `https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164`
+- `https://artrajz-vits-simple-api.hf.space/voice/vits?text=你知道1+1=几吗？我觉得1+1≠3&id=164&lang=zh`
+- `https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4`
 - 激动：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111`
 - 小声：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=2077`
 #### voice vits
+- GET http://127.0.0.1:23456/voice/vits?text=text
   其他参数不指定时均为默认值
+- GET http://127.0.0.1:23456/voice/vits?text=[ZH]text[ZH][JA]text[JA]&lang=mix
   lang=mix时文本要标注
+- GET http://127.0.0.1:23456/voice/vits?text=text&id=142&format=wav&lang=zh&length=1.4
   文本为text，角色id为142，音频格式为wav，文本语言为zh，语音长度为1.4，其余参数默认
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------------------ |
 | 合成文本      | text      | true    |         | str   |                                                              |
 | 角色id        | id        | false   | 0       | int   |                                                              |
+| 音频格式      | format    | false   | wav     | str   | 支持wav,ogg,silk,mp3,flac                                    |
 | 文本语言      | lang      | false   | auto    | str   | auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 |
 | 语音长度/语速 | length    | false   | 1.0     | float | 调节语音长度，相当于调节语速，该数值越大语速越慢             |
 | 噪声          | noise     | false   | 0.667   | float |                                                              |
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------------------ |
 | 合成文本      | text      | true    |         | str   |                                                              |
 | 角色id        | id        | false   | 0       | int   |                                                              |
+| 音频格式      | format    | false   | wav     | str   | 支持wav,ogg,silk,mp3,flac                                    |
 | 文本语言      | lang      | false   | auto    | str   | auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 |
 | 语音长度/语速 | length    | false   | 1.0     | float | 调节语音长度，相当于调节语速，该数值越大语速越慢             |
 | 噪声          | noise     | false   | 0.667   | float |                                                              |

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import logging
 import time
 import logzero
 import uuid
-from flask import Flask, request, send_file, jsonify, make_response, render_template
 from werkzeug.utils import secure_filename
 from flask_apscheduler import APScheduler
 from functools import wraps
@@ -52,10 +52,7 @@ def require_api_key(func):
 @app.route('/', methods=["GET", "POST"])
 def index():
-    kwargs = {
-        "speakers": tts.voice_speakers
-    }
-    return render_template("index.html", **kwargs)
 @app.route('/voice/speakers', methods=["GET", "POST"])
@@ -105,11 +102,13 @@ def voice_vits_api():
         logger.info(f"[VITS] speaker id {id} does not exist")
         return make_response(jsonify({"status": "error", "message": f"id {id} does not exist"}), 400)
     speaker_lang = tts.voice_speakers["VITS"][id].get('lang')
     if lang.upper() != "AUTO" and lang.upper() != "MIX" and len(speaker_lang) != 1 and lang not in speaker_lang:
         logger.info(f"[VITS] lang \"{lang}\" is not in {speaker_lang}")
         return make_response(jsonify({"status": "error", "message": f"lang '{lang}' is not in {speaker_lang}"}), 400)
     if app.config.get("LANGUAGE_AUTOMATIC_DETECT", []) != []:
         speaker_lang = app.config.get("LANGUAGE_AUTOMATIC_DETECT")
@@ -219,11 +218,13 @@ def voice_w2v2_api():
         logger.info(f"[w2v2] speaker id {id} does not exist")
         return make_response(jsonify({"status": "error", "message": f"id {id} does not exist"}), 400)
     speaker_lang = tts.voice_speakers["W2V2-VITS"][id].get('lang')
     if lang.upper() != "AUTO" and lang.upper() != "MIX" and len(speaker_lang) != 1 and lang not in speaker_lang:
         logger.info(f"[w2v2] lang \"{lang}\" is not in {speaker_lang}")
         return make_response(jsonify({"status": "error", "message": f"lang '{lang}' is not in {speaker_lang}"}), 400)
     if app.config.get("LANGUAGE_AUTOMATIC_DETECT", []) != []:
         speaker_lang = app.config.get("LANGUAGE_AUTOMATIC_DETECT")

 import time
 import logzero
 import uuid
+from flask import Flask, request, send_file, jsonify, make_response
 from werkzeug.utils import secure_filename
 from flask_apscheduler import APScheduler
 from functools import wraps
 @app.route('/', methods=["GET", "POST"])
 def index():
+    return "vits-simple-api"
 @app.route('/voice/speakers', methods=["GET", "POST"])
         logger.info(f"[VITS] speaker id {id} does not exist")
         return make_response(jsonify({"status": "error", "message": f"id {id} does not exist"}), 400)
+    # 校验模型是否支持输入的语言
     speaker_lang = tts.voice_speakers["VITS"][id].get('lang')
     if lang.upper() != "AUTO" and lang.upper() != "MIX" and len(speaker_lang) != 1 and lang not in speaker_lang:
         logger.info(f"[VITS] lang \"{lang}\" is not in {speaker_lang}")
         return make_response(jsonify({"status": "error", "message": f"lang '{lang}' is not in {speaker_lang}"}), 400)
+    # 如果配置文件中设置了LANGUAGE_AUTOMATIC_DETECT则强制将speaker_lang设置为LANGUAGE_AUTOMATIC_DETECT
     if app.config.get("LANGUAGE_AUTOMATIC_DETECT", []) != []:
         speaker_lang = app.config.get("LANGUAGE_AUTOMATIC_DETECT")
         logger.info(f"[w2v2] speaker id {id} does not exist")
         return make_response(jsonify({"status": "error", "message": f"id {id} does not exist"}), 400)
+    # 校验模型是否支持输入的语言
     speaker_lang = tts.voice_speakers["W2V2-VITS"][id].get('lang')
     if lang.upper() != "AUTO" and lang.upper() != "MIX" and len(speaker_lang) != 1 and lang not in speaker_lang:
         logger.info(f"[w2v2] lang \"{lang}\" is not in {speaker_lang}")
         return make_response(jsonify({"status": "error", "message": f"lang '{lang}' is not in {speaker_lang}"}), 400)
+    # 如果配置文件中设置了LANGUAGE_AUTOMATIC_DETECT则强制将speaker_lang设置为LANGUAGE_AUTOMATIC_DETECT
     if app.config.get("LANGUAGE_AUTOMATIC_DETECT", []) != []:
         speaker_lang = app.config.get("LANGUAGE_AUTOMATIC_DETECT")

config.py CHANGED Viewed

@@ -32,8 +32,12 @@ API_KEY = "api-key"
 # logging_level:DEBUG/INFO/WARNING/ERROR/CRITICAL
 LOGGING_LEVEL = "DEBUG"
 # To use the english_cleaner, you need to install espeak and provide the path of libespeak-ng.dll as input here.
 # If ESPEAK_LIBRARY is set to empty, it will be read from the environment variable.
 ESPEAK_LIBRARY = ""
 # Fill in the model path here
@@ -50,7 +54,6 @@ MODEL_LIST = [
     [ABS_PATH + "/Model/louise/360_epochs.pth", ABS_PATH + "/Model/louise/config.json"],
     # W2V2-VITS (Need to configure DIMENSIONAL_EMOTION_NPY)
     [ABS_PATH + "/Model/w2v2-vits/1026_epochs.pth", ABS_PATH + "/Model/w2v2-vits/config.json"],
 ]
 # hubert-vits: hubert soft model

 # logging_level:DEBUG/INFO/WARNING/ERROR/CRITICAL
 LOGGING_LEVEL = "DEBUG"
+# Language identification library. Optional fastlid, langid
+LANGUAGE_IDENTIFICATION_LIBRARY = "langid"
 # To use the english_cleaner, you need to install espeak and provide the path of libespeak-ng.dll as input here.
 # If ESPEAK_LIBRARY is set to empty, it will be read from the environment variable.
+# For windows : "C:/Program Files/eSpeak NG/libespeak-ng.dll"
 ESPEAK_LIBRARY = ""
 # Fill in the model path here
     [ABS_PATH + "/Model/louise/360_epochs.pth", ABS_PATH + "/Model/louise/config.json"],
     # W2V2-VITS (Need to configure DIMENSIONAL_EMOTION_NPY)
     [ABS_PATH + "/Model/w2v2-vits/1026_epochs.pth", ABS_PATH + "/Model/w2v2-vits/config.json"],
 ]
 # hubert-vits: hubert soft model

request.py CHANGED Viewed

@@ -251,15 +251,20 @@ ssml = """
 </speak>
 """
-text = """猫咪是爱撒娇、爱玩耍的小家伙，通常有着柔软的绒毛和温柔的眼神，是许多人都喜欢的宠物哦~它们特别喜欢舔自己的毛发，用柔顺的小脑袋搓人的脚丫子，还能给人带来很多欢乐和温馨。
-"""
 t1 = time.time()
-# voice_conversion("H:/git/vits-simple-api/25ecb3f6-f968-11ed-b094-e0d4e84af078.wav", 91, 93)
-# voice_hubert_vits("H:/git/vits-simple-api/25ecb3f6-f968-11ed-b094-e0d4e84af078.wav",0)
 # voice_vits(text,format="wav",lang="zh")
 # voice_w2v2_vits(text,emotion=111)
 # os.system(voice_ssml(ssml))
-os.system(voice_vits(text,id=0, format="wav", max=0))
-# voice_dimensional_emotion("H:/git/vits-simple-api/25ecb3f6-f968-11ed-b094-e0d4e84af078.wav")
 t2 = time.time()
-print(f"len:{len(text)}耗时:{t2 - t1}")

 </speak>
 """
+text = """你知道1+1=几吗？我觉得1+1≠3"""
 t1 = time.time()
+# voice_conversion("H:/git/vits-simple-api/47fa127a-03ab-11ee-a4dc-e0d4e84af078.wav", 91, 93)
+# voice_hubert_vits("H:/git/vits-simple-api/47fa127a-03ab-11ee-a4dc-e0d4e84af078.wav",0)
 # voice_vits(text,format="wav",lang="zh")
 # voice_w2v2_vits(text,emotion=111)
 # os.system(voice_ssml(ssml))
+os.system(voice_vits(text,id=126, format="wav", max=0,noise=0.33,noisew=0.4,lang="zh"))
+# voice_dimensional_emotion("H:/git/vits-simple-api/47fa127a-03ab-11ee-a4dc-e0d4e84af078.wav")
 t2 = time.time()
+# print(f"len:{len(text)}耗时:{t2 - t1}")
+# for i in range(10):
+#     t1 = time.time()
+#     voice_vits(text, format="wav", lang="zh")
+#     t2 = time.time()
+#     print(f"len:{len(text)}耗时:{t2 - t1}")

requirements.txt CHANGED Viewed

@@ -20,10 +20,10 @@ num_thai
 opencc
 audonnx
 flask==2.2.3
-av
 soundfile==0.12.1
 graiax-silkcoder[libsndfile]
 flask_apscheduler
 fasttext
 fastlid
 phonemizer==3.2.1

 opencc
 audonnx
 flask==2.2.3
 soundfile==0.12.1
 graiax-silkcoder[libsndfile]
 flask_apscheduler
 fasttext
 fastlid
+langid
 phonemizer==3.2.1

text/cantonese.py CHANGED Viewed

@@ -37,6 +37,15 @@ _latin_to_ipa = [(re.compile('%s' % x[0]), x[1]) for x in [
 _symbols_to_chinese = [(re.compile(f'{x[0]}'), x[1]) for x in [
     ('([0-9]+(?:\.?[0-9]+)?)%', r'百分之\1'),
 ]]

 _symbols_to_chinese = [(re.compile(f'{x[0]}'), x[1]) for x in [
     ('([0-9]+(?:\.?[0-9]+)?)%', r'百分之\1'),
+    ('([0-9]+)/([0-9]+)', r'\2分之\1'),
+    ('\+', r'加'),
+    ('([0-9]+)-([0-9]+)', r'\1减\2'),
+    ('×', r'乘以'),
+    ('([0-9]+)x([0-9]+)', r'\1乘以\2'),
+    ('([0-9]+)\*([0-9]+)', r'\1乘以\2'),
+    ('÷', r'除以'),
+    ('=', r'等于'),
+    ('≠', r'不等于'),
 ]]

text/mandarin.py CHANGED Viewed

@@ -237,6 +237,15 @@ _bopomofo_to_ipa2 = [(re.compile('%s' % x[0]), x[1]) for x in [
 _symbols_to_chinese = [(re.compile(f'{x[0]}'), x[1]) for x in [
     ('([0-9]+(?:\.?[0-9]+)?)%', r'百分之\1'),
 ]]

 _symbols_to_chinese = [(re.compile(f'{x[0]}'), x[1]) for x in [
     ('([0-9]+(?:\.?[0-9]+)?)%', r'百分之\1'),
+    ('([0-9]+)/([0-9]+)', r'\2分之\1'),
+    ('\+', r'加'),
+    ('([0-9]+)-([0-9]+)', r'\1减\2'),
+    ('×', r'乘以'),
+    ('([0-9]+)x([0-9]+)', r'\1乘以\2'),
+    ('([0-9]+)\*([0-9]+)', r'\1乘以\2'),
+    ('÷', r'除以'),
+    ('=', r'等于'),
+    ('≠', r'不等于'),
 ]]

text/shanghainese.py CHANGED Viewed

@@ -37,6 +37,15 @@ _latin_to_ipa = [(re.compile('%s' % x[0]), x[1]) for x in [
 _symbols_to_chinese = [(re.compile(f'{x[0]}'), x[1]) for x in [
     ('([0-9]+(?:\.?[0-9]+)?)%', r'百分之\1'),
 ]]

 _symbols_to_chinese = [(re.compile(f'{x[0]}'), x[1]) for x in [
     ('([0-9]+(?:\.?[0-9]+)?)%', r'百分之\1'),
+    ('([0-9]+)/([0-9]+)', r'\2分之\1'),
+    ('\+', r'加'),
+    ('([0-9]+)-([0-9]+)', r'\1减\2'),
+    ('×', r'乘以'),
+    ('([0-9]+)x([0-9]+)', r'\1乘以\2'),
+    ('([0-9]+)\*([0-9]+)', r'\1乘以\2'),
+    ('÷', r'除以'),
+    ('=', r'等于'),
+    ('≠', r'不等于'),
 ]]

utils/merge.py CHANGED Viewed

@@ -109,7 +109,7 @@ def merge_model(merging_model):
         obj = vits(model=i[0], config=i[1], model_type="vits")
         lang = lang_dict.get(obj.get_cleaner(), obj.get_cleaner())
-        for id, name in enumerate(obj.return_speakers()):
             vits_obj.append([int(id), obj, obj_id])
             vits_speakers.append({"id": new_id, "name": name, "lang": lang})
             new_id += 1
@@ -129,7 +129,7 @@ def merge_model(merging_model):
         obj = vits(model=i[0], config=i[1], model_=hubert, model_type="hubert")
         lang = lang_dict.get(obj.get_cleaner(), obj.get_cleaner())
-        for id, name in enumerate(obj.return_speakers()):
             hubert_vits_obj.append([int(id), obj, obj_id])
             hubert_vits_speakers.append({"id": new_id, "name": name, "lang": lang})
             new_id += 1
@@ -148,7 +148,7 @@ def merge_model(merging_model):
         obj = vits(model=i[0], config=i[1], model_=emotion_reference, model_type="w2v2")
         lang = lang_dict.get(obj.get_cleaner(), obj.get_cleaner())
-        for id, name in enumerate(obj.return_speakers()):
             w2v2_vits_obj.append([int(id), obj, obj_id])
             w2v2_vits_speakers.append({"id": new_id, "name": name, "lang": lang})
             new_id += 1

         obj = vits(model=i[0], config=i[1], model_type="vits")
         lang = lang_dict.get(obj.get_cleaner(), obj.get_cleaner())
+        for id, name in enumerate(obj.get_speakers()):
             vits_obj.append([int(id), obj, obj_id])
             vits_speakers.append({"id": new_id, "name": name, "lang": lang})
             new_id += 1
         obj = vits(model=i[0], config=i[1], model_=hubert, model_type="hubert")
         lang = lang_dict.get(obj.get_cleaner(), obj.get_cleaner())
+        for id, name in enumerate(obj.get_speakers()):
             hubert_vits_obj.append([int(id), obj, obj_id])
             hubert_vits_speakers.append({"id": new_id, "name": name, "lang": lang})
             new_id += 1
         obj = vits(model=i[0], config=i[1], model_=emotion_reference, model_type="w2v2")
         lang = lang_dict.get(obj.get_cleaner(), obj.get_cleaner())
+        for id, name in enumerate(obj.get_speakers()):
             w2v2_vits_obj.append([int(id), obj, obj_id])
             w2v2_vits_speakers.append({"id": new_id, "name": name, "lang": lang})
             new_id += 1

utils/nlp.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import regex as re
 import logging
 import config
-from fastlid import fastlid
 from .utils import check_is_none
 logger = logging.getLogger("vits-simple-api")
@@ -11,7 +10,7 @@ level_dict = {'DEBUG': logging.DEBUG, 'INFO': logging.INFO, 'WARNING': logging.W
 logger.setLevel(level_dict[level])
-def clasify_lang(text):
     pattern = r'[\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\>\=\?\@\[\]\{\}\\\\\^\_\`' \
               r'\！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」' \
               r'『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘\'\‛\“\”\„\‟…‧﹏.]+'
@@ -22,7 +21,20 @@ def clasify_lang(text):
     for word in words:
         if check_is_none(word): continue
-        lang = fastlid(word)[0]
         if pre == "":
             text = text[:p] + text[p:].replace(word, f'[{lang.upper()}]' + word, 1)
             p += len(f'[{lang.upper()}]')
@@ -37,19 +49,24 @@ def clasify_lang(text):
 def cut(text, max):
-    pattern = r'[\!\(\)\,\-\.\/\:\;\?\？\。\，\、\；\：]+'
     sentences = re.split(pattern, text)
-    sentence_list = []
-    count = 0
-    p = 0
-    for sentence in sentences:
-        count += len(sentence) + 1
         if count >= max:
-            sentence_list.append(text[p:p + count])
             p += count
             count = 0
     if p < len(text):
         sentence_list.append(text[p:])
     return sentence_list
@@ -60,19 +77,19 @@ def sentence_split(text, max=50, lang="auto", speaker_lang=None):
             logger.debug(
                 f"lang \"{lang}\" is not in speaker_lang {speaker_lang},automatically set lang={speaker_lang[0]}")
         lang = speaker_lang[0]
-    else:
-        fastlid.set_languages = speaker_lang
     sentence_list = []
     if lang.upper() != "MIX":
         if max <= 0:
             sentence_list.append(
-                clasify_lang(text) if lang.upper() == "AUTO" else f"[{lang.upper()}]{text}[{lang.upper()}]")
         else:
             for i in cut(text, max):
                 if check_is_none(i): continue
                 sentence_list.append(
-                    clasify_lang(i) if lang.upper() == "AUTO" else f"[{lang.upper()}]{i}[{lang.upper()}]")
     else:
         sentence_list.append(text)

 import regex as re
 import logging
 import config
 from .utils import check_is_none
 logger = logging.getLogger("vits-simple-api")
 logger.setLevel(level_dict[level])
+def clasify_lang(text, speaker_lang):
     pattern = r'[\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\>\=\?\@\[\]\{\}\\\\\^\_\`' \
               r'\！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」' \
               r'『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘\'\‛\“\”\„\‟…‧﹏.]+'
     for word in words:
         if check_is_none(word): continue
+        # 读取配置选择语种识别库
+        clf = getattr(config, "LANGUAGE_IDENTIFICATION_LIBRARY", "fastlid")
+        if clf.upper() == "FASTLID" or clf.upper() == "FASTTEXT":
+            from fastlid import fastlid
+            lang = fastlid(word)[0]
+            if speaker_lang != None: fastlid.set_languages = speaker_lang
+        elif clf.upper() == "LANGID":
+            import langid
+            lang = langid.classify(word)[0]
+            if speaker_lang != None: langid.set_languages(speaker_lang)
+        else:
+            raise ValueError(f"Wrong LANGUAGE_IDENTIFICATION_LIBRARY in config.py")
         if pre == "":
             text = text[:p] + text[p:].replace(word, f'[{lang.upper()}]' + word, 1)
             p += len(f'[{lang.upper()}]')
 def cut(text, max):
+    pattern = r'[!(),—+\-.:;?？。，、；：]+'
     sentences = re.split(pattern, text)
+    discarded_chars = re.findall(pattern, text)
+    sentence_list, count, p = [], 0, 0
+    # 按被分割的符号遍历
+    for i, discarded_chars in enumerate(discarded_chars):
+        count += len(sentences[i]) + len(discarded_chars)
         if count >= max:
+            sentence_list.append(text[p:p + count].strip())
             p += count
             count = 0
+    # 加入最后剩余的文本
     if p < len(text):
         sentence_list.append(text[p:])
     return sentence_list
             logger.debug(
                 f"lang \"{lang}\" is not in speaker_lang {speaker_lang},automatically set lang={speaker_lang[0]}")
         lang = speaker_lang[0]
     sentence_list = []
     if lang.upper() != "MIX":
         if max <= 0:
             sentence_list.append(
+                clasify_lang(text,
+                             speaker_lang) if lang.upper() == "AUTO" else f"[{lang.upper()}]{text}[{lang.upper()}]")
         else:
             for i in cut(text, max):
                 if check_is_none(i): continue
                 sentence_list.append(
+                    clasify_lang(i,
+                                 speaker_lang) if lang.upper() == "AUTO" else f"[{lang.upper()}]{i}[{lang.upper()}]")
     else:
         sentence_list.append(text)

utils/utils.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import logging
 import os
 from json import loads
-import av
 from torch import load, FloatTensor
 from numpy import float32
 import librosa
@@ -77,28 +76,6 @@ def load_audio_to_torch(full_path, target_sampling_rate):
     return FloatTensor(audio.astype(float32))
-def wav2ogg(input, output):
-    with av.open(input, 'rb') as i:
-        with av.open(output, 'wb', format='ogg') as o:
-            out_stream = o.add_stream('libvorbis')
-            for frame in i.decode(audio=0):
-                for p in out_stream.encode(frame):
-                    o.mux(p)
-            for p in out_stream.encode(None):
-                o.mux(p)
-def wav2mp3(input, output):
-    with av.open(input, 'rb') as i:
-        with av.open(output, 'wb', format='mp3') as o:
-            out_stream = o.add_stream('mp3')
-            for frame in i.decode(audio=0):
-                for p in out_stream.encode(frame):
-                    o.mux(p)
-            for p in out_stream.encode(None):
-                o.mux(p)
 def clean_folder(folder_path):
     for filename in os.listdir(folder_path):
         file_path = os.path.join(folder_path, filename)

 import logging
 import os
 from json import loads
 from torch import load, FloatTensor
 from numpy import float32
 import librosa
     return FloatTensor(audio.astype(float32))
 def clean_folder(folder_path):
     for filename in os.listdir(folder_path):
         file_path = os.path.join(folder_path, filename)

voice.py CHANGED Viewed

@@ -8,13 +8,13 @@ import torch
 import xml.etree.ElementTree as ET
 import config
 import logging
 from torch import no_grad, LongTensor, inference_mode, FloatTensor
 from io import BytesIO
 from graiax import silkcoder
-from utils.nlp import cut, sentence_split
-from scipy.io.wavfile import write
 from mel_processing import spectrogram_torch
-from text import text_to_sequence, _clean_text
 from models import SynthesizerTrn
 from utils import utils
@@ -62,36 +62,15 @@ class vits:
         text_norm = LongTensor(text_norm)
         return text_norm
-    def get_label_value(self, label, default, warning_name='value', text=""):
-        value = re.search(rf'\[{label}=(.+?)\]', text)
-        if value:
-            try:
-                text = re.sub(rf'\[{label}=(.+?)\]', '', text, 1)
-                value = float(value.group(1))
-            except:
-                print(f'Invalid {warning_name}!')
-                sys.exit(1)
-        else:
-            value = default
-        if text == "":
-            return value
-        else:
-            return value, text
-    def get_label(self, text, label):
-        if f'[{label}]' in text:
-            return True, text.replace(f'[{label}]', '')
-        else:
-            return False, text
     def get_cleaner(self):
         return getattr(self.hps_ms.data, 'text_cleaners', [None])[0]
-    def return_speakers(self, escape=False):
         return self.speakers
     def infer(self, params):
         emotion = params.get("emotion", None)
         with no_grad():
             x_tst = params.get("stn_tst").unsqueeze(0)
@@ -101,21 +80,16 @@ class vits:
                                         noise_scale=params.get("noise_scale"),
                                         noise_scale_w=params.get("noise_scale_w"),
                                         length_scale=params.get("length_scale"),
-                                        emotion_embedding=emotion.to(device) if emotion != None else None)[0][
-                0, 0].data.float().cpu().numpy()
         torch.cuda.empty_cache()
         return audio
-    def get_infer_param(self, length, noise, noisew, text=None, speaker_id=None, audio_path=None,
-                        emotion=None):
         emo = None
         if self.model_type != "hubert":
-            length_scale, text = self.get_label_value('LENGTH', length, 'length scale', text)
-            noise_scale, text = self.get_label_value('NOISE', noise, 'noise scale', text)
-            noise_scale_w, text = self.get_label_value('NOISEW', noisew, 'deviation of noise', text)
-            cleaned, text = self.get_label(text, 'CLEANED')
             stn_tst = self.get_cleaned_text(text, self.hps_ms, cleaned=cleaned)
             sid = LongTensor([speaker_id])
@@ -137,22 +111,14 @@ class vits:
         elif self.model_type == "hubert":
             if self.use_f0:
-                audio, sampling_rate = librosa.load(
-                    audio_path, sr=self.hps_ms.data.sampling_rate, mono=True)
-                audio16000 = librosa.resample(
-                    audio, orig_sr=sampling_rate, target_sr=16000)
             else:
-                audio16000, sampling_rate = librosa.load(
-                    audio_path, sr=16000, mono=True)
-            length_scale = self.get_label_value('LENGTH', length, 'length scale')
-            noise_scale = self.get_label_value('NOISE', noise, 'noise scale')
-            noise_scale_w = self.get_label_value('NOISEW', noisew, 'deviation of noise')
             with inference_mode():
                 units = self.hubert.units(FloatTensor(audio16000).unsqueeze(0).unsqueeze(0)).squeeze(0).numpy()
                 if self.use_f0:
-                    f0_scale = self.get_label_value('F0', 1, 'f0 scale')
                     f0 = librosa.pyin(audio,
                                       sr=sampling_rate,
                                       fmin=librosa.note_to_hz('C0'),
@@ -168,6 +134,7 @@ class vits:
         params = {"length_scale": length_scale, "noise_scale": noise_scale,
                   "noise_scale_w": noise_scale_w, "stn_tst": stn_tst,
                   "sid": sid, "emotion": emo}
         return params
     def get_audio(self, voice, auto_break=False):
@@ -193,10 +160,10 @@ class vits:
             sentence_list = sentence_split(text, max, lang, speaker_lang)
             for sentence in sentence_list:
                 tasks.append(
-                    self.get_infer_param(text=sentence, speaker_id=speaker_id, length=length, noise=noise,
-                                         noisew=noisew))
-            audios = []
             for task in tasks:
                 audios.append(self.infer(task))
                 if auto_break:
@@ -205,16 +172,16 @@ class vits:
             audio = np.concatenate(audios, axis=0)
         elif self.model_type == "hubert":
-            params = self.get_infer_param(speaker_id=speaker_id, length=length, noise=noise, noisew=noisew,
-                                          audio_path=audio_path)
             audio = self.infer(params)
         elif self.model_type == "w2v2":
             sentence_list = sentence_split(text, max, lang, speaker_lang)
             for sentence in sentence_list:
                 tasks.append(
-                    self.get_infer_param(text=sentence, speaker_id=speaker_id, length=length, noise=noise,
-                                         noisew=noisew, emotion=emotion))
             audios = []
             for task in tasks:
@@ -265,6 +232,12 @@ class TTS:
         self._hubert_speakers_count = len(self._voice_speakers["HUBERT-VITS"])
         self._w2v2_speakers_count = len(self._voice_speakers["W2V2-VITS"])
         self.dem = None
         if getattr(config, "DIMENSIONAL_EMOTION_MODEL", None) != None:
             try:
                 import audonnx
@@ -274,10 +247,6 @@ class TTS:
             except Exception as e:
                 self.logger.warning(f"Load DIMENSIONAL_EMOTION_MODEL failed {e}")
-        # Initialization information
-        self.logger = logging.getLogger("vits-simple-api")
-        self.logger.info(f"torch:{torch.__version__} cuda_available:{torch.cuda.is_available()}")
-        self.logger.info(f'device:{device} device.type:{device.type}')
         if self._vits_speakers_count != 0: self.logger.info(f"[VITS] {self._vits_speakers_count} speakers")
         if self._hubert_speakers_count != 0: self.logger.info(f"[hubert] {self._hubert_speakers_count} speakers")
         if self._w2v2_speakers_count != 0: self.logger.info(f"[w2v2] {self._w2v2_speakers_count} speakers")
@@ -307,19 +276,23 @@ class TTS:
     def encode(self, sampling_rate, audio, format):
         with BytesIO() as f:
-            write(f, sampling_rate, audio)
             if format.upper() == 'OGG':
-                with BytesIO() as o:
-                    utils.wav2ogg(f, o)
-                    return BytesIO(o.getvalue())
             elif format.upper() == 'SILK':
                 return BytesIO(silkcoder.encode(f))
             elif format.upper() == 'MP3':
-                with BytesIO() as o:
-                    utils.wav2mp3(f, o)
-                    return BytesIO(o.getvalue())
             elif format.upper() == 'WAV':
                 return BytesIO(f.getvalue())
     def convert_time_string(self, time_string):
         time_value = float(re.findall(r'\d+\.?\d*', time_string)[0])
@@ -424,36 +397,40 @@ class TTS:
                     raise ValueError(f"Unsupported model: {voice.get('model')}")
                 voice_obj = self._voice_obj[model][voice.get("id")][1]
                 voice["id"] = self._voice_obj[model][voice.get("id")][0]
-                audios.append(voice_obj.get_audio(voice))
         audio = np.concatenate(audios, axis=0)
-        return self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format), format
     def vits_infer(self, voice):
         format = voice.get("format", "wav")
         voice_obj = self._voice_obj["VITS"][voice.get("id")][1]
         voice["id"] = self._voice_obj["VITS"][voice.get("id")][0]
         audio = voice_obj.get_audio(voice, auto_break=True)
-        return self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
     def hubert_vits_infer(self, voice):
         format = voice.get("format", "wav")
         voice_obj = self._voice_obj["HUBERT-VITS"][voice.get("id")][1]
         voice["id"] = self._voice_obj["HUBERT-VITS"][voice.get("id")][0]
         audio = voice_obj.get_audio(voice)
-        return self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
     def w2v2_vits_infer(self, voice):
         format = voice.get("format", "wav")
         voice_obj = self._voice_obj["W2V2-VITS"][voice.get("id")][1]
         voice["id"] = self._voice_obj["W2V2-VITS"][voice.get("id")][0]
         audio = voice_obj.get_audio(voice, auto_break=True)
-        return self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
     def vits_voice_conversion(self, voice):
         original_id = voice.get("original_id")
@@ -471,8 +448,9 @@ class TTS:
         voice_obj = self._voice_obj["VITS"][original_id][1]
         audio = voice_obj.voice_conversion(voice)
-        return self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
     def get_dimensional_emotion_npy(self, audio):
         if self.dem is None:

 import xml.etree.ElementTree as ET
 import config
 import logging
+import soundfile as sf
 from torch import no_grad, LongTensor, inference_mode, FloatTensor
 from io import BytesIO
 from graiax import silkcoder
+from utils.nlp import sentence_split
 from mel_processing import spectrogram_torch
+from text import text_to_sequence
 from models import SynthesizerTrn
 from utils import utils
         text_norm = LongTensor(text_norm)
         return text_norm
     def get_cleaner(self):
         return getattr(self.hps_ms.data, 'text_cleaners', [None])[0]
+    def get_speakers(self, escape=False):
         return self.speakers
     def infer(self, params):
         emotion = params.get("emotion", None)
+        emotion = emotion.to(device) if emotion != None else None
         with no_grad():
             x_tst = params.get("stn_tst").unsqueeze(0)
                                         noise_scale=params.get("noise_scale"),
                                         noise_scale_w=params.get("noise_scale_w"),
                                         length_scale=params.get("length_scale"),
+                                        emotion_embedding=emotion)[0][0, 0].data.float().cpu().numpy()
         torch.cuda.empty_cache()
         return audio
+    def get_infer_param(self, length_scale, noise_scale, noise_scale_w, text=None, speaker_id=None, audio_path=None,
+                        emotion=None, cleaned=False, f0_scale=1):
         emo = None
         if self.model_type != "hubert":
             stn_tst = self.get_cleaned_text(text, self.hps_ms, cleaned=cleaned)
             sid = LongTensor([speaker_id])
         elif self.model_type == "hubert":
             if self.use_f0:
+                audio, sampling_rate = librosa.load(audio_path, sr=self.hps_ms.data.sampling_rate, mono=True)
+                audio16000 = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
             else:
+                audio16000, sampling_rate = librosa.load(audio_path, sr=16000, mono=True)
             with inference_mode():
                 units = self.hubert.units(FloatTensor(audio16000).unsqueeze(0).unsqueeze(0)).squeeze(0).numpy()
                 if self.use_f0:
                     f0 = librosa.pyin(audio,
                                       sr=sampling_rate,
                                       fmin=librosa.note_to_hz('C0'),
         params = {"length_scale": length_scale, "noise_scale": noise_scale,
                   "noise_scale_w": noise_scale_w, "stn_tst": stn_tst,
                   "sid": sid, "emotion": emo}
         return params
     def get_audio(self, voice, auto_break=False):
             sentence_list = sentence_split(text, max, lang, speaker_lang)
             for sentence in sentence_list:
                 tasks.append(
+                    self.get_infer_param(text=sentence, speaker_id=speaker_id, length_scale=length, noise_scale=noise,
+                                         noise_scale_w=noisew))
+            audios = []
             for task in tasks:
                 audios.append(self.infer(task))
                 if auto_break:
             audio = np.concatenate(audios, axis=0)
         elif self.model_type == "hubert":
+            params = self.get_infer_param(speaker_id=speaker_id, length_scale=length, noise_scale=noise,
+                                          noise_scale_w=noisew, audio_path=audio_path)
             audio = self.infer(params)
         elif self.model_type == "w2v2":
             sentence_list = sentence_split(text, max, lang, speaker_lang)
             for sentence in sentence_list:
                 tasks.append(
+                    self.get_infer_param(text=sentence, speaker_id=speaker_id, length_scale=length, noise_scale=noise,
+                                         noise_scale_w=noisew, emotion=emotion))
             audios = []
             for task in tasks:
         self._hubert_speakers_count = len(self._voice_speakers["HUBERT-VITS"])
         self._w2v2_speakers_count = len(self._voice_speakers["W2V2-VITS"])
         self.dem = None
+        # Initialization information
+        self.logger = logging.getLogger("vits-simple-api")
+        self.logger.info(f"torch:{torch.__version__} cuda_available:{torch.cuda.is_available()}")
+        self.logger.info(f'device:{device} device.type:{device.type}')
         if getattr(config, "DIMENSIONAL_EMOTION_MODEL", None) != None:
             try:
                 import audonnx
             except Exception as e:
                 self.logger.warning(f"Load DIMENSIONAL_EMOTION_MODEL failed {e}")
         if self._vits_speakers_count != 0: self.logger.info(f"[VITS] {self._vits_speakers_count} speakers")
         if self._hubert_speakers_count != 0: self.logger.info(f"[hubert] {self._hubert_speakers_count} speakers")
         if self._w2v2_speakers_count != 0: self.logger.info(f"[w2v2] {self._w2v2_speakers_count} speakers")
     def encode(self, sampling_rate, audio, format):
         with BytesIO() as f:
             if format.upper() == 'OGG':
+                sf.write(f, audio, sampling_rate, format="ogg")
+                return BytesIO(f.getvalue())
             elif format.upper() == 'SILK':
+                sf.write(f, audio, sampling_rate, format="wav")
                 return BytesIO(silkcoder.encode(f))
             elif format.upper() == 'MP3':
+                sf.write(f, audio, sampling_rate, format="mp3")
+                return BytesIO(f.getvalue())
             elif format.upper() == 'WAV':
+                sf.write(f, audio, sampling_rate, format="wav")
                 return BytesIO(f.getvalue())
+            elif format.upper() == 'FLAC':
+                sf.write(f, audio, sampling_rate, format="flac")
+                return BytesIO(f.getvalue())
+            else:
+                raise ValueError(f"Unsupported format:{format}")
     def convert_time_string(self, time_string):
         time_value = float(re.findall(r'\d+\.?\d*', time_string)[0])
                     raise ValueError(f"Unsupported model: {voice.get('model')}")
                 voice_obj = self._voice_obj[model][voice.get("id")][1]
                 voice["id"] = self._voice_obj[model][voice.get("id")][0]
+                audio = voice_obj.get_audio(voice)
+                audios.append(audio)
         audio = np.concatenate(audios, axis=0)
+        output = self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
+        return output, format
     def vits_infer(self, voice):
         format = voice.get("format", "wav")
         voice_obj = self._voice_obj["VITS"][voice.get("id")][1]
         voice["id"] = self._voice_obj["VITS"][voice.get("id")][0]
         audio = voice_obj.get_audio(voice, auto_break=True)
+        output = self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
+        return output
     def hubert_vits_infer(self, voice):
         format = voice.get("format", "wav")
         voice_obj = self._voice_obj["HUBERT-VITS"][voice.get("id")][1]
         voice["id"] = self._voice_obj["HUBERT-VITS"][voice.get("id")][0]
         audio = voice_obj.get_audio(voice)
+        output = self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
+        return output
     def w2v2_vits_infer(self, voice):
         format = voice.get("format", "wav")
         voice_obj = self._voice_obj["W2V2-VITS"][voice.get("id")][1]
         voice["id"] = self._voice_obj["W2V2-VITS"][voice.get("id")][0]
         audio = voice_obj.get_audio(voice, auto_break=True)
+        output = self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
+        return output
     def vits_voice_conversion(self, voice):
         original_id = voice.get("original_id")
         voice_obj = self._voice_obj["VITS"][original_id][1]
         audio = voice_obj.voice_conversion(voice)
+        output = self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
+        return output
     def get_dimensional_emotion_npy(self, audio):
         if self.dem is None: