|
"""
|
|
記号類の正規化変換マップの; : 「 」 括弧全般の扱いを変更
|
|
記号類の正規化変換マップに、= < > # ^ *を追加
|
|
|
|
|
|
"""
|
|
|
|
import re
|
|
import unicodedata
|
|
|
|
from num2words import num2words
|
|
|
|
from style_bert_vits2.nlp.symbols import PUNCTUATIONS
|
|
|
|
|
|
def normalize_text(text: str) -> str:
|
|
"""
|
|
日本語のテキストを正規化する。
|
|
結果は、ちょうど次の文字のみからなる:
|
|
- ひらがな
|
|
- カタカナ(全角長音記号「ー」が入る!)
|
|
- 漢字
|
|
- 半角アルファベット(大文字と小文字)
|
|
- ギリシャ文字
|
|
- `.` (句点`。`や`…`の一部や改行等)
|
|
- `,` (読点`、`や`:`等)
|
|
- `?` (疑問符`?`)
|
|
- `!` (感嘆符`!`)
|
|
- `'` (`「`や`」`等)
|
|
- `-` (`―`(ダッシュ、長音記号ではない)や`-`等)
|
|
|
|
注意点:
|
|
- 三点リーダー`…`は`...`に変換される(`なるほど…。` → `なるほど....`)
|
|
- 数字は漢字に変換される(`1,100円` → `千百円`、`52.34` → `五十二点三四`)
|
|
- 読点や疑問符等の位置・個数等は保持される(`??あ、、!!!` → `??あ,,!!!`)
|
|
|
|
Args:
|
|
text (str): 正規化するテキスト
|
|
|
|
Returns:
|
|
str: 正規化されたテキスト
|
|
"""
|
|
|
|
res = unicodedata.normalize("NFKC", text)
|
|
res = __convert_numbers_to_words(res)
|
|
|
|
res = res.replace("~", "ー")
|
|
res = res.replace("~", "ー")
|
|
res = res.replace("〜", "ー")
|
|
|
|
res = replace_punctuation(res)
|
|
|
|
|
|
|
|
res = res.replace("\u3099", "")
|
|
res = res.replace("\u309A", "")
|
|
return res
|
|
|
|
|
|
def replace_punctuation(text: str) -> str:
|
|
"""
|
|
句読点等を「.」「,」「!」「?」「'」「-」に正規化し、OpenJTalk で読みが取得できるもののみ残す:
|
|
漢字・平仮名・カタカナ、アルファベット、ギリシャ文字
|
|
|
|
Args:
|
|
text (str): 正規化するテキスト
|
|
|
|
Returns:
|
|
str: 正規化されたテキスト
|
|
"""
|
|
|
|
|
|
REPLACE_MAP = {
|
|
":": ":",
|
|
";": ";",
|
|
",": ",",
|
|
"。": ".",
|
|
"!": "!",
|
|
"?": "?",
|
|
"\n": ".",
|
|
".": ".",
|
|
"…": "...",
|
|
"···": "...",
|
|
"・・・": "...",
|
|
"·": ",",
|
|
"・": ",",
|
|
"、": ",",
|
|
"$": ".",
|
|
"“": "'",
|
|
"”": "'",
|
|
'"': "'",
|
|
"‘": "'",
|
|
"’": "'",
|
|
"(": "(",
|
|
")": ")",
|
|
"(": "(",
|
|
")": ")",
|
|
"《": "(",
|
|
"》": ")",
|
|
"【": "(",
|
|
"】": ")",
|
|
"[": "(",
|
|
"]": ")",
|
|
|
|
"\u02d7": "\u002d",
|
|
"\u2010": "\u002d",
|
|
|
|
"\u2012": "\u002d",
|
|
"\u2013": "\u002d",
|
|
"\u2014": "\u002d",
|
|
"\u2015": "\u002d",
|
|
"\u2043": "\u002d",
|
|
"\u2212": "\u002d",
|
|
"\u23af": "\u002d",
|
|
"\u23e4": "\u002d",
|
|
"\u2500": "\u002d",
|
|
"\u2501": "\u002d",
|
|
"\u2e3a": "\u002d",
|
|
"\u2e3b": "\u002d",
|
|
|
|
|
|
"「": "'",
|
|
"」": "'",
|
|
"=": "=",
|
|
"<": "<",
|
|
">": ">",
|
|
"#": "#",
|
|
"^": "^",
|
|
"*": "*",
|
|
}
|
|
|
|
pattern = re.compile("|".join(re.escape(p) for p in REPLACE_MAP.keys()))
|
|
|
|
|
|
replaced_text = pattern.sub(lambda x: REPLACE_MAP[x.group()], text)
|
|
|
|
replaced_text = re.sub(
|
|
|
|
r"[^\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF\u3005"
|
|
|
|
+ r"\u0041-\u005A\u0061-\u007A"
|
|
|
|
+ r"\uFF21-\uFF3A\uFF41-\uFF5A"
|
|
|
|
+ r"\u0370-\u03FF\u1F00-\u1FFF"
|
|
|
|
+ "".join(PUNCTUATIONS) + r"]+",
|
|
|
|
"",
|
|
replaced_text,
|
|
)
|
|
|
|
return replaced_text
|
|
|
|
|
|
def __convert_numbers_to_words(text: str) -> str:
|
|
"""
|
|
記号や数字を日本語の文字表現に変換する。
|
|
|
|
Args:
|
|
text (str): 変換するテキスト
|
|
|
|
Returns:
|
|
str: 変換されたテキスト
|
|
"""
|
|
|
|
NUMBER_WITH_SEPARATOR_PATTERN = re.compile("[0-9]{1,3}(,[0-9]{3})+")
|
|
CURRENCY_MAP = {"$": "ドル", "¥": "円", "£": "ポンド", "€": "ユーロ"}
|
|
CURRENCY_PATTERN = re.compile(r"([$¥£€])([0-9.]*[0-9])")
|
|
NUMBER_PATTERN = re.compile(r"[0-9]+(\.[0-9]+)?")
|
|
|
|
res = NUMBER_WITH_SEPARATOR_PATTERN.sub(lambda m: m[0].replace(",", ""), text)
|
|
res = CURRENCY_PATTERN.sub(lambda m: m[2] + CURRENCY_MAP.get(m[1], m[1]), res)
|
|
res = NUMBER_PATTERN.sub(lambda m: num2words(m[0], lang="ja"), res)
|
|
|
|
return res
|
|
|