--- title: Matcha TTS Japanese emoji: 🏃 colorFrom: indigo colorTo: red sdk: static pinned: true license: mit short_description: Description of Matcha TTS Japanese ---

# Match-TTS-Japanese Spaces

a not official fork of matcha-tts for japanese language. some onnx codes help english-tts ## Difference - Focus on Japanese Language - Focus on onnx - Focus on Dataset/Model

Models

EN001 - English trained single speaker.

# Matcha-TTS 日本語 Matcha-TTSは比較的新しいTTSエンジンです。これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。 ## 違い - 日本語特化 - (そのうち、クリーナーを組み込みます) - Onnx特化ブラウザーとUnity(C#) - データー/モデルを作ります ## モデル出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。　ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。 ### Speakerの違い #### Single Speaker - ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません) #### Multi Speaker - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。 - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。 ### 最終品質音質とイントネーションのバランスで苦労しています。 - 音素が揃っている大型モデル(Large/Huge)を単独でトレーニングすると、音質はいい。ただしイントネーションは怪しい - 混ぜたり、Fine-Tuneするとイントーネーションはよくなるが、音質は悪くなる - カリキュラム学習がうまくいっているのか、長文の分解で失敗しているのか不明 - シンプルなPhonemizeでは難しいのでは考えています。英語までとはいわないが、センテンスで分割マークを入れたい（ブラウザーでも動く入れ方を検討中) 品質検出ツールがない - ある程度トレーニングすると大抵CERは高品質。ただしCERは、たどたどしい、ゆっくりな日本語やRobotic音声にも、満点を与えるので、単独で評価できない - Roboticな出力はMore-all 出力すればある程度わかります。（人間が聞く必要あるけど) - 一部のコーパス出力でもイントネーションを比べることは出来ますが(人間が聞く必要あるけど) 完全なカバーではない。 ### Phonemize Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。 - openjtalk-g2p - デフォルトで使用しています。(Phonemize/Cleanerを明記していない限りこれです。)ただし、ブラウザーで使えない(OpenJtalkがない) - julis-segmentation - Conqui-TTSもデフォルトはこれだったような。シンプルだけど、ブラウザーで使えそう (kuromoji.jsがある) ### シングルスピーカーモデルまだブラウザーで動く、Phonemizerが出来ていないので、正式にはモデルは非公開中 #### モデル制作の感想大きいモデルは、いきなり作るとイントネーションが残念なことになるので、以前作っていたモデルをベースに継続している。代わりに音が残念なことになっている。