2121-8
/

japanese-parler-tts-mini

@@ -18,7 +18,7 @@ license: other
-# Japanese Parler-TTS Mini (β版)
 このリポジトリは、[parler-tts/parler-tts-mini-v1](https://huggingface.co/parler-tts/parler-tts-mini-v1)を基に、日本語でのテキスト読み上げを可能にするよう再学習したモデルを公開しています。本モデルは、軽量でありながら高品質な音声生成を提供します。
@@ -33,16 +33,10 @@ license: other
 ## Japanese Parler-TTS Index
-- [Japanese Parler-TTS Mini (878M)](https://huggingface.co/2121-8/japanese-parler-tts-mini-bate)
-- [Japanese Parler-TTS Large (2.33B)](https://huggingface.co/2121-8/japanese-parler-tts-large-bate)
----
-## 注意点
-本モデルは学習データの構成上、男性の声に関するデータが少ないため、男性の声の生成が期待通りに行えない場合があります。特に、自然なイントネーションや音質の調整が難しい場合がありますので、ご了承ください。
 ---
@@ -77,16 +71,17 @@ from rubyinserter import add_ruby
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
-model = ParlerTTSForConditionalGeneration.from_pretrained("2121-8/japanese-parler-tts-mini-bate").to(device)
-tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini-bate")
 prompt = "こんにちは、今日はどのようにお過ごしですか？"
 description = "A female speaker with a slightly high-pitched voice delivers her words at a moderate speed with a quite monotone tone in a confined environment, resulting in a quite clear audio recording."
 prompt = add_ruby(prompt)
-input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
-prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
 generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
 audio_arr = generation.cpu().numpy().squeeze()
@@ -110,7 +105,7 @@ sf.write("parler_tts_japanese_out.wav", audio_arr, model.config.sampling_rate)
 ### 🎯 特定の話者を指定する方法
-準備中
 ---

+# Japanese Parler-TTS Mini
 このリポジトリは、[parler-tts/parler-tts-mini-v1](https://huggingface.co/parler-tts/parler-tts-mini-v1)を基に、日本語でのテキスト読み上げを可能にするよう再学習したモデルを公開しています。本モデルは、軽量でありながら高品質な音声生成を提供します。
 ## Japanese Parler-TTS Index
+- [Japanese Parler-TTS Mini](https://huggingface.co/2121-8/japanese-parler-tts-mini)
+- Japanese Parler-TTS Large (計算資源に余裕があったら学習します)
 ---
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
+model = ParlerTTSForConditionalGeneration.from_pretrained("2121-8/japanese-parler-tts-mini").to(device)
+prompt_tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini", subfolder="prompt_tokenizer")
+description_tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini", subfolder="description_tokenizer")
 prompt = "こんにちは、今日はどのようにお過ごしですか？"
 description = "A female speaker with a slightly high-pitched voice delivers her words at a moderate speed with a quite monotone tone in a confined environment, resulting in a quite clear audio recording."
 prompt = add_ruby(prompt)
+input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
+prompt_input_ids = prompt_tokenizer(prompt, return_tensors="pt").input_ids.to(device)
 generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
 audio_arr = generation.cpu().numpy().squeeze()
 ### 🎯 特定の話者を指定する方法
 ---