Spaces:

rufflet17
/

amateur_voice

Runtime error

App Files Files Community

rufflet17 commited on Sep 5

Commit

b4d4d0b

verified ·

1 Parent(s): 521c324

Update gradio_tabs/single.py

Browse files

Files changed (1) hide show

gradio_tabs/single.py +59 -26

gradio_tabs/single.py CHANGED Viewed

@@ -28,7 +28,6 @@ from typing import Dict, Any, List, Tuple, Optional, Set
 # Falseにすると、エラーや重要な通知以外のログは抑制されます。
 ENABLE_LOGGING = False
-# (TTSModelHolder, MockTTSModelなどのモックやヘルパー関数は変更なしのため省略します)
 # --- タイムゾーン定義 ---
 # グローバルな定数としてJSTを定義
 JST = timezone(timedelta(hours=9), 'JST')
@@ -71,7 +70,7 @@ class TTSModelHolder:
                 json.dump(config2, f, indent=2)
             style_settings_data = {
               "styles": {
-                "Neutral": { "display_name": "Neutral", "weight": 1.0 },
                 "1": { "display_name": "クール", "weight": 0.8 },
                 "2": { "display_name": "可愛い", "weight": 1.2 },
               }
@@ -252,7 +251,7 @@ def format_bytes(size_bytes: int) -> str:
     return f"{s} {size_name[i]}"
-# --- (pyopenjtalk関連ヘルパー関数は変更なしのため省略) ---
 JIRITSUGO_POS = ["名詞", "動詞", "形容詞", "副詞", "連体詞", "接続詞", "感動詞", "接頭詞"]
 def is_jirisugo(morpheme):
     if morpheme['pos'] == '記号': return False
@@ -525,13 +524,11 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
         MAX_WORKBENCH_ITEMS = 8
         all_styles_data_state = gr.State({})
-        # ▼▼▼ 変更 ▼▼▼
         # 生成された音声ごとのパラメータを保持するStateを追加
         synthesized_wav_files_state = gr.State([])
         synthesized_model_names_state = gr.State([])
         synthesized_style_names_state = gr.State([])
         synthesized_style_weights_state = gr.State([])
-        # ▲▲▲ 変更 ▲▲▲
         workbench_state = gr.State([])
         merged_preview_state = gr.State({})
@@ -582,8 +579,8 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                     with gr.Column(scale=3):
                         # infoに文字数制限を追記
                         text_input = gr.TextArea(
-                            label="読み上げたいテキスト", lines=3, placeholder="ここにテキストを入力",
-                            value="こんにちは、今日もいい天気ですね。", interactive=True,
                             info=f"最大{MAX_TEXT_LENGTH}文字まで。使用できない文字: {INVALID_FILENAME_CHARS_FOR_DISPLAY}"
                         )
                         generate_button = gr.Button("音声合成実行", variant="primary", interactive=True)
@@ -650,7 +647,7 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                             random_text_ratio_textbox = gr.Textbox(label="カタカナ化の割合", value="0.2, 0.4, 0.6, 0.8, 1", info="カンマ区切りで複数指定可。指定値からランダムに1つ使用。", interactive=True)
             with gr.Tab("キープ"):
-                gr.Markdown("## キープ\n読み上げタブで生成した音声をここにストックし、結合や保存ができます。最大6個まで保持できます。")
                 workbench_items = []
                 all_workbench_ui_components = []
                 with gr.Row(variant="panel"):
@@ -831,13 +828,11 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                 error_outputs.append(gr.update(visible=False))
             for _ in range(MAX_AUDIO_OUTPUTS):
                 error_outputs.append("")
-            # ▼▼▼ 変更 ▼▼▼
             # エラー時に返す空リストを、追加したStateの分だけ増やす
             error_outputs.append([]) # for synthesized_wav_files_state
             error_outputs.append([]) # for synthesized_model_names_state
             error_outputs.append([]) # for synthesized_style_names_state
             error_outputs.append([]) # for synthesized_style_weights_state
-            # ▲▲▲ 変更 ▲▲▲
             if re.search(INVALID_FILENAME_CHARS_PATTERN, text):
@@ -880,7 +875,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
             batch_count = int(batch_count)
             if batch_count <= 0: batch_count = 1
-            # ▼▼▼ 変更 ▼▼▼
             # 生成パラメータを保持するリストを初期化
             final_wav_paths = []
             final_mp3_paths = []
@@ -888,7 +882,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
             generated_model_names = []
             generated_style_names = []
             generated_style_weights = []
-            # ▲▲▲ 変更 ▲▲▲
             def save_audio_files(audio_segment: AudioSegment, base_filename: str) -> Optional[Tuple[str, str]]:
                 try:
@@ -959,7 +952,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                         base_filename = f"{sanitized_model_name}-{sanitized_style_name}-{style_weight_str}-{text_for_filename}"
                         saved_paths = save_audio_files(audio_segment, base_filename)
-                        # ▼▼▼ 変更 ▼▼▼
                         # 音声保存成功時に、生成パラメータをリストに記録
                         if saved_paths:
                             final_wav_paths.append(saved_paths[0])
@@ -968,7 +960,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                             generated_model_names.append(model_name)
                             generated_style_names.append(style_display_name)
                             generated_style_weights.append(style_weight_for_synth)
-                        # ▲▲▲ 変更 ▲▲▲
                 if len(final_wav_paths) == 0:
                     all_logs.append("ℹ️ 音声は生成されませんでした。")
@@ -979,11 +970,60 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                 start_seed = int(seed)
                 for i in progress.tqdm(range(batch_count), desc=f"{batch_count}件の音声を生成中"):
                     current_seed = start_seed + i if start_seed >= 0 else -1
                     if ENABLE_LOGGING:
                         all_logs.append(f"--- 生成 {i+1}/{batch_count} (Seed: {current_seed if current_seed >= 0 else 'Random'}) ---")
-                        all_logs.append(f"  ┗ 合成テキスト: \"{text[:50]}{'...' if len(text)>50 else ''}\"")
-                    success, logs, audio_tuple = process_single_synthesis_webui(model_holder, model_name, actual_model_file_to_load, text, lang, speaker or None, internal_style_key, style_display_name, style_weight_for_synth, current_seed, ref_audio or None, length, noise, noise_w, sdp_r, pitch, intonation, use_assist, assist_text or None, assist_w)
                     all_logs.extend([f"    {log}" for log in logs])
@@ -993,20 +1033,19 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                         sanitized_model_name = sanitize_filename(model_name)
                         sanitized_style_name = sanitize_filename(style_display_name)
                         style_weight_str = f"{style_weight_for_synth:.1f}".replace('.', '.')
                         text_for_filename = sanitize_filename(text[:30]) if text else "no-text"
                         base_filename = f"{sanitized_model_name}-{sanitized_style_name}-{style_weight_str}-{text_for_filename}"
                         saved_paths = save_audio_files(audio_segment, base_filename)
-                        # ▼▼▼ 変更 ▼▼▼
                         # 音声保存成功時に、生成パラメータをリストに記録
                         if saved_paths:
                             final_wav_paths.append(saved_paths[0])
                             final_mp3_paths.append(saved_paths[1])
-                            generated_texts.append(text)
                             generated_model_names.append(model_name)
                             generated_style_names.append(style_display_name)
                             generated_style_weights.append(style_weight_for_synth)
-                        # ▲▲▲ 変更 ▲▲▲
                 num_generated = len(final_wav_paths)
                 if num_generated > 0:
@@ -1043,13 +1082,11 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                 text_val = generated_texts[i] if i < num_generated else ""
                 final_outputs.append(text_val)
-            # ▼▼▼ 変更 ▼▼▼
             # 関数の戻り値に、生成パラメータのリストを追加
             final_outputs.append(final_wav_paths)
             final_outputs.append(generated_model_names)
             final_outputs.append(generated_style_names)
             final_outputs.append(generated_style_weights)
-            # ▲▲▲ 変更 ▲▲▲
             return tuple(final_outputs)
         def add_to_workbench(
@@ -1326,7 +1363,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
         current_styles_dropdown.change(on_style_dropdown_select, inputs=[current_styles_dropdown, all_styles_data_state], outputs=[style_weight_for_synth_slider])
         use_assist_text_checkbox.change(lambda x: (gr.update(visible=x), gr.update(visible=x)), inputs=[use_assist_text_checkbox], outputs=[assist_text_textbox, assist_text_weight_slider])
-        # ▼▼▼ 変更 ▼▼▼
         # generate_buttonのoutputsに、追加したStateを追加
         generate_outputs = [status_textbox, audio_output_area]
         for i in range(MAX_AUDIO_OUTPUTS):
@@ -1337,7 +1373,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
         generate_outputs.append(synthesized_model_names_state)
         generate_outputs.append(synthesized_style_names_state)
         generate_outputs.append(synthesized_style_weights_state)
-        # ▲▲▲ 変更 ▲▲▲
         generate_button.click(
             fn=action_run_synthesis,
@@ -1356,7 +1391,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
             outputs=generate_outputs
         )
-        # ▼▼▼ 変更 ▼▼▼
         # 「キープ」ボタンのクリックイベントを修正。
         # UIのドロップダウンからではなく、Stateに保持された生成時のパラメータを使用する。
         for i in range(MAX_AUDIO_OUTPUTS):
@@ -1379,7 +1413,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                 ],
                 outputs=[status_textbox, workbench_state] + all_workbench_ui_components
             )
-        # ▲▲▲ 変更 ▲▲▲
         for i, item in enumerate(workbench_items):
             item["delete_btn"].click(

 # Falseにすると、エラーや重要な通知以外のログは抑制されます。
 ENABLE_LOGGING = False
 # --- タイムゾーン定義 ---
 # グローバルな定数としてJSTを定義
 JST = timezone(timedelta(hours=9), 'JST')
                 json.dump(config2, f, indent=2)
             style_settings_data = {
               "styles": {
+                "0": { "display_name": "Neutral", "weight": 1.0 },
                 "1": { "display_name": "クール", "weight": 0.8 },
                 "2": { "display_name": "可愛い", "weight": 1.2 },
               }
     return f"{s} {size_name[i]}"
+# --- pyopenjtalk関連ヘルパー関数 ---
 JIRITSUGO_POS = ["名詞", "動詞", "形容詞", "副詞", "連体詞", "接続詞", "感動詞", "接頭詞"]
 def is_jirisugo(morpheme):
     if morpheme['pos'] == '記号': return False
         MAX_WORKBENCH_ITEMS = 8
         all_styles_data_state = gr.State({})
         # 生成された音声ごとのパラメータを保持するStateを追加
         synthesized_wav_files_state = gr.State([])
         synthesized_model_names_state = gr.State([])
         synthesized_style_names_state = gr.State([])
         synthesized_style_weights_state = gr.State([])
         workbench_state = gr.State([])
         merged_preview_state = gr.State({})
                     with gr.Column(scale=3):
                         # infoに文字数制限を追記
                         text_input = gr.TextArea(
+                            label="読み上げたいテキスト", lines=3, placeholder="ここにテキストを入力\n発音ガチャ1モードで [この部分だけ] 発音ガチャ2の変換を適用できます。",
+                            value="こんにちは、[今日もいい天気ですね。]", interactive=True,
                             info=f"最大{MAX_TEXT_LENGTH}文字まで。使用できない文字: {INVALID_FILENAME_CHARS_FOR_DISPLAY}"
                         )
                         generate_button = gr.Button("音声合成実行", variant="primary", interactive=True)
                             random_text_ratio_textbox = gr.Textbox(label="カタカナ化の割合", value="0.2, 0.4, 0.6, 0.8, 1", info="カンマ区切りで複数指定可。指定値からランダムに1つ使用。", interactive=True)
             with gr.Tab("キープ"):
+                gr.Markdown("## キープ\n読み上げタブで生成した音声をここにストックし、結合や保存ができます。最大8個まで保持できます。")
                 workbench_items = []
                 all_workbench_ui_components = []
                 with gr.Row(variant="panel"):
                 error_outputs.append(gr.update(visible=False))
             for _ in range(MAX_AUDIO_OUTPUTS):
                 error_outputs.append("")
             # エラー時に返す空リストを、追加したStateの分だけ増やす
             error_outputs.append([]) # for synthesized_wav_files_state
             error_outputs.append([]) # for synthesized_model_names_state
             error_outputs.append([]) # for synthesized_style_names_state
             error_outputs.append([]) # for synthesized_style_weights_state
             if re.search(INVALID_FILENAME_CHARS_PATTERN, text):
             batch_count = int(batch_count)
             if batch_count <= 0: batch_count = 1
             # 生成パラメータを保持するリストを初期化
             final_wav_paths = []
             final_mp3_paths = []
             generated_model_names = []
             generated_style_names = []
             generated_style_weights = []
             def save_audio_files(audio_segment: AudioSegment, base_filename: str) -> Optional[Tuple[str, str]]:
                 try:
                         base_filename = f"{sanitized_model_name}-{sanitized_style_name}-{style_weight_str}-{text_for_filename}"
                         saved_paths = save_audio_files(audio_segment, base_filename)
                         # 音声保存成功時に、生成パラメータをリストに記録
                         if saved_paths:
                             final_wav_paths.append(saved_paths[0])
                             generated_model_names.append(model_name)
                             generated_style_names.append(style_display_name)
                             generated_style_weights.append(style_weight_for_synth)
                 if len(final_wav_paths) == 0:
                     all_logs.append("ℹ️ 音声は生成されませんでした。")
                 start_seed = int(seed)
                 for i in progress.tqdm(range(batch_count), desc=f"{batch_count}件の音声を生成中"):
                     current_seed = start_seed + i if start_seed >= 0 else -1
+                    # ▼▼▼ 変更点 ▼▼▼
+                    # 合成用のテキストを準備
+                    text_to_synthesize = text
+                    bracket_pattern = re.compile(r'\[([^\[\]]+)\]')
+                    # テキストに [] が含まれている場合、その部分だけを発音ガチャ2のロジックで変換
+                    if bracket_pattern.search(text):
+                        if ENABLE_LOGGING:
+                            all_logs.append(f"  ┠ 発音ガチャ1の特殊モードを検出: `[]` 内を変換します。")
+                        try:
+                            ratio_list = [float(x.strip()) for x in random_text_ratio_str.split(',') if x.strip()]
+                            if not ratio_list: ratio_list = [0.5]
+                        except ValueError:
+                            ratio_list = [0.5]
+                        internal_mode = int(random_text_mode) + 1
+                        parts = bracket_pattern.split(text)
+                        final_text_parts = []
+                        log_parts = []
+                        for j, part in enumerate(parts):
+                            # jが奇数番目の要素が[]の中身
+                            if j % 2 == 1:
+                                original_part = part
+                                transformed_blocks = generate_one_variation(original_part, internal_mode, random.choice(ratio_list))
+                                transformed_part = "".join(transformed_blocks)
+                                final_text_parts.append(transformed_part)
+                                log_parts.append(f"「{original_part}」->「{transformed_part}」")
+                            else:
+                                final_text_parts.append(part)
+                        text_to_synthesize = "".join(final_text_parts)
+                        if ENABLE_LOGGING and log_parts:
+                             all_logs.append(f"  ┠ 変換ログ: {', '.join(log_parts)}")
+                    # ▲▲▲ 変更点ここまで ▲▲▲
                     if ENABLE_LOGGING:
                         all_logs.append(f"--- 生成 {i+1}/{batch_count} (Seed: {current_seed if current_seed >= 0 else 'Random'}) ---")
+                        if text_to_synthesize != text:
+                            all_logs.append(f"  ┠ 元テキスト: \"{text[:50]}{'...' if len(text)>50 else ''}\"")
+                            all_logs.append(f"  ┗ 合成テキスト: \"{text_to_synthesize[:50]}{'...' if len(text_to_synthesize)>50 else ''}\"")
+                        else:
+                            all_logs.append(f"  ┗ 合成テキスト: \"{text_to_synthesize[:50]}{'...' if len(text_to_synthesize)>50 else ''}\"")
+                    success, logs, audio_tuple = process_single_synthesis_webui(
+                        model_holder, model_name, actual_model_file_to_load,
+                        text_to_synthesize, # 変換後のテキストを使用
+                        lang, speaker or None, internal_style_key, style_display_name, style_weight_for_synth,
+                        current_seed, ref_audio or None, length, noise, noise_w, sdp_r, pitch, intonation,
+                        use_assist, assist_text or None, assist_w
+                    )
                     all_logs.extend([f"    {log}" for log in logs])
                         sanitized_model_name = sanitize_filename(model_name)
                         sanitized_style_name = sanitize_filename(style_display_name)
                         style_weight_str = f"{style_weight_for_synth:.1f}".replace('.', '.')
+                        # ファイル名は変換前の元のテキストを使用
                         text_for_filename = sanitize_filename(text[:30]) if text else "no-text"
                         base_filename = f"{sanitized_model_name}-{sanitized_style_name}-{style_weight_str}-{text_for_filename}"
                         saved_paths = save_audio_files(audio_segment, base_filename)
                         # 音声保存成功時に、生成パラメータをリストに記録
                         if saved_paths:
                             final_wav_paths.append(saved_paths[0])
                             final_mp3_paths.append(saved_paths[1])
+                            generated_texts.append(text) # ここも元のテキストを保存
                             generated_model_names.append(model_name)
                             generated_style_names.append(style_display_name)
                             generated_style_weights.append(style_weight_for_synth)
                 num_generated = len(final_wav_paths)
                 if num_generated > 0:
                 text_val = generated_texts[i] if i < num_generated else ""
                 final_outputs.append(text_val)
             # 関数の戻り値に、生成パラメータのリストを追加
             final_outputs.append(final_wav_paths)
             final_outputs.append(generated_model_names)
             final_outputs.append(generated_style_names)
             final_outputs.append(generated_style_weights)
             return tuple(final_outputs)
         def add_to_workbench(
         current_styles_dropdown.change(on_style_dropdown_select, inputs=[current_styles_dropdown, all_styles_data_state], outputs=[style_weight_for_synth_slider])
         use_assist_text_checkbox.change(lambda x: (gr.update(visible=x), gr.update(visible=x)), inputs=[use_assist_text_checkbox], outputs=[assist_text_textbox, assist_text_weight_slider])
         # generate_buttonのoutputsに、追加したStateを追加
         generate_outputs = [status_textbox, audio_output_area]
         for i in range(MAX_AUDIO_OUTPUTS):
         generate_outputs.append(synthesized_model_names_state)
         generate_outputs.append(synthesized_style_names_state)
         generate_outputs.append(synthesized_style_weights_state)
         generate_button.click(
             fn=action_run_synthesis,
             outputs=generate_outputs
         )
         # 「キープ」ボタンのクリックイベントを修正。
         # UIのドロップダウンからではなく、Stateに保持された生成時のパラメータを使用する。
         for i in range(MAX_AUDIO_OUTPUTS):
                 ],
                 outputs=[status_textbox, workbench_state] + all_workbench_ui_components
             )
         for i, item in enumerate(workbench_items):
             item["delete_btn"].click(