Ttspro

Running

App Files Files Community

Hamed744 commited on May 27, 2025

Commit

dec8bb3

verified ·

1 Parent(s): 169ec87

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -45

app.py CHANGED Viewed

@@ -1,12 +1,12 @@
 # app.py
 import gradio as gr
 import google.generativeai as genai
-from google.generativeai import types # برای استفاده از types.GenerationConfig
 import os
 import io
 from scipy.io.wavfile import write as write_wav
 import numpy as np
-import traceback # برای چاپ کامل خطا
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
@@ -14,11 +14,7 @@ if not GOOGLE_API_KEY:
 genai.configure(api_key=GOOGLE_API_KEY)
 TTS_MODEL_NAME = "gemini-2.5-flash-preview-tts"
 AVAILABLE_VOICES = ["پیش‌فرض (مدل انتخاب کند)"]
-# اگر نام‌های واقعی را پیدا کردید، اینجا اضافه کنید:
-# AVAILABLE_VOICES.extend(["voice-name-1", "voice-name-2"])
 def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل انتخاب کند)"):
     if not text_to_speak:
@@ -26,35 +22,39 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
     print(f"درخواست TTS برای متن: '{text_to_speak[:50]}...' با گوینده: {selected_voice_name}")
     try:
         model = genai.GenerativeModel(f"models/{TTS_MODEL_NAME}")
-        generation_config_params = {
-            "response_modalities": ["AUDIO"]
-        }
         # برای انتخاب گوینده، این بخش نیاز به اطلاعات از مستندات دارد
         if selected_voice_name != "پیش‌فرض (مدل انتخاب کند)":
             # مثال: generation_config_params["voice"] = selected_voice_name
-            # یا اگر ساختار speech_config لازم است:
-            # generation_config_params["speech_config"] = types.SpeechConfig(
-            #     voice_config=types.VoiceConfig(
-            #         prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name=selected_voice_name)
-            #     )
-            # )
-            print(f"توجه: انتخاب گوینده ('{selected_voice_name}') هنوز به طور کامل پیاده‌سازی نشده است. از تنظیمات پیش‌فرض مدل برای گوینده استفاده می‌شود.")
-        generation_config = genai.types.GenerationConfig(**generation_config_params)
-        print(f"ارسال درخواست به Gemini با generation_config: {generation_config_params}")
         response = model.generate_content(
             text_to_speak,
-            generation_config=generation_config
         )
         audio_bytes = None
         generated_mime_type = None
-        sample_rate = 24000 # پیش‌فرض، از مستندات چک شود
         if hasattr(response, 'candidates') and response.candidates and \
            response.candidates[0].content and response.candidates[0].content.parts:
@@ -104,45 +104,43 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
     except genai.types.BlockedPromptException as bpe:
         print(f"درخواست توسط مدل بلاک شد: {bpe}")
         raise gr.Error(f"محتوای شما توسط مدل پذیرفته نشد. لطفاً متن دیگری را امتحان کنید. دلیل: {bpe}")
-    except Exception as e: # این بلوک except باید دارای بدنه با تورفتگی باشد
         print(f"خطای کلی در تولید صدا: {e}")
-        traceback.print_exc() # چاپ کامل traceback برای دیباگ
         error_message_from_api = ""
-        # تلاش برای استخراج پیام خطای دقیق‌تر از آبجکت خطای google-generativeai
         if hasattr(e, 'args') and e.args:
-            # خطاهای API گوگل معمولاً جزئیات را در e.args[0] یا یک ساختار پیچیده‌تر دارند
-            # برای خطای 400 که قبلاً دیدیم، پیام در e.args[0] بود.
-            if isinstance(e.args[0], str) and "HttpError" in e.args[0]:
                 try:
-                    # پیام خطا ممکن است شامل یک رشته JSON باشد
-                    msg_str = str(e.args[0])
-                    # استخراج بخش JSON مانند قبل
-                    details_start = msg_str.find('{')
                     if details_start != -1:
-                        error_details_json = msg_str[details_start:]
-                        # حذف کاراکترهای کنترلی احتمالی و تلاش برای parse
-                        cleaned_json_str = ''.join(c for c in error_details_json if ord(c) >= 32 or c in ('\t', '\n', '\r'))
                         error_obj = json.loads(cleaned_json_str)
                         if 'error' in error_obj and 'message' in error_obj['error']:
                             error_message_from_api = error_obj['error']['message']
-                        elif 'message' in error_obj: # گاهی اوقات پیام مستقیم در آبجکت خطا است
-                            error_message_from_api = error_obj['message']
                 except Exception as json_e:
-                    print(f"خطا در parse کردن جزئیات خطای API: {json_e}")
-                    error_message_from_api = str(e.args[0]) # اگر parse نشد، خود پیام اصلی را بگیر
             else:
                  error_message_from_api = str(e.args[0])
         final_error_message = f"خطا در ارتباط با Gemini API یا پردازش صدا: {str(e)}"
-        if error_message_from_api and error_message_from_api not in final_error_message:
             final_error_message += f" | پیام دقیق‌تر API: {error_message_from_api}"
-        elif not error_message_from_api and hasattr(e, 'message') and isinstance(e.message, str): # fallback
-             final_error_message += f" | {e.message}"
         raise gr.Error(final_error_message)
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# تبدیل متن به صدا با Gemini ♊")
     gr.Markdown("متن خود را وارد کنید تا با استفاده از مدل‌های جدید Gemini به صدا تبدیل شود.")
@@ -150,7 +148,6 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     with gr.Row():
         with gr.Column(scale=2):
             text_input = gr.Textbox(lines=5, label="متن ورودی", placeholder="متن خود را اینجا بنویسید...")
-            # voice_dropdown = gr.Dropdown(choices=AVAILABLE_VOICES, value=AVAILABLE_VOICES[0], label="انتخاب گوینده") # در آینده فعال شود
             submit_button = gr.Button("🔊 تبدیل به صدا", variant="primary")
         with gr.Column(scale=1):
             audio_output = gr.Audio(label="خروجی صدا", type="filepath")
@@ -166,7 +163,6 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     submit_button.click(
         fn=generate_audio,
-        # inputs=[text_input, voice_dropdown], # اگر voice_dropdown فعال است
         inputs=[text_input],
         outputs=[audio_output],
         api_name="text_to_speech"
@@ -177,4 +173,4 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("توجه: برای انتخاب گوینده‌های مختلف، نیاز به بررسی مستندات دقیق مدل TTS و بروزرسانی کد است.")
 if __name__ == "__main__":
-    demo.launch(debug=True) # debug=True برای دیدن لاگ‌های دقیق‌تر در کنسول هاگینگ فیس

 # app.py
 import gradio as gr
 import google.generativeai as genai
+# from google.generativeai import types # دیگر نیازی به types برای GenerationConfig با response_modalities نیست
 import os
 import io
 from scipy.io.wavfile import write as write_wav
 import numpy as np
+import traceback
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
 genai.configure(api_key=GOOGLE_API_KEY)
 TTS_MODEL_NAME = "gemini-2.5-flash-preview-tts"
 AVAILABLE_VOICES = ["پیش‌فرض (مدل انتخاب کند)"]
 def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل انتخاب کند)"):
     if not text_to_speak:
     print(f"درخواست TTS برای متن: '{text_to_speak[:50]}...' با گوینده: {selected_voice_name}")
     try:
+        # اطمینان از اینکه نام مدل با پیشوند models/ ارسال می‌شود، همانطور که پیام خطای قبلی نشان داد
         model = genai.GenerativeModel(f"models/{TTS_MODEL_NAME}")
+        # --- حذف response_modalities از generation_config ---
+        # مدل TTS باید به طور خودکار بداند که خروجی صوتی تولید کند.
+        # اگر نیاز به تنظیمات خاصی برای voice یا کیفیت باشد، باید در اینجا اضافه شود.
+        generation_config_params = {}
         # برای انتخاب گوینده، این بخش نیاز به اطلاعات از مستندات دارد
         if selected_voice_name != "پیش‌فرض (مدل انتخاب کند)":
             # مثال: generation_config_params["voice"] = selected_voice_name
+            # یا ساختار دقیق‌تری اگر مستندات مشخص کند.
+            print(f"توجه: انتخاب گوینده ('{selected_voice_name}') هنوز به طور کامل پیاده‌سازی نشده است.")
+        # فقط اگر generation_config_params خالی نیست، آن را بسازید
+        generation_config_to_pass = None
+        if generation_config_params:
+            generation_config_to_pass = genai.types.GenerationConfig(**generation_config_params)
+            print(f"ارسال درخواست به Gemini با generation_config: {generation_config_params}")
+        else:
+            print("ارسال درخواست به Gemini بدون generation_config خاص (با تنظیمات پیش‌فرض مدل).")
         response = model.generate_content(
             text_to_speak,
+            generation_config=generation_config_to_pass # می‌تواند None باشد
         )
+        # --- پایان تغییرات ---
+        # ... (بقیه کد پردازش پاسخ و ذخیره فایل صوتی بدون تغییر نسبت به نسخه قبلی که تورفتگی‌اش درست بود) ...
         audio_bytes = None
         generated_mime_type = None
+        sample_rate = 24000
         if hasattr(response, 'candidates') and response.candidates and \
            response.candidates[0].content and response.candidates[0].content.parts:
     except genai.types.BlockedPromptException as bpe:
         print(f"درخواست توسط مدل بلاک شد: {bpe}")
         raise gr.Error(f"محتوای شما توسط مدل پذیرفته نشد. لطفاً متن دیگری را امتحان کنید. دلیل: {bpe}")
+    except Exception as e:
         print(f"خطای کلی در تولید صدا: {e}")
+        traceback.print_exc()
         error_message_from_api = ""
         if hasattr(e, 'args') and e.args:
+            if isinstance(e.args[0], str) and "HttpError" in e.args[0]: # خطاهای HTTP از API
+                error_message_from_api = str(e.args[0]) # کل پیام خطا را بگیرید
+                # تلاش برای استخراج جزئیات بیشتر اگر JSON است
                 try:
+                    details_start = error_message_from_api.find('{')
                     if details_start != -1:
+                        json_str_candidate = error_message_from_api[details_start:]
+                        # تمیز کردن رشته JSON از کاراکترهای کنترلی ناخواسته
+                        import json
+                        cleaned_json_str = ''.join(c for c in json_str_candidate if ord(c) >= 32 or c in ('\t','\r','\n')).strip()
                         error_obj = json.loads(cleaned_json_str)
                         if 'error' in error_obj and 'message' in error_obj['error']:
                             error_message_from_api = error_obj['error']['message']
+                        elif 'message' in error_obj : # برخی API ها مستقیم پیام خطا دارند
+                             error_message_from_api = error_obj['message']
                 except Exception as json_e:
+                    print(f"خطا در parse کردن جزئیات JSON از پیام خطای API: {json_e}")
             else:
                  error_message_from_api = str(e.args[0])
+        elif hasattr(e, 'message') and isinstance(e.message, str): # fallback برای خطاهای دیگر
+            error_message_from_api = e.message
         final_error_message = f"خطا در ارتباط با Gemini API یا پردازش صدا: {str(e)}"
+        if error_message_from_api and error_message_from_api not in final_error_message :
             final_error_message += f" | پیام دقیق‌تر API: {error_message_from_api}"
         raise gr.Error(final_error_message)
+# --- رابط کاربری Gradio بدون تغییر ---
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# تبدیل متن به صدا با Gemini ♊")
     gr.Markdown("متن خود را وارد کنید تا با استفاده از مدل‌های جدید Gemini به صدا تبدیل شود.")
     with gr.Row():
         with gr.Column(scale=2):
             text_input = gr.Textbox(lines=5, label="متن ورودی", placeholder="متن خود را اینجا بنویسید...")
             submit_button = gr.Button("🔊 تبدیل به صدا", variant="primary")
         with gr.Column(scale=1):
             audio_output = gr.Audio(label="خروجی صدا", type="filepath")
     submit_button.click(
         fn=generate_audio,
         inputs=[text_input],
         outputs=[audio_output],
         api_name="text_to_speech"
     gr.Markdown("توجه: برای انتخاب گوینده‌های مختلف، نیاز به بررسی مستندات دقیق مدل TTS و بروزرسانی کد است.")
 if __name__ == "__main__":
+    demo.launch(debug=True)