Spaces:

MultiTransformer
/

AyaTonic

Runtime error

App Files Files Community

tonic commited on Feb 25

Commit

4889640

•

1 Parent(s): f8ee061

language list and prompt engineering ;-)

Browse files

Files changed (2) hide show

app.py +19 -13
lang_list.py +255 -0

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from surya.ocr import run_ocr
 from surya.model.detection.segformer import load_model as load_det_model, load_processor as load_det_processor
 from surya.model.recognition.model import load_model as load_rec_model
 from surya.model.recognition.processor import load_processor as load_rec_processor
 from gradio_client import Client
 from dotenv import load_dotenv
 import requests
@@ -16,12 +17,14 @@ import re
 title = "# Welcome to AyaTonic"
 description = "Learn a New Language With Aya"
 # Load environment variables
 load_dotenv()
 COHERE_API_KEY = os.getenv('CO_API_KEY')
 SEAMLESSM4T = os.getenv('SEAMLESSM4T')
 # Regular expression patterns for each color
 patterns = {
@@ -66,14 +69,14 @@ class TaggedPhraseExtractor:
 co = cohere.Client(COHERE_API_KEY)
 audio_client = Client(SEAMLESSM4T)
-def process_audio_to_text(audio_path):
     """
     Convert audio input to text using the Gradio client.
     """
     result = audio_client.predict(
         audio_path,
-        "English",
-        "English",
         api_name="/s2tt"
     )
     print("Audio Result: ", result)
@@ -85,8 +88,8 @@ def process_text_to_audio(text, target_language="English"):
     """
     result = audio_client.predict(
         text,
-        "English",
         target_language,
         api_name="/t2st"
     )
     return result['audio']  # Adjust based on the actual response
@@ -141,20 +144,22 @@ def process_input(image=None, file=None, audio=None, text=""):
         audio_text = process_audio_to_text(audio)
         final_text += "\n" + audio_text
     response = co.generate(
         model='c4ai-aya',
-        prompt=final_text,
         max_tokens=1024,
         temperature=0.5
     )
     generated_text = response.generations[0].text
     print("Generated Text: ", generated_text)
-    # Process generated text with command-nightly model
     response = co.generate(
         model='command-nightly',
-        prompt=generated_text,
-        max_tokens=1024,
         temperature=0.5
     )
     processed_text = response.generations[0].text
@@ -162,7 +167,6 @@ def process_input(image=None, file=None, audio=None, text=""):
     audio_output = process_text_to_audio(processed_text)
     return processed_text, audio_output
 # Define Gradio interface
 iface = gr.Interface(
     fn=process_input,
@@ -187,7 +191,7 @@ if __name__ == "__main__":
 # co = cohere.Client('yhA228YGeZSl1ctten8LQxw2dky2nngHetXFjV2Q') # This is your trial API key
 # response = co.generate(
 #   model='c4ai-aya',
-#   prompt='एक यांत्रिक घड़ी दिन के समय को प्रदान करने के लिए एक गैर-इलेक्ट्रॉनिक तंत्र का उपयोग करती है। एक मुख्य स्प्रिंग का उपयोग यांत्रिक तंत्र को ऊर्जा संग्रहीत करने के लिए किया जाता है। एक यांत्रिक घड़ी में दांतों का एक कुंडल होता है जो धीरे-धीरे मुख्य स्प्रिंग से संचालित होता है। दांतों के कुंडल को एक यांत्रिक तंत्र में स्थानांतरित करने के लिए पहियों की एक श्रृंखला का उपयोग किया जाता है जो हाथों को घड़ी के चेहरे पर दाईं ओर ले जाता है। घड़ी के तंत्र को स्थिर करने और यह सुनिश्चित करने के लिए कि हाथ सही दिशा में घूमते हैं, एक कंपन का उपयोग किया जाता है।\n\nProduce a complete blog post in FRENCH based on the above : ',
 #   max_tokens=3674,
 #   temperature=0.9,
 #   k=0,
@@ -224,7 +228,9 @@ iface = gr.Interface(
         gr.Image(type="pil", label="Camera Input"),
         gr.File(label="File Upload"),
         gr.Audio(sources="microphone", type="filepath", label="Mic Input"),
-        gr.Textbox(lines=2, label="Text Input")
     ],
     outputs=[
         gr.RichTextbox(label="Processed Text"),

 from surya.model.detection.segformer import load_model as load_det_model, load_processor as load_det_processor
 from surya.model.recognition.model import load_model as load_rec_model
 from surya.model.recognition.processor import load_processor as load_rec_processor
+from lang_list import LANGUAGE_NAME_TO_CODE, TEXT_SOURCE_LANGUAGE_NAMES, S2ST_TARGET_LANGUAGE_NAMES
 from gradio_client import Client
 from dotenv import load_dotenv
 import requests
 title = "# Welcome to AyaTonic"
 description = "Learn a New Language With Aya"
 # Load environment variables
 load_dotenv()
 COHERE_API_KEY = os.getenv('CO_API_KEY')
 SEAMLESSM4T = os.getenv('SEAMLESSM4T')
+inputlanguage = ""
+producetext =  "\n\nProduce a complete expositional blog post in {target_language} based on the above :"
+formatinputstring = "\n\nthe above text is a learning aid. you must use rich text format to rewrite the above and add 1 . a red color tags for nouns 2. a blue color tag for verbs 3. a green color tag for adjectives and adverbs:"
 # Regular expression patterns for each color
 patterns = {
 co = cohere.Client(COHERE_API_KEY)
 audio_client = Client(SEAMLESSM4T)
+def process_audio_to_text(audio_path, inputlanguage="English"):
     """
     Convert audio input to text using the Gradio client.
     """
     result = audio_client.predict(
         audio_path,
+        inputlanguage,
+        inputlanguage,
         api_name="/s2tt"
     )
     print("Audio Result: ", result)
     """
     result = audio_client.predict(
         text,
         target_language,
+        target_language,  # could be make a variation for learning content
         api_name="/t2st"
     )
     return result['audio']  # Adjust based on the actual response
         audio_text = process_audio_to_text(audio)
         final_text += "\n" + audio_text
+    final_text_with_producetext = final_text + producetext
     response = co.generate(
         model='c4ai-aya',
+        prompt=final_text_with_producetext,
         max_tokens=1024,
         temperature=0.5
     )
+    # add graceful handling for errors (overflow)
     generated_text = response.generations[0].text
     print("Generated Text: ", generated_text)
+    generated_text_with_format = generated_text + "\n" + formatinputstring
     response = co.generate(
         model='command-nightly',
+        prompt=generated_text_with_format,
+        max_tokens=4000,
         temperature=0.5
     )
     processed_text = response.generations[0].text
     audio_output = process_text_to_audio(processed_text)
     return processed_text, audio_output
 # Define Gradio interface
 iface = gr.Interface(
     fn=process_input,
 # co = cohere.Client('yhA228YGeZSl1ctten8LQxw2dky2nngHetXFjV2Q') # This is your trial API key
 # response = co.generate(
 #   model='c4ai-aya',
+#   prompt='एक यांत्रिक घड़ी दिन के समय को प्रदान करने ��े लिए एक गैर-इलेक्ट्रॉनिक तंत्र का उपयोग करती है। एक मुख्य स्प्रिंग का उपयोग यांत्रिक तंत्र को ऊर्जा संग्रहीत करने के लिए किया जाता है। एक यांत्रिक घड़ी में दांतों का एक कुंडल होता है जो धीरे-धीरे मुख्य स्प्रिंग से संचालित होता है। दांतों के कुंडल को एक यांत्रिक तंत्र में स्थानांतरित करने के लिए पहियों की एक श्रृंखला का उपयोग किया जाता है जो हाथों को घड़ी के चेहरे पर दाईं ओर ले जाता है। घड़ी के तंत्र को स्थिर करने और यह सुनिश्चित करने के लिए कि हाथ सही दिशा में घूमते हैं, एक कंपन का उपयोग किया जाता है। ',
 #   max_tokens=3674,
 #   temperature=0.9,
 #   k=0,
         gr.Image(type="pil", label="Camera Input"),
         gr.File(label="File Upload"),
         gr.Audio(sources="microphone", type="filepath", label="Mic Input"),
+        gr.Textbox(lines=2, label="Text Input"),
+        gr.Dropdown(choices=TEXT_SOURCE_LANGUAGE_NAMES, label="Input Language"),
+        gr.Dropdown(choices=TEXT_SOURCE_LANGUAGE_NAMES, label="Target Language")
     ],
     outputs=[
         gr.RichTextbox(label="Processed Text"),

lang_list.py ADDED Viewed

	@@ -0,0 +1,255 @@

+# Language dict from https://huggingface.co/spaces/facebook/seamless-m4t-v2-large/blob/main/lang_list.py
+language_code_to_name = {
+    "afr": "Afrikaans",
+    "amh": "Amharic",
+    "arb": "Modern Standard Arabic",
+    "ary": "Moroccan Arabic",
+    "arz": "Egyptian Arabic",
+    "asm": "Assamese",
+    "ast": "Asturian",
+    "azj": "North Azerbaijani",
+    "bel": "Belarusian",
+    "ben": "Bengali",
+    "bos": "Bosnian",
+    "bul": "Bulgarian",
+    "cat": "Catalan",
+    "ceb": "Cebuano",
+    "ces": "Czech",
+    "ckb": "Central Kurdish",
+    "cmn": "Mandarin Chinese",
+    "cym": "Welsh",
+    "dan": "Danish",
+    "deu": "German",
+    "ell": "Greek",
+    "eng": "English",
+    "est": "Estonian",
+    "eus": "Basque",
+    "fin": "Finnish",
+    "fra": "French",
+    "gaz": "West Central Oromo",
+    "gle": "Irish",
+    "glg": "Galician",
+    "guj": "Gujarati",
+    "heb": "Hebrew",
+    "hin": "Hindi",
+    "hrv": "Croatian",
+    "hun": "Hungarian",
+    "hye": "Armenian",
+    "ibo": "Igbo",
+    "ind": "Indonesian",
+    "isl": "Icelandic",
+    "ita": "Italian",
+    "jav": "Javanese",
+    "jpn": "Japanese",
+    "kam": "Kamba",
+    "kan": "Kannada",
+    "kat": "Georgian",
+    "kaz": "Kazakh",
+    "kea": "Kabuverdianu",
+    "khk": "Halh Mongolian",
+    "khm": "Khmer",
+    "kir": "Kyrgyz",
+    "kor": "Korean",
+    "lao": "Lao",
+    "lit": "Lithuanian",
+    "ltz": "Luxembourgish",
+    "lug": "Ganda",
+    "luo": "Luo",
+    "lvs": "Standard Latvian",
+    "mai": "Maithili",
+    "mal": "Malayalam",
+    "mar": "Marathi",
+    "mkd": "Macedonian",
+    "mlt": "Maltese",
+    "mni": "Meitei",
+    "mya": "Burmese",
+    "nld": "Dutch",
+    "nno": "Norwegian Nynorsk",
+    "nob": "Norwegian Bokm\u00e5l",
+    "npi": "Nepali",
+    "nya": "Nyanja",
+    "oci": "Occitan",
+    "ory": "Odia",
+    "pan": "Punjabi",
+    "pbt": "Southern Pashto",
+    "pes": "Western Persian",
+    "pol": "Polish",
+    "por": "Portuguese",
+    "ron": "Romanian",
+    "rus": "Russian",
+    "slk": "Slovak",
+    "slv": "Slovenian",
+    "sna": "Shona",
+    "snd": "Sindhi",
+    "som": "Somali",
+    "spa": "Spanish",
+    "srp": "Serbian",
+    "swe": "Swedish",
+    "swh": "Swahili",
+    "tam": "Tamil",
+    "tel": "Telugu",
+    "tgk": "Tajik",
+    "tgl": "Tagalog",
+    "tha": "Thai",
+    "tur": "Turkish",
+    "ukr": "Ukrainian",
+    "urd": "Urdu",
+    "uzn": "Northern Uzbek",
+    "vie": "Vietnamese",
+    "xho": "Xhosa",
+    "yor": "Yoruba",
+    "yue": "Cantonese",
+    "zlm": "Colloquial Malay",
+    "zsm": "Standard Malay",
+    "zul": "Zulu",
+}
+LANGUAGE_NAME_TO_CODE = {v: k for k, v in language_code_to_name.items()}
+# Source langs: S2ST / S2TT / ASR don't need source lang
+# T2TT / T2ST use this
+text_source_language_codes = [
+    "afr",
+    "amh",
+    "arb",
+    "ary",
+    "arz",
+    "asm",
+    "azj",
+    "bel",
+    "ben",
+    "bos",
+    "bul",
+    "cat",
+    "ceb",
+    "ces",
+    "ckb",
+    "cmn",
+    "cym",
+    "dan",
+    "deu",
+    "ell",
+    "eng",
+    "est",
+    "eus",
+    "fin",
+    "fra",
+    "gaz",
+    "gle",
+    "glg",
+    "guj",
+    "heb",
+    "hin",
+    "hrv",
+    "hun",
+    "hye",
+    "ibo",
+    "ind",
+    "isl",
+    "ita",
+    "jav",
+    "jpn",
+    "kan",
+    "kat",
+    "kaz",
+    "khk",
+    "khm",
+    "kir",
+    "kor",
+    "lao",
+    "lit",
+    "lug",
+    "luo",
+    "lvs",
+    "mai",
+    "mal",
+    "mar",
+    "mkd",
+    "mlt",
+    "mni",
+    "mya",
+    "nld",
+    "nno",
+    "nob",
+    "npi",
+    "nya",
+    "ory",
+    "pan",
+    "pbt",
+    "pes",
+    "pol",
+    "por",
+    "ron",
+    "rus",
+    "slk",
+    "slv",
+    "sna",
+    "snd",
+    "som",
+    "spa",
+    "srp",
+    "swe",
+    "swh",
+    "tam",
+    "tel",
+    "tgk",
+    "tgl",
+    "tha",
+    "tur",
+    "ukr",
+    "urd",
+    "uzn",
+    "vie",
+    "yor",
+    "yue",
+    "zsm",
+    "zul",
+]
+TEXT_SOURCE_LANGUAGE_NAMES = sorted([language_code_to_name[code] for code in text_source_language_codes])
+# Target langs:
+# S2ST / T2ST
+s2st_target_language_codes = [
+    "eng",
+    "arb",
+    "ben",
+    "cat",
+    "ces",
+    "cmn",
+    "cym",
+    "dan",
+    "deu",
+    "est",
+    "fin",
+    "fra",
+    "hin",
+    "ind",
+    "ita",
+    "jpn",
+    "kor",
+    "mlt",
+    "nld",
+    "pes",
+    "pol",
+    "por",
+    "ron",
+    "rus",
+    "slk",
+    "spa",
+    "swe",
+    "swh",
+    "tel",
+    "tgl",
+    "tha",
+    "tur",
+    "ukr",
+    "urd",
+    "uzn",
+    "vie",
+]
+S2ST_TARGET_LANGUAGE_NAMES = sorted([language_code_to_name[code] for code in s2st_target_language_codes])
+T2ST_TARGET_LANGUAGE_NAMES = S2ST_TARGET_LANGUAGE_NAMES
+# S2TT / T2TT / ASR
+S2TT_TARGET_LANGUAGE_NAMES = TEXT_SOURCE_LANGUAGE_NAMES
+T2TT_TARGET_LANGUAGE_NAMES = TEXT_SOURCE_LANGUAGE_NAMES
+ASR_TARGET_LANGUAGE_NAMES = TEXT_SOURCE_LANGUAGE_NAMES