Spaces:

dpc
/

vien

Sleeping

App Files Files Community

dpc commited on May 31, 2023

Commit

8877cce

•

1 Parent(s): 1c69775

update model and gr

Browse files

Files changed (2) hide show

README.md +3 -3
app.py +140 -29

README.md CHANGED Viewed

@@ -11,9 +11,9 @@ pinned: false
 ## Info
-Using facebook/m2m100_1.2B pre-trained model
-facebook/m2m100_1.2B supports 100 languages.
 Here, this app uses/tests these languages only.
@@ -31,4 +31,4 @@ Vietnamese(vi)
 ## Read more:
-https://huggingface.co/facebook/m2m100_1.2B

 ## Info
+Using facebook/m2m100-12B-avg-5-ckpt pre-trained model
+facebook/m2m100-12B-avg-5-ckpt supports 100 languages.
 Here, this app uses/tests these languages only.
 ## Read more:
+https://huggingface.co/facebook/m2m100-12B-avg-5-ckpt

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
 this_description = '''
-Using facebook/m2m100_1.2B pre-trained model. Language code:
 Chinese(zh)
 English(en)
 Hindi(hi)
@@ -18,16 +18,121 @@ Japanese(ja)
 Sinhalese(si)
 Thai(th)
 Vietnamese(vi)
 '''
 def m2m_translate(Input_Text, from_lang, to_lang):
-    tokenizer.src_lang = from_lang
     encoded_from_lang = tokenizer(Input_Text, return_tensors="pt")
     generated_tokens = model.generate(
-        **encoded_from_lang, forced_bos_token_id=tokenizer.get_lang_id(to_lang))
     res = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
@@ -39,35 +144,41 @@ def m2m_translate(Input_Text, from_lang, to_lang):
 iface = gr.Interface(
     fn=m2m_translate,
-    title="M2M100 Translation",
     description=this_description,
     inputs=[
-        gr.inputs.Textbox(lines=5, placeholder="Enter text"),
-        gr.inputs.Radio(
-            choices=[
-                'zh',
-                'en',
-                'hi',
-                'ja',
-                'si',
-                'th',
-                'vi'],
-            default='vi',
-            label='From language'),
-        gr.inputs.Radio(
-            choices=[
-                'zh',
-                'en',
-                'hi',
-                'ja',
-                'si',
-                'th',
-                'vi'],
-            default='en',
-            label='To language'),
     ],
     outputs="text")

 this_description = '''
+Using facebook/m2m100-12B-avg-5-ckpt pre-trained model. Language code:
 Chinese(zh)
 English(en)
 Hindi(hi)
 Sinhalese(si)
 Thai(th)
 Vietnamese(vi)
+...
 '''
+# From facebook/m2m100-12B-avg-5-ckpt
+lang_codes = {
+  "Afrikaans": "af",
+  "Amharic": "am",
+  "Arabic": "ar",
+  "Asturian": "ast",
+  "Azerbaijani": "az",
+  "Bashkir": "ba",
+  "Belarusian": "be",
+  "Bulgarian": "bg",
+  "Bengali": "bn",
+  "Breton": "br",
+  "Bosnian": "bs",
+  "Catalan; Valencian": "ca",
+  "Cebuano": "ceb",
+  "Czech": "cs",
+  "Welsh": "cy",
+  "Danish": "da",
+  "German": "de",
+  "Greeek": "el",
+  "English": "en",
+  "Spanish": "es",
+  "Estonian": "et",
+  "Persian": "fa",
+  "Fulah": "ff",
+  "Finnish": "fi",
+  "French": "fr",
+  "Western Frisian": "fy",
+  "Irish": "ga",
+  "Gaelic; Scottish Gaelic": "gd",
+  "Galician": "gl",
+  "Gujarati": "gu",
+  "Hausa": "ha",
+  "Hebrew": "he",
+  "Hindi": "hi",
+  "Croatian": "hr",
+  "Haitian; Haitian Creole": "ht",
+  "Hungarian": "hu",
+  "Armenian": "hy",
+  "Indonesian": "id",
+  "Igbo": "ig",
+  "Iloko": "ilo",
+  "Icelandic": "is",
+  "Italian": "it",
+  "Japanese": "ja",
+  "Javanese": "jv",
+  "Georgian": "ka",
+  "Kazakh": "kk",
+  "Central Khmer": "km",
+  "Kannada": "kn",
+  "Korean": "ko",
+  "Luxembourgish; Letzeburgesch": "lb",
+  "Ganda": "lg",
+  "Lingala": "ln",
+  "Lao": "lo",
+  "Lithuanian": "lt",
+  "Latvian": "lv",
+  "Malagasy": "mg",
+  "Macedonian": "mk",
+  "Malayalam": "ml",
+  "Mongolian": "mn",
+  "Marathi": "mr",
+  "Malay": "ms",
+  "Burmese": "my",
+  "Nepali": "ne",
+  "Dutch; Flemish": "nl",
+  "Norwegian": "no",
+  "Northern Sotho": "ns",
+  "Occitan": "oc",
+  "Oriya": "or",
+  "Panjabi; Punjabi": "pa",
+  "Polish": "pl",
+  "Pushto": "ps",
+  "Portuguese": "pt",
+  "Romanian; Moldavian; Moldovan": "ro",
+  "Russian": "ru",
+  "Sindhi": "sd",
+  "Sinhala; Sinhalese": "si",
+  "Slovak": "sk",
+  "Slovenian": "sl",
+  "Somali": "so",
+  "Albanian": "sq",
+  "Serbian": "sr",
+  "Swati": "ss",
+  "Sundanese": "su",
+  "Swedish": "sv",
+  "Swahili": "sw",
+  "Tamil": "ta",
+  "Thai": "th",
+  "Tagalog": "tl",
+  "Tswana": "tn",
+  "Turkish": "tr",
+  "Ukrainian": "uk",
+  "Urdu": "ur",
+  "Uzbek": "uz",
+  "Vietnamese": "vi",
+  "Wolof": "wo",
+  "Xhosa": "xh",
+  "Yiddish": "yi",
+  "Yoruba": "yo",
+  "Chinese": "zh",
+  "Zulu": "zu"
+}
 def m2m_translate(Input_Text, from_lang, to_lang):
+    tokenizer.src_lang = lang_codes[from_lang]
     encoded_from_lang = tokenizer(Input_Text, return_tensors="pt")
     generated_tokens = model.generate(
+        **encoded_from_lang, forced_bos_token_id=tokenizer.get_lang_id(lang_codes[to_lang]))
     res = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
 iface = gr.Interface(
     fn=m2m_translate,
+    title="M2M100 Text Translation",
     description=this_description,
     inputs=[
+        gr.Textbox(lines=5, placeholder="Enter text", label="Text input"),
+        gr.Radio(
+    choices=[
+      'Burmese',
+        'Chinese',
+        'English',
+        'Hindi',
+        'Japanese',
+        'Sinhala',
+        'Thai',
+        'Vietnamese'
+    ],
+    default='Vietnamese',
+    label='From language'
+),
+gr.Radio(
+    choices=[
+      'Burmese',
+        'Chinese',
+        'English',
+        'Hindi',
+        'Japanese',
+        'Sinhala',
+        'Thai',
+        'Vietnamese'
+    ],
+    default='English',
+    label='To language'
+),
     ],
     outputs="text")