script-normalization-kurdish-persian-arabic

Sleeping

App Files Files Community

nazimali commited on Oct 5, 2024

Commit

23ca1e9

1 Parent(s): 622b31f

Fix import errors, lint

Browse files

Files changed (2) hide show

app.py +37 -36
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -1,21 +1,18 @@
-from pathlib import Path
 from functools import partial
-from joeynmt.prediction import predict
 from joeynmt.helpers import (
-    check_version,
     load_checkpoint,
     load_config,
     parse_train_args,
     resolve_ckpt_path,
 )
 from joeynmt.model import build_model
 from joeynmt.tokenizers import build_tokenizer
 from joeynmt.vocabulary import build_vocab
-from joeynmt.datasets import build_dataset
-import gradio as gr
 languages_scripts = {
     "Azeri Turkish in Persian": "AzeriTurkish-Persian",
@@ -29,45 +26,44 @@ languages_scripts = {
     "Mazandarani in Persian": "Mazandarani-Persian",
     "Northern Kurdish in Arabic": "Kurmanji-Arabic",
     "Northern Kurdish in Persian": "Kurmanji-Persian",
-    "Sindhi in Urdu": "Sindhi-Urdu"
 }
 def normalize(text, language_script):
-    cfg_file = "./models/%s/config.yaml"%languages_scripts[language_script]
-    ckpt = "./models/%s/best.ckpt"%languages_scripts[language_script]
     cfg = load_config(Path(cfg_file))
-        # parse and validate cfg
-    model_dir, load_model, device, n_gpu, num_workers, _, fp16 = parse_train_args(
-        cfg["training"], mode="prediction")
     test_cfg = cfg["testing"]
     src_cfg = cfg["data"]["src"]
     trg_cfg = cfg["data"]["trg"]
     load_model = load_model if ckpt is None else Path(ckpt)
     ckpt = resolve_ckpt_path(load_model, model_dir)
     src_vocab, trg_vocab = build_vocab(cfg["data"], model_dir=model_dir)
     model = build_model(cfg["model"], src_vocab=src_vocab, trg_vocab=trg_vocab)
     # load model state from disk
     model_checkpoint = load_checkpoint(ckpt, device=device)
     model.load_state_dict(model_checkpoint["model_state"])
     if device.type == "cuda":
         model.to(device)
     tokenizer = build_tokenizer(cfg["data"])
     sequence_encoder = {
         src_cfg["lang"]: partial(src_vocab.sentences_to_ids, bos=False, eos=True),
         trg_cfg["lang"]: None,
     }
     test_cfg["batch_size"] = 1  # CAUTION: this will raise an error if n_gpus > 1
     test_cfg["batch_type"] = "sentence"
     test_data = build_dataset(
         dataset_type="stream",
         path=None,
@@ -79,7 +75,7 @@ def normalize(text, language_script):
     )
     test_data.set_item(text.strip())
-    cfg=test_cfg
     _, _, hypotheses, trg_tokens, trg_scores, _ = predict(
         model=model,
         data=test_data,
@@ -91,8 +87,10 @@ def normalize(text, language_script):
         cfg=cfg,
         fp16=fp16,
     )
     return hypotheses[0]
 title = """
 <center><strong><font size='8'>Script Normalization for Unconventional Writing<font></strong></center>
@@ -125,22 +123,25 @@ description = """
 """
 examples = [
-    ["بو شهرین نوفوسو ، 2014 نجی ایلين نوفوس ساییمی اساسيندا 41 نفر ایمیش .", "Azeri Turkish in Persian"],#"بۇ شهرین نۆفوسو ، 2014 نجی ایلين نۆفوس ساییمی اساسيندا 41 نفر ایمیش ."
     ["ياخوا تةمةن دريژبيت بوئةم ميللةتة", "Central Kurdish in Arabic"],
     ["یکیک له جوانیکانی ام شاره جوانه", "Central Kurdish in Persian"],
     ["نمک درهٰ مردوم گيلک ايسن ؤ اوشان زوان ني گيلکي ايسه .", "Gilaki in Persian"],
-    ["شؤنةو اانةيةرة گةشت و گلي ناجارانةو اؤجالاني دةستش پنةكةرد", "Gorani in Arabic"], #شۆنەو ئانەیەرە گەشت و گێڵی ناچارانەو ئۆجالانی دەستش پنەکەرد
-    ["ڕوٙو زوانی ئەذایی چەنی پەیذابی ؟", "Gorani in Central Kurdish"], # ڕوٙو زوانی ئەڎایی چەنی پەیڎابی ؟
-    ["هنگامکان ظميٛ ر چمان ، بپا کريٛلي بيشان :", "Gorani in Persian"], # هەنگامەکان وزمیٛ وەرو چەمان ، بەپاو کریٛڵی بیەشان :
-    ["ربعی بن افکل اُسے اَکھ صُحابی .", "Kashmiri in Urdu"], # ربعی بن افکل ٲسؠ اَکھ صُحابی .
-    ["اینتا زون گنشکرون 85 میلیون نفر هسن", "Mazandarani in Persian"], # اینتا زوون گِنِشکَرون 85 میلیون نفر هسنه
-    ["بة رطكا هة صطئن ژ دل هاطة  بة لافكرن", "Northern Kurdish in Arabic"], #پەرتوکا هەستێن ژ دل هاتە بەلافکرن
-    ["ثرکى همرنگ نرميني دويت هندک قوناغين دي ببريت", "Northern Kurdish in Persian"], # سەرەکی هەمەرەنگ نەرمینێ دڤێت هندەک قوناغێن دی ببڕیت
-    ["ہتی کجھ اپ ۽ تمام دائون ترینون بیھندیون آھن .", "Sindhi in Urdu"] # هتي ڪجھ اپ ۽ تمام ڊائون ٽرينون بيھنديون آھن .
 ]
-article =  """
 <div style="text-align: justify; max-width: 1200px; margin: 20px auto;">
     <h3 style="font-weight: 450; font-size: 1rem; margin: 0rem">
         <b>Created and deployed by Sina Ahmadi <a href="https://sinaahmadi.github.io/">(https://sinaahmadi.github.io/)</a>.
@@ -152,14 +153,14 @@ demo = gr.Interface(
     title=title,
     description=description,
     fn=normalize,
-    inputs = [
         gr.inputs.Textbox(lines=4, label="Noisy Text \U0001F974"),
         gr.Dropdown(label="Language in unconventional script", choices=sorted(list(languages_scripts.keys()))),
     ],
     outputs=gr.outputs.Textbox(label="Normalized Text \U0001F642"),
     examples=examples,
     article=article,
-    examples_per_page=20
 )
 demo.launch()

 from functools import partial
+from pathlib import Path
+import gradio as gr
+from joeynmt.datasets import build_dataset
 from joeynmt.helpers import (
     load_checkpoint,
     load_config,
     parse_train_args,
     resolve_ckpt_path,
 )
 from joeynmt.model import build_model
+from joeynmt.prediction import predict
 from joeynmt.tokenizers import build_tokenizer
 from joeynmt.vocabulary import build_vocab
 languages_scripts = {
     "Azeri Turkish in Persian": "AzeriTurkish-Persian",
     "Mazandarani in Persian": "Mazandarani-Persian",
     "Northern Kurdish in Arabic": "Kurmanji-Arabic",
     "Northern Kurdish in Persian": "Kurmanji-Persian",
+    "Sindhi in Urdu": "Sindhi-Urdu",
 }
 def normalize(text, language_script):
+    cfg_file = "./models/%s/config.yaml" % languages_scripts[language_script]
+    ckpt = "./models/%s/best.ckpt" % languages_scripts[language_script]
     cfg = load_config(Path(cfg_file))
+    # parse and validate cfg
+    model_dir, load_model, device, n_gpu, num_workers, _, fp16 = parse_train_args(cfg["training"], mode="prediction")
     test_cfg = cfg["testing"]
     src_cfg = cfg["data"]["src"]
     trg_cfg = cfg["data"]["trg"]
     load_model = load_model if ckpt is None else Path(ckpt)
     ckpt = resolve_ckpt_path(load_model, model_dir)
     src_vocab, trg_vocab = build_vocab(cfg["data"], model_dir=model_dir)
     model = build_model(cfg["model"], src_vocab=src_vocab, trg_vocab=trg_vocab)
     # load model state from disk
     model_checkpoint = load_checkpoint(ckpt, device=device)
     model.load_state_dict(model_checkpoint["model_state"])
     if device.type == "cuda":
         model.to(device)
     tokenizer = build_tokenizer(cfg["data"])
     sequence_encoder = {
         src_cfg["lang"]: partial(src_vocab.sentences_to_ids, bos=False, eos=True),
         trg_cfg["lang"]: None,
     }
     test_cfg["batch_size"] = 1  # CAUTION: this will raise an error if n_gpus > 1
     test_cfg["batch_type"] = "sentence"
     test_data = build_dataset(
         dataset_type="stream",
         path=None,
     )
     test_data.set_item(text.strip())
+    cfg = test_cfg
     _, _, hypotheses, trg_tokens, trg_scores, _ = predict(
         model=model,
         data=test_data,
         cfg=cfg,
         fp16=fp16,
     )
     return hypotheses[0]
 title = """
 <center><strong><font size='8'>Script Normalization for Unconventional Writing<font></strong></center>
 """
 examples = [
+    [
+        "بو شهرین نوفوسو ، 2014 نجی ایلين نوفوس ساییمی اساسيندا 41 نفر ایمیش .",
+        "Azeri Turkish in Persian",
+    ],  # "بۇ شهرین نۆفوسو ، 2014 نجی ایلين نۆفوس ساییمی اساسيندا 41 نفر ایمیش ."
     ["ياخوا تةمةن دريژبيت بوئةم ميللةتة", "Central Kurdish in Arabic"],
     ["یکیک له جوانیکانی ام شاره جوانه", "Central Kurdish in Persian"],
     ["نمک درهٰ مردوم گيلک ايسن ؤ اوشان زوان ني گيلکي ايسه .", "Gilaki in Persian"],
+    ["شؤنةو اانةيةرة گةشت و گلي ناجارانةو اؤجالاني دةستش پنةكةرد", "Gorani in Arabic"],  # شۆنەو ئانەیەرە گەشت و گێڵی ناچارانەو ئۆجالانی دەستش پنەکەرد
+    ["ڕوٙو زوانی ئەذایی چەنی پەیذابی ؟", "Gorani in Central Kurdish"],  # ڕوٙو زوانی ئەڎایی چەنی پەیڎابی ؟
+    ["هنگامکان ظميٛ ر چمان ، بپا کريٛلي بيشان :", "Gorani in Persian"],  # هەنگامەکان وزمیٛ وەرو چەمان ، بەپاو کریٛڵی بیەشان :
+    ["ربعی بن افکل اُسے اَکھ صُحابی .", "Kashmiri in Urdu"],  # ربعی بن افکل ٲسؠ اَکھ صُحابی .
+    ["اینتا زون گنشکرون 85 میلیون نفر هسن", "Mazandarani in Persian"],  # اینتا زوون گِنِشکَرون 85 میلیون نفر هسنه
+    ["بة رطكا هة صطئن ژ دل هاطة  بة لافكرن", "Northern Kurdish in Arabic"],  # پەرتوکا هەستێن ژ دل هاتە بەلافکرن
+    ["ثرکى همرنگ نرميني دويت هندک قوناغين دي ببريت", "Northern Kurdish in Persian"],  # سەرەکی هەمەرەنگ نەرمینێ دڤێت هندەک قوناغێن دی ببڕیت
+    ["ہتی کجھ اپ ۽ تمام دائون ترینون بیھندیون آھن .", "Sindhi in Urdu"],  # هتي ڪجھ اپ ۽ تمام ڊائون ٽرينون بيھنديون آھن .
 ]
+article = """
 <div style="text-align: justify; max-width: 1200px; margin: 20px auto;">
     <h3 style="font-weight: 450; font-size: 1rem; margin: 0rem">
         <b>Created and deployed by Sina Ahmadi <a href="https://sinaahmadi.github.io/">(https://sinaahmadi.github.io/)</a>.
     title=title,
     description=description,
     fn=normalize,
+    inputs=[
         gr.inputs.Textbox(lines=4, label="Noisy Text \U0001F974"),
         gr.Dropdown(label="Language in unconventional script", choices=sorted(list(languages_scripts.keys()))),
     ],
     outputs=gr.outputs.Textbox(label="Normalized Text \U0001F642"),
     examples=examples,
     article=article,
+    examples_per_page=20,
 )
 demo.launch()

requirements.txt CHANGED Viewed

	@@ -1,2 +1,2 @@
1	gradio
2	- ~~git+https://github.com/~~joeynmt~~/joeynmt~~.~~git~~


1	gradio
2	+ joeynmt==2.2.0