Spaces:

mideind
/

textaleidretting

Runtime error

App Files Files Community

svanhvit commited on Sep 23, 2022

Commit

ee970b2

•

1 Parent(s): 5a692ce

highlighting adjusted, still needs to restore paragraphs

Browse files

Files changed (1) hide show

app.py +55 -14

app.py CHANGED Viewed

@@ -3,32 +3,73 @@
 import gradio as gr
 from transformers import pipeline
 import tokenizer
 title = "Textaleiðrétting fyrir íslensku"
-description = "Hér má leiðrétta ýmsar málfars- og stafsetningarvillur í íslenskum textum, með hjálp tauganets. Netið reynir að „þýða“ úr texta með villum yfir í villulausan, og er þjálfað ofan á byT5-líkanið frá Google með bæði gervivillugögnum og raunverulegum villum.  \n\nBest er að setja stutta textabúta inn í einu. Þetta er prufuútgáfa sem hefur ekki lært að leiðrétta allar mögulegar villur, og er í stöðugri þróun."
 translator = pipeline("translation", model="mideind/yfirlestur-icelandic-correction-byt5", max_length=512)
 def split_text(text):
     sentence_list = [i for i in tokenizer.split_into_sentences(text, original=True)]
     return sentence_list
 def predict(text):
-    text = text.replace("\n", " ")
     translated = ""
-    # check for way too long inputs
-    for i in split_text(text):
-         # doesn't keep original string formatting, instead adds a space btw sentences
-        translated += translator(i.strip())[0]["translation_text"] + " "
-    return translated
-iface = gr.Interface(
-    fn=predict,
     inputs='text',
-    outputs='text',
     title=title,
     description=description,
-    examples=[["Kvitu fiðrildinn fljua firir utan gluggan."], ["Ég held þetta er ekki góður tími fara heimsókn."], ["Mer hlakar til jólana"], ["Kver a þenan bússtað ja eða nei"]]
 )
-iface.launch()

 import gradio as gr
 from transformers import pipeline
 import tokenizer
+from difflib import Differ, SequenceMatcher
 title = "Textaleiðrétting fyrir íslensku"
+description = "Hér má leiðrétta íslenskan texta með hjálp tauganets. Netið reynir að „þýða“ yfir í texta sem er í samræmi við málstaðal, og er þjálfað á bæði gervigögnum og villumálheildum sem safnað var hjá Háskóla Íslands.  \n\nBest er að setja ekki inn meira en nokkrar setningar í einu, því annars getur biðin orðið löng. Þetta er prufuútgáfa sem hefur ekki lært að leiðrétta öll þau atriði sem upp geta komið í texta og er í stöðugri þróun.  \nÞetta verkefni er unnið hjá Miðeind sem hluti af máltækniáætlun stjórnvalda."
 translator = pipeline("translation", model="mideind/yfirlestur-icelandic-correction-byt5", max_length=512)
+def mark_text(text, tag):
+    """Helper for the diff method, returns a tuple with the text and the tag"""
+    return (text, tag)
+def mark_span(text, tag):
+    """Helper for the diff method, returns the span as a list of (text, tag) tuples"""
+    return [mark_text(token, tag) for token in text]
+def markup_diff(a, b,
+                mark=mark_span,
+                isjunk=None):
+    """Obtains the diff for the sentence along with the opcodes (tags). Returns the corrected sentence tokens along with their correction tag (in Icelandic)
+    """
+    seqmatcher = SequenceMatcher(isjunk=isjunk, a=a, b=b, autojunk=False)
+    out_sentence_tokens = []
+    # renaming tags
+    tags = {"equal": None, "delete": "eytt út", "replace": "skipt út", "insert": "bætt inn"}
+    for tag, a0, a1, b0, b1 in seqmatcher.get_opcodes():
+        token = b[b0:b1]
+        if tag == "delete":
+            out_sentence_tokens += mark(" ", tags[tag])
+        print(token)
+        out_sentence_tokens += mark(b[b0:b1], tags[tag])
+    return out_sentence_tokens
 def split_text(text):
     sentence_list = [i for i in tokenizer.split_into_sentences(text, original=True)]
     return sentence_list
 def predict(text):
+    texts = text.split("\n")
     translated = ""
+    original = ""
+    # TODO: check for way too long inputs
+    # TODO: if a sentence after splitting is over 512 bytes = split? error?
+    for text in texts:
+        for i in split_text(text):
+            original += i
+            translated += translator(i)[0]["translation_text"]
+        original += "\n"
+        translated += "\n"
+    print(original)
+    print(translated)
+    return markup_diff(original.split(" "), translated.split(" "))
+demo = gr.Interface(
+    fn=predict,
     inputs='text',
+    outputs= gr.HighlightedText(
+        show_label=False,
+        show_legend=True,
+        combine_adjacent=True,
+        adjacent_separator=" ",
+    ).style(
+        color_map={"skipt út": "blue", "bætt inn": "green", "eytt út": "purple"}),
     title=title,
     description=description,
+    examples=[["Kvitu fiðrildinn fljua firir utan gluggan."], ["Ég held þetta er ekki góður tími fara heimsókn."], ["Mer hlakar til jólana"], ["Kver a þenan bússtað ja eða nei"]],
 )
+demo.launch()