Spaces:

mideind
/

textaleidretting

Runtime error

App Files Files Community

svanhvit commited on Sep 23, 2022

Commit

622b4cb

1 Parent(s): ee970b2

sentence splitting fixed

Browse files

Files changed (2) hide show

README.md +1 -1
app.py +5 -8

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 title: Yfirlestur Icelandic Correction Byt5
-emoji: 🚀
 colorFrom: gray
 colorTo: red
 sdk: gradio

 ---
 title: Yfirlestur Icelandic Correction Byt5
+emoji: 📝
 colorFrom: gray
 colorTo: red
 sdk: gradio

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ import tokenizer
 from difflib import Differ, SequenceMatcher
 title = "Textaleiðrétting fyrir íslensku"
-description = "Hér má leiðrétta íslenskan texta með hjálp tauganets. Netið reynir að „þýða“ yfir í texta sem er í samræmi við málstaðal, og er þjálfað á bæði gervigögnum og villumálheildum sem safnað var hjá Háskóla Íslands.  \n\nBest er að setja ekki inn meira en nokkrar setningar í einu, því annars getur biðin orðið löng. Þetta er prufuútgáfa sem hefur ekki lært að leiðrétta öll þau atriði sem upp geta komið í texta og er í stöðugri þróun.  \nÞetta verkefni er unnið hjá Miðeind sem hluti af máltækniáætlun stjórnvalda."
 translator = pipeline("translation", model="mideind/yfirlestur-icelandic-correction-byt5", max_length=512)
@@ -29,10 +29,8 @@ def markup_diff(a, b,
     tags = {"equal": None, "delete": "eytt út", "replace": "skipt út", "insert": "bætt inn"}
     for tag, a0, a1, b0, b1 in seqmatcher.get_opcodes():
-        token = b[b0:b1]
         if tag == "delete":
             out_sentence_tokens += mark(" ", tags[tag])
-        print(token)
         out_sentence_tokens += mark(b[b0:b1], tags[tag])
     return out_sentence_tokens
@@ -47,13 +45,12 @@ def predict(text):
     # TODO: check for way too long inputs
     # TODO: if a sentence after splitting is over 512 bytes = split? error?
     for text in texts:
-        for i in split_text(text):
-            original += i
-            translated += translator(i)[0]["translation_text"]
         original += "\n"
         translated += "\n"
-    print(original)
-    print(translated)
     return markup_diff(original.split(" "), translated.split(" "))

 from difflib import Differ, SequenceMatcher
 title = "Textaleiðrétting fyrir íslensku"
+description = "Hér má leiðrétta íslenskan texta með hjálp tauganets. Netið reynir að „þýða“ yfir í texta sem er í samræmi við málstaðal, og er þjálfað á bæði tilbúnum gögnum og textum úr villumálheildum sem safnað var hjá Háskóla Íslands.  \n\nBest er að setja ekki inn meira en nokkrar setningar í einu, því annars getur biðin orðið löng. Þetta er prufuútgáfa sem hefur ekki lært að leiðrétta öll þau atriði sem upp geta komið í texta og er í stöðugri þróun.  \nÞetta verkefni er unnið hjá Miðeind sem hluti af máltækniáætlun stjórnvalda."
 translator = pipeline("translation", model="mideind/yfirlestur-icelandic-correction-byt5", max_length=512)
     tags = {"equal": None, "delete": "eytt út", "replace": "skipt út", "insert": "bætt inn"}
     for tag, a0, a1, b0, b1 in seqmatcher.get_opcodes():
         if tag == "delete":
             out_sentence_tokens += mark(" ", tags[tag])
         out_sentence_tokens += mark(b[b0:b1], tags[tag])
     return out_sentence_tokens
     # TODO: check for way too long inputs
     # TODO: if a sentence after splitting is over 512 bytes = split? error?
     for text in texts:
+        # one or more sentences in each paragraph
+        for sentence in split_text(text):
+            original += sentence.strip() + " "
+            translated += translator(sentence.strip())[0]["translation_text"] + " "
         original += "\n"
         translated += "\n"
     return markup_diff(original.split(" "), translated.split(" "))