svanhvit commited on
Commit
622b4cb
1 Parent(s): ee970b2

sentence splitting fixed

Browse files
Files changed (2) hide show
  1. README.md +1 -1
  2. app.py +5 -8
README.md CHANGED
@@ -1,6 +1,6 @@
1
  ---
2
  title: Yfirlestur Icelandic Correction Byt5
3
- emoji: 🚀
4
  colorFrom: gray
5
  colorTo: red
6
  sdk: gradio
 
1
  ---
2
  title: Yfirlestur Icelandic Correction Byt5
3
+ emoji: 📝
4
  colorFrom: gray
5
  colorTo: red
6
  sdk: gradio
app.py CHANGED
@@ -6,7 +6,7 @@ import tokenizer
6
  from difflib import Differ, SequenceMatcher
7
 
8
  title = "Textaleiðrétting fyrir íslensku"
9
- description = "Hér má leiðrétta íslenskan texta með hjálp tauganets. Netið reynir að „þýða“ yfir í texta sem er í samræmi við málstaðal, og er þjálfað á bæði gervigögnum og villumálheildum sem safnað var hjá Háskóla Íslands. \n\nBest er að setja ekki inn meira en nokkrar setningar í einu, því annars getur biðin orðið löng. Þetta er prufuútgáfa sem hefur ekki lært að leiðrétta öll þau atriði sem upp geta komið í texta og er í stöðugri þróun. \nÞetta verkefni er unnið hjá Miðeind sem hluti af máltækniáætlun stjórnvalda."
10
 
11
  translator = pipeline("translation", model="mideind/yfirlestur-icelandic-correction-byt5", max_length=512)
12
 
@@ -29,10 +29,8 @@ def markup_diff(a, b,
29
  tags = {"equal": None, "delete": "eytt út", "replace": "skipt út", "insert": "bætt inn"}
30
 
31
  for tag, a0, a1, b0, b1 in seqmatcher.get_opcodes():
32
- token = b[b0:b1]
33
  if tag == "delete":
34
  out_sentence_tokens += mark(" ", tags[tag])
35
- print(token)
36
  out_sentence_tokens += mark(b[b0:b1], tags[tag])
37
  return out_sentence_tokens
38
 
@@ -47,13 +45,12 @@ def predict(text):
47
  # TODO: check for way too long inputs
48
  # TODO: if a sentence after splitting is over 512 bytes = split? error?
49
  for text in texts:
50
- for i in split_text(text):
51
- original += i
52
- translated += translator(i)[0]["translation_text"]
 
53
  original += "\n"
54
  translated += "\n"
55
- print(original)
56
- print(translated)
57
  return markup_diff(original.split(" "), translated.split(" "))
58
 
59
 
 
6
  from difflib import Differ, SequenceMatcher
7
 
8
  title = "Textaleiðrétting fyrir íslensku"
9
+ description = "Hér má leiðrétta íslenskan texta með hjálp tauganets. Netið reynir að „þýða“ yfir í texta sem er í samræmi við málstaðal, og er þjálfað á bæði tilbúnum gögnum og textum úr villumálheildum sem safnað var hjá Háskóla Íslands. \n\nBest er að setja ekki inn meira en nokkrar setningar í einu, því annars getur biðin orðið löng. Þetta er prufuútgáfa sem hefur ekki lært að leiðrétta öll þau atriði sem upp geta komið í texta og er í stöðugri þróun. \nÞetta verkefni er unnið hjá Miðeind sem hluti af máltækniáætlun stjórnvalda."
10
 
11
  translator = pipeline("translation", model="mideind/yfirlestur-icelandic-correction-byt5", max_length=512)
12
 
 
29
  tags = {"equal": None, "delete": "eytt út", "replace": "skipt út", "insert": "bætt inn"}
30
 
31
  for tag, a0, a1, b0, b1 in seqmatcher.get_opcodes():
 
32
  if tag == "delete":
33
  out_sentence_tokens += mark(" ", tags[tag])
 
34
  out_sentence_tokens += mark(b[b0:b1], tags[tag])
35
  return out_sentence_tokens
36
 
 
45
  # TODO: check for way too long inputs
46
  # TODO: if a sentence after splitting is over 512 bytes = split? error?
47
  for text in texts:
48
+ # one or more sentences in each paragraph
49
+ for sentence in split_text(text):
50
+ original += sentence.strip() + " "
51
+ translated += translator(sentence.strip())[0]["translation_text"] + " "
52
  original += "\n"
53
  translated += "\n"
 
 
54
  return markup_diff(original.split(" "), translated.split(" "))
55
 
56