Fix jumanpp.apply_to_sentence return empty list for sentence larger than ~1700 characters

by nesv042 - opened Sep 14, 2023

←

Files changed (2) hide show

tokenization_deberta_v2_jumanpp.py CHANGED Viewed

@@ -24,7 +24,13 @@ class JumanppTokenizer:
                 "You need to install rhoknp to use JumanppPreTokenizer. "
                 "See https://github.com/ku-nlp/rhoknp for installation."
             )
         self.jumanpp = rhoknp.Jumanpp()
     def tokenize(self, text: str) -> str:
-        return " ".join([morpheme.surf for morpheme in self.jumanpp.apply_to_sentence(text).morphemes])

                 "You need to install rhoknp to use JumanppPreTokenizer. "
                 "See https://github.com/ku-nlp/rhoknp for installation."
             )
+        self.rhoknp = rhoknp
         self.jumanpp = rhoknp.Jumanpp()
     def tokenize(self, text: str) -> str:
+        morphemes = self.jumanpp.apply_to_sentence(text).morphemes
+        if not morphemes:
+            doc = self.rhoknp.Document.from_raw_text(text)
+            morphemes = self.jumanpp.apply_to_document(doc).morphemes
+        return " ".join([morpheme.surf for morpheme in morphemes])

tokenization_deberta_v2_jumanpp_fast.py CHANGED Viewed

@@ -55,6 +55,7 @@ class JumanppPreTokenizer:
                 "You need to install rhoknp to use JumanppPreTokenizer. "
                 "See https://github.com/ku-nlp/rhoknp for installation."
             )
         self.jumanpp = rhoknp.Jumanpp()
     def pre_tokenize(self, pretok: PreTokenizedString):
@@ -62,4 +63,7 @@ class JumanppPreTokenizer:
     def jumanpp_split(self, i: int, normalized_string: NormalizedString) -> List[NormalizedString]:
         offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_sentence(str(normalized_string)).morphemes]
         return [normalized_string[offset[0]:offset[1]] for offset in offsets]

                 "You need to install rhoknp to use JumanppPreTokenizer. "
                 "See https://github.com/ku-nlp/rhoknp for installation."
             )
+        self.rhoknp = rhoknp
         self.jumanpp = rhoknp.Jumanpp()
     def pre_tokenize(self, pretok: PreTokenizedString):
     def jumanpp_split(self, i: int, normalized_string: NormalizedString) -> List[NormalizedString]:
         offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_sentence(str(normalized_string)).morphemes]
+        if not offsets:
+            doc = self.rhoknp.Document.from_raw_text(str(normalized_string))
+            offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_document(doc).morphemes]
         return [normalized_string[offset[0]:offset[1]] for offset in offsets]