ku-nlp
/

deberta-v2-base-japanese-with-auto-jumanpp

@@ -62,4 +62,7 @@ class JumanppPreTokenizer:
     def jumanpp_split(self, i: int, normalized_string: NormalizedString) -> List[NormalizedString]:
         offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_sentence(str(normalized_string)).morphemes]
         return [normalized_string[offset[0]:offset[1]] for offset in offsets]

     def jumanpp_split(self, i: int, normalized_string: NormalizedString) -> List[NormalizedString]:
         offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_sentence(str(normalized_string)).morphemes]
+        if not offsets:
+            doc = rhoknp.Document.from_raw_text(str(normalized_string))
+            offsets = [morpheme.span for morpheme in self.jumanpp.apply_to_document(doc).morphemes]
         return [normalized_string[offset[0]:offset[1]] for offset in offsets]