Spaces:

passaglia
/

yomikata-demo

Build error

App Files Files Community

Sam Passaglia commited on Aug 15, 2023

Commit

9d2f9e8

•

1 Parent(s): 65d65b7

fixes

Browse files

Files changed (2) hide show

requirements.txt +2 -1
yomikata/dictionary.py +116 -3

requirements.txt CHANGED Viewed

@@ -16,4 +16,5 @@ datasets>=2.7.1
 pynvml==11.4.1
 sentencepiece>=0.1.97
 streamlit==1.17.0
-rich

 pynvml==11.4.1
 sentencepiece>=0.1.97
 streamlit==1.17.0
+rich
+altair<5

yomikata/dictionary.py CHANGED Viewed

@@ -3,11 +3,16 @@ dictionary.py
 Provides the Dictionary class which implements Reader using dictionary lookup.
 """
 from speach import ttlig
-from config.config import ASCII_SPACE_TOKEN
 from yomikata import utils
 from yomikata.reader import Reader
-import jaconv
 class Dictionary(Reader):
@@ -93,6 +98,114 @@ class Dictionary(Reader):
                     if (surface == kana) or pos in ["記号", "補助記号", "特殊"]:
                         output += surface
                     else:
-                        output += ttlig.RubyToken.from_furi(surface, kana).to_code()
         output = output.replace(ASCII_SPACE_TOKEN, " ")
         return output

 Provides the Dictionary class which implements Reader using dictionary lookup.
 """
+from difflib import ndiff
+import jaconv
+from chirptext import deko
 from speach import ttlig
+from speach.ttlig import RubyFrag, RubyToken
 from yomikata import utils
+from config.config import ASCII_SPACE_TOKEN
 from yomikata.reader import Reader
 class Dictionary(Reader):
                     if (surface == kana) or pos in ["記号", "補助記号", "特殊"]:
                         output += surface
                     else:
+                        output += Dictionary.furi_to_ruby(surface, kana).to_code()
         output = output.replace(ASCII_SPACE_TOKEN, " ")
         return output
+    @staticmethod
+    def furi_to_ruby(surface, kana):
+        """Combine a surface string and a kana string to a RubyToken object with furigana.
+        Args:
+            surface (str): Surface string
+            kana (str): Kana string
+        Returns:
+            RubyToken: RubyToken object with furigana
+        This code is modified from the version in the part of speach library:
+        https://github.com/neocl/speach/
+        https://github.com/neocl/speach/blob/main/speach/ttlig.py
+        :copyright: (c) 2018 Le Tuan Anh <tuananh.ke@gmail.com>
+        :license: MIT
+        """
+        def common_substring_from_right(string1, string2):
+            i = -1  # start from the end of strings
+            while -i <= min(len(string1), len(string2)):
+                if string1[i] != string2[i]:  # if characters don't match, break
+                    break
+                i -= 1  # decrement i to move towards start
+            return string1[i + 1 :] if i != -1 else ""  # return common substring
+        def assert_rubytoken_kana_match(ruby: RubyToken, kana: str) -> None:
+            assert (
+                "".join(
+                    [token.furi if isinstance(token, RubyFrag) else token for token in ruby.groups]
+                )
+                == kana
+            )
+        original_kana = kana
+        final_text = common_substring_from_right(surface, kana)
+        if final_text:
+            surface = surface[: -len(final_text)]
+            kana = kana[: -len(final_text)]
+        ruby = RubyToken(surface=surface)
+        if deko.is_kana(surface):
+            ruby.append(surface)
+            if final_text:
+                ruby.append(final_text)
+            assert_rubytoken_kana_match(ruby, original_kana)
+            return ruby
+        edit_seq = ndiff(surface, kana)
+        kanji = ""
+        text = ""
+        furi = ""
+        before = ""
+        expected = ""
+        for item in edit_seq:
+            if item.startswith("- "):
+                # flush text if needed
+                if expected and kanji and furi:
+                    ruby.append(RubyFrag(text=kanji, furi=furi))
+                    kanji = ""
+                    furi = ""
+                    print(ruby)
+                if text:
+                    ruby.append(text)
+                    text = ""
+                kanji += item[2:]
+            elif item.startswith("+ "):
+                if expected and item[2:] == expected:
+                    if expected and kanji and furi:
+                        ruby.append(RubyFrag(text=kanji, furi=furi))
+                        kanji = ""
+                        furi = ""
+                    ruby.append(item[2:])
+                    expected = ""
+                else:
+                    furi += item[2:]
+            elif item.startswith("  "):
+                if before == "-" and not furi:
+                    # shifting happened
+                    expected = item[2:]
+                    furi += item[2:]
+                else:
+                    text += item[2:]
+                    # flush if possible
+                    if kanji and furi:
+                        ruby.append(RubyFrag(text=kanji, furi=furi))
+                        kanji = ""
+                        furi = ""
+                    else:
+                        # possible error?
+                        pass
+            before = item[0]  # end for
+        if kanji:
+            if furi:
+                ruby.append(RubyFrag(text=kanji, furi=furi))
+            else:
+                ruby.append(kanji)
+        elif text:
+            ruby.append(text)
+        if final_text:
+            ruby.append(final_text)
+        assert_rubytoken_kana_match(ruby, original_kana)
+        return ruby