Spaces:

robinhad
/

ukrainian-tts

Running

App Files Files Community

Yurii Paniv commited on Aug 16, 2023

Commit

cf5d96f

•

1 Parent(s): 7b54849

Format code

Browse files

Files changed (2) hide show

tests/test_formatter.py +25 -21
ukrainian_tts/formatter.py +15 -12

tests/test_formatter.py CHANGED Viewed

@@ -1,26 +1,30 @@
 from ukrainian_tts.formatter import preprocess_text
 import pytest
-@pytest.mark.parametrize('text,expected', [
-    ("Quality of life update", "кваліті оф ліфе юпдате"),
-    ("Він украв 20000000 $", "він украв двадцять мільйонів доларів"),
-    ("Він украв 20000000", "він украв двадцять мільйонів"),
-    ("Він украв 1 $", "він украв один долар"),
-    ("Він украв 2 $", "він украв два долари"),
-    ("Він украв 2 ₴", "він украв дві гривні"),
-    (
-        "111 000 000 000 доларів державного боргу.",
-        "сто одинадцять мільярдів доларів державного боргу.",
-    ),
-    (
-        "11100000001 доларів державного боргу.",
-        "одинадцять мільярдів сто мільйонів один доларів державного боргу.",
-    ),
-    # this is wrong case, should be "це дев'ятнадцяти-річне вино."
-    # Implementing this, require to have proper parsing of words into the token stream
-    # which reqiure reworking of current approach.
-    ("це 19-річне вино.", "це дев'ятнадцять-річне вино."),
-    ("10-30-40-50-5-9-5", "десять-тридцять-сорок-п'ятдесят-п'ять-дев'ять-п'ять"),
-])
 def test_formatter(text, expected):
     assert preprocess_text(text) == expected

 from ukrainian_tts.formatter import preprocess_text
 import pytest
+@pytest.mark.parametrize(
+    "text,expected",
+    [
+        ("Quality of life update", "кваліті оф ліфе юпдате"),
+        ("Він украв 20000000 $", "він украв двадцять мільйонів доларів"),
+        ("Він украв 20000000", "він украв двадцять мільйонів"),
+        ("Він украв 1 $", "він украв один долар"),
+        ("Він украв 2 $", "він украв два долари"),
+        ("Він украв 2 ₴", "він украв дві гривні"),
+        (
+            "111 000 000 000 доларів державного боргу.",
+            "сто одинадцять мільярдів доларів державного боргу.",
+        ),
+        (
+            "11100000001 доларів державного боргу.",
+            "одинадцять мільярдів сто мільйонів один доларів державного боргу.",
+        ),
+        # this is wrong case, should be "це дев'ятнадцяти-річне вино."
+        # Implementing this, require to have proper parsing of words into the token stream
+        # which reqiure reworking of current approach.
+        ("це 19-річне вино.", "це дев'ятнадцять-річне вино."),
+        ("10-30-40-50-5-9-5", "десять-тридцять-сорок-п'ятдесят-п'ять-дев'ять-п'ять"),
+    ],
+)
 def test_formatter(text, expected):
     assert preprocess_text(text) == expected

ukrainian_tts/formatter.py CHANGED Viewed

@@ -1,6 +1,7 @@
 from num2words import num2words
 import re
 def number_form(number):
     if number[-1] == "1":
         return 0
@@ -9,27 +10,29 @@ def number_form(number):
     else:
         return 2
 CURRENCY = {
-    'USD': ('долар', 'долари', 'доларів'),
-    'UAH': ('гривня', 'гривні', 'гривень'),
-    'EUR': ('євро', 'євро', 'євро'),
 }
 def preprocess_text(text):
     text = text.lower()
     # currencies
     if "$" in text:
         currency = "USD"
-        gender = 'masculine'
     elif "₴" in text:
         currency = "UAH"
-        gender = 'feminine'
     elif "€" in text:
         currency = "EUR"
-        gender = 'masculine'
     else:
         currency = ""
-        gender = 'masculine'
     num_form = 0
     # replace apostrophe
@@ -73,13 +76,13 @@ def preprocess_text(text):
     # print([detect_num_and_convert(word) for word in text.split(" ")])
     text = " ".join([detect_num_and_convert(word) for word in text.split(" ")])
-    if (currency == 'USD'):
         text = text.replace("$", CURRENCY[currency][num_form])
-    if (currency == 'UAH'):
         text = text.replace("₴", CURRENCY[currency][num_form])
-    if (currency == 'EUR'):
         text = text.replace("€", CURRENCY[currency][num_form])
     # fallback numbers

 from num2words import num2words
 import re
 def number_form(number):
     if number[-1] == "1":
         return 0
     else:
         return 2
 CURRENCY = {
+    "USD": ("долар", "долари", "доларів"),
+    "UAH": ("гривня", "гривні", "гривень"),
+    "EUR": ("євро", "євро", "євро"),
 }
 def preprocess_text(text):
     text = text.lower()
     # currencies
     if "$" in text:
         currency = "USD"
+        gender = "masculine"
     elif "₴" in text:
         currency = "UAH"
+        gender = "feminine"
     elif "€" in text:
         currency = "EUR"
+        gender = "masculine"
     else:
         currency = ""
+        gender = "masculine"
     num_form = 0
     # replace apostrophe
     # print([detect_num_and_convert(word) for word in text.split(" ")])
     text = " ".join([detect_num_and_convert(word) for word in text.split(" ")])
+    if currency == "USD":
         text = text.replace("$", CURRENCY[currency][num_form])
+    if currency == "UAH":
         text = text.replace("₴", CURRENCY[currency][num_form])
+    if currency == "EUR":
         text = text.replace("€", CURRENCY[currency][num_form])
     # fallback numbers