Spaces:

nfa124
/

text-to-sign

Sleeping

BilalSardar commited on Jun 11, 2023

Commit

7567b06

•

1 Parent(s): 788794e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import nltk
 from nltk.stem import WordNetLemmatizer
 from nltk.tokenize import word_tokenize
 from nltk.corpus import wordnet
 nltk.download('punkt')
 nltk.download('wordnet')
@@ -22,22 +23,34 @@ def get_wordnet_pos(tag):
     elif tag.startswith('R'):
         return wordnet.ADV
     else:
-        return wordnet.NOUN  # Default to noun if the POS tag is not found
 def get_lemma(word):
     lemmatizer = WordNetLemmatizer()
     tokens = word_tokenize(word)
-    tagged_words = nltk.pos_tag(tokens)
     lemmas = []
     for tagged_word in tagged_words:
         word = tagged_word[0]
         pos = tagged_word[1]
         wordnet_pos = get_wordnet_pos(pos)
-        lemma = lemmatizer.lemmatize(word, pos=wordnet_pos)
         lemmas.append(lemma)
     return ' '.join(lemmas)
 def apply_lemma_to_string(sentence):
     words = word_tokenize(sentence)
     lemmas = [get_lemma(word) for word in words]

 from nltk.stem import WordNetLemmatizer
 from nltk.tokenize import word_tokenize
 from nltk.corpus import wordnet
+from nltk.tag import pos_tag
 nltk.download('punkt')
 nltk.download('wordnet')
     elif tag.startswith('R'):
         return wordnet.ADV
     else:
+        return wordnet.NOUN
 def get_lemma(word):
+    nltk.download('averaged_perceptron_tagger')
+    nltk.download('wordnet')
     lemmatizer = WordNetLemmatizer()
+    exceptions = {
+        'are': 'are',  # Preserve 'are' as-is
+        'have': 'have',  # Preserve 'have' as-is
+        'do': 'do',  # Preserve 'do' as-is
+        'am':'am'
+    }
     tokens = word_tokenize(word)
+    tagged_words = pos_tag(tokens)
     lemmas = []
     for tagged_word in tagged_words:
         word = tagged_word[0]
         pos = tagged_word[1]
         wordnet_pos = get_wordnet_pos(pos)
+        if word in exceptions:
+            lemma = exceptions[word]
+        else:
+            lemma = lemmatizer.lemmatize(word, pos=wordnet_pos)
         lemmas.append(lemma)
     return ' '.join(lemmas)
 def apply_lemma_to_string(sentence):
     words = word_tokenize(sentence)
     lemmas = [get_lemma(word) for word in words]