Spaces:

BilalSardar
/

Urdu-Text-To-Sign

Running

BilalSardar commited on Jun 8, 2023

Commit

680965d

•

1 Parent(s): a6ce1bd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,21 +5,43 @@ import gradio as gr
 import re
 import nltk
 from nltk.stem import WordNetLemmatizer
 nltk.download('wordnet')
 def get_lemma(word):
-    nltk.download('wordnet')
     lemmatizer = WordNetLemmatizer()
-    lemma = lemmatizer.lemmatize(word)
-    return lemma
-def apply_lemma_to_list(word_list):
-    updated_list = []
-    for word in word_list:
-        updated_list.append(get_lemma(word))
-    return updated_list
 def parse_string(string, dataset):
     parsed_list = []
@@ -74,6 +96,7 @@ for cu_video in myList:
 print(VideosNames)
 def texttoSign(text):
       text=text+" "
       text=text.lower()
       text=re.sub('[^a-z]+', ' ', text)

 import re
 import nltk
 from nltk.stem import WordNetLemmatizer
+from nltk.tokenize import word_tokenize
+from nltk.corpus import wordnet
+nltk.download('punkt')
 nltk.download('wordnet')
+nltk.download('averaged_perceptron_tagger')
+def get_wordnet_pos(tag):
+    if tag.startswith('J'):
+        return wordnet.ADJ
+    elif tag.startswith('V'):
+        return wordnet.VERB
+    elif tag.startswith('N'):
+        return wordnet.NOUN
+    elif tag.startswith('R'):
+        return wordnet.ADV
+    else:
+        return wordnet.NOUN  # Default to noun if the POS tag is not found
 def get_lemma(word):
     lemmatizer = WordNetLemmatizer()
+    tokens = word_tokenize(word)
+    tagged_words = nltk.pos_tag(tokens)
+    lemmas = []
+    for tagged_word in tagged_words:
+        word = tagged_word[0]
+        pos = tagged_word[1]
+        wordnet_pos = get_wordnet_pos(pos)
+        lemma = lemmatizer.lemmatize(word, pos=wordnet_pos)
+        lemmas.append(lemma)
+    return ' '.join(lemmas)
+def apply_lemma_to_string(sentence):
+    words = word_tokenize(sentence)
+    lemmas = [get_lemma(word) for word in words]
+    return ' '.join(lemmas)
 def parse_string(string, dataset):
     parsed_list = []
 print(VideosNames)
 def texttoSign(text):
+      text=apply_lemma_to_string(text)
       text=text+" "
       text=text.lower()
       text=re.sub('[^a-z]+', ' ', text)