LIRAGTest

Paused

App Files Files Community

alexkueck commited on Jan 6

Commit

f1715d8

•

1 Parent(s): bfb4d89

Update utils.py

Browse files

Files changed (1) hide show

utils.py +38 -0

utils.py CHANGED Viewed

@@ -48,6 +48,12 @@ from PIL import Image, ImageDraw, ImageOps, ImageFont
 import base64
 from tempfile import NamedTemporaryFile
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
@@ -126,6 +132,38 @@ def is_response_similar(response, threshold=0.7):
         return False
     return False
 ##################################################
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################

 import base64
 from tempfile import NamedTemporaryFile
+import nltk
+from nltk.corpus import stopwords
+from nltk.tokenize import word_tokenize
+from nltk.stem import WordNetLemmatizer
+nltk.download('punkt')
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
         return False
     return False
+##################################################
+#Normalisierung eines Prompts
+##################################################
+def normalise_prompt (prompt):
+    #alles Kleinbuchstaben
+    prompt_klein =prompt.lower()
+    #Word Tokenisation
+    tokens = word_tokenize(prompt_klein)
+    #Punktuierung entfernen
+    tokens = [word for word in tokens if word.isalnum()]
+    # Stop Word Entfernung
+    #nltk.download('stopwords')
+    #stop_words = set(stopwords.words('english'))
+    #tokens = [word for word in tokens if not word in stop_words]
+    # 5. Lemmatisierung: Worte in Grundform bringen, um Text besser vergleichen zu können
+    #nltk.download('wordnet')
+    #lemmatizer = WordNetLemmatizer()
+    #tokens = [lemmatizer.lemmatize(word) for word in tokens]
+    # 6. Handling Special Characters (Remove non-alphanumeric characters)
+    tokens = [re.sub(r'\W+', '', word) for word in tokens]
+    # 7. Spell Check (optional, using a library like pyspellchecker)
+    # from spellchecker import SpellChecker
+    # spell = SpellChecker()
+    # tokens = [spell.correction(word) for word in tokens]
+    # Join tokens back to sentence
+    normalized_prompt = ' '.join(tokens)
+    print("normaiserd prompt..................................")
+    print(normalized_prompt)
+    return normalized_prompt
 ##################################################
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################