Spaces:
Running
Running
Ilyas KHIAT
commited on
Commit
·
18b9dfc
1
Parent(s):
4e5c47b
texte graph debug
Browse files- audit_page/audit.py +2 -1
- audit_page/dialogue_doc.py +2 -2
- utils/audit/audit_doc.py +13 -0
audit_page/audit.py
CHANGED
@@ -174,7 +174,8 @@ def handle_audit(uploaded_file,type:str):
|
|
174 |
audit_simplified = {
|
175 |
"type de fichier": type,
|
176 |
"Nombre de tokens": audit["number_of_tokens"],
|
177 |
-
"Nombre de mots": audit["number_of_words"]
|
|
|
178 |
}
|
179 |
st.session_state.audit_simplified = audit_simplified
|
180 |
|
|
|
174 |
audit_simplified = {
|
175 |
"type de fichier": type,
|
176 |
"Nombre de tokens": audit["number_of_tokens"],
|
177 |
+
"Nombre de mots": audit["number_of_words"],
|
178 |
+
"Mots clés": audit["key_words"]
|
179 |
}
|
180 |
st.session_state.audit_simplified = audit_simplified
|
181 |
|
audit_page/dialogue_doc.py
CHANGED
@@ -106,9 +106,9 @@ def doc_dialog_main():
|
|
106 |
text = get_text_from_content_for_doc(content)
|
107 |
elif audit["type de fichier"] == "audio":
|
108 |
text = get_text_from_content_for_audio(content)
|
109 |
-
elif audit["type de fichier"] == "
|
110 |
text = content
|
111 |
-
|
112 |
prompt_cr = dedent(f'''
|
113 |
|
114 |
À partir du document ci-dessous, générez un compte rendu détaillé contenant les sections suivantes :
|
|
|
106 |
text = get_text_from_content_for_doc(content)
|
107 |
elif audit["type de fichier"] == "audio":
|
108 |
text = get_text_from_content_for_audio(content)
|
109 |
+
elif audit["type de fichier"] == "text":
|
110 |
text = content
|
111 |
+
|
112 |
prompt_cr = dedent(f'''
|
113 |
|
114 |
À partir du document ci-dessous, générez un compte rendu détaillé contenant les sections suivantes :
|
utils/audit/audit_doc.py
CHANGED
@@ -189,11 +189,24 @@ def audit_descriptif_pdf(file,max_img_width) -> dict:
|
|
189 |
return global_audit
|
190 |
|
191 |
def audit_text(text: str) -> dict:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
192 |
audit_dict = {
|
193 |
"number_of_tokens": count_tokens(text),
|
194 |
"number_of_words": len(text.split()),
|
195 |
}
|
196 |
|
|
|
|
|
197 |
global_audit = {
|
198 |
"audit": audit_dict,
|
199 |
"content": text
|
|
|
189 |
return global_audit
|
190 |
|
191 |
def audit_text(text: str) -> dict:
|
192 |
+
|
193 |
+
prompt = f'''Voici le document:
|
194 |
+
- {text}
|
195 |
+
Veuillez extraire les cinq mots clés les plus pertinents de cette liste. Chaque mot clé doit contenir au maximum deux mots.
|
196 |
+
|
197 |
+
TA REPONSE DOIT RESPECTER LE FORMAT SUIVANT :
|
198 |
+
key_word1, key_word2, key_word3, key_word4, key_word5
|
199 |
+
'''
|
200 |
+
key_words_extracted = extract_relevant_keywords(prompt)
|
201 |
+
|
202 |
+
|
203 |
audit_dict = {
|
204 |
"number_of_tokens": count_tokens(text),
|
205 |
"number_of_words": len(text.split()),
|
206 |
}
|
207 |
|
208 |
+
audit_dict["key_words"] = "\n" + key_words_extracted
|
209 |
+
|
210 |
global_audit = {
|
211 |
"audit": audit_dict,
|
212 |
"content": text
|