Update app.py
Browse files
app.py
CHANGED
@@ -1,6 +1,7 @@
|
|
1 |
import gradio as gr
|
2 |
import fitz # PyMuPDF
|
3 |
import os
|
|
|
4 |
import requests
|
5 |
from huggingface_hub import HfApi
|
6 |
import base64
|
@@ -96,9 +97,13 @@ def download_link(doc_name):
|
|
96 |
return f'<b><a href="{file_url}" target="_blank" style="color: #BB70FC; font-weight: bold;">{doc_name}</a></b>'
|
97 |
|
98 |
|
99 |
-
# Zeitelumbrüche entfernen
|
100 |
def remove_line_breaks(text):
|
101 |
-
|
|
|
|
|
|
|
|
|
102 |
|
103 |
########################################################
|
104 |
######## Hilfsfunktionen Datei-Upload ##################
|
|
|
1 |
import gradio as gr
|
2 |
import fitz # PyMuPDF
|
3 |
import os
|
4 |
+
import re
|
5 |
import requests
|
6 |
from huggingface_hub import HfApi
|
7 |
import base64
|
|
|
97 |
return f'<b><a href="{file_url}" target="_blank" style="color: #BB70FC; font-weight: bold;">{doc_name}</a></b>'
|
98 |
|
99 |
|
100 |
+
# Zeitelumbrüche entfernen - bei einzelnen, mehrere hinterienander zu einem zusammenfassen
|
101 |
def remove_line_breaks(text):
|
102 |
+
# Entfernt alle einzelnen Zeilenumbrüche
|
103 |
+
text = re.sub(r'(?<!\n)\n(?!\n)', ' ', text)
|
104 |
+
# Fasst mehrere Zeilenumbrüche zu einem einzigen zusammen
|
105 |
+
text = re.sub(r'\n{2,}', '\n', text)
|
106 |
+
return text
|
107 |
|
108 |
########################################################
|
109 |
######## Hilfsfunktionen Datei-Upload ##################
|