Spaces:

DocSA
/

LP_2-AI_Assistant

Running

App Files Files Community

DocUA commited on Mar 2

Commit

3418cd7

1 Parent(s): 59a8fbf

feat: enhance text cleaning utility to remove HTML tags and entities, update documentation, and requirements.

Browse files

Files changed (8) hide show

.gitignore +3 -0
BATCH_TESTING_README.md +1 -1
HELP.md +1 -1
README.md +1 -1
interface.py +38 -20
prompts.py +22 -16
requirements.txt +1 -0
utils.py +17 -0

.gitignore CHANGED Viewed

@@ -52,3 +52,6 @@ logs/
 # Ігноруємо isolated проєкти (якщо вони є в репозиторії)
 isolated-lp-generation/

 # Ігноруємо isolated проєкти (якщо вони є в репозиторії)
 isolated-lp-generation/
+# Ігноруємо тестові файли
+data_test/

BATCH_TESTING_README.md CHANGED Viewed

@@ -43,7 +43,7 @@ id_lp,text
 4. **Завантажте CSV файл:**
    - Натисніть "📁 Завантажте CSV файл з тестовими даними"
    - Виберіть ваш CSV файл
-   - Натисніть "📂 Завантажити CSV файл"
    - Перевірте попередній перегляд завантажених даних
 5. **Запустіть пакетне тестування:**

 4. **Завантажте CSV файл:**
    - Натисніть "📁 Завантажте CSV файл з тестовими даними"
    - Виберіть ваш CSV файл
+   - Натисніть "📂 Завантажити CSV/XLSX файл"
    - Перевірте попередній перегляд завантажених даних
 5. **Запустіть пакетне тестування:**

HELP.md CHANGED Viewed

@@ -268,7 +268,7 @@ id_lp,text
 1. Натисніть **"📁 Завантажте CSV файл з тестовими даними"**
 2. Виберіть ваш CSV файл
-3. Натисніть **"📂 Завантажити CSV файл"**
 4. Перевірте попередній перегляд:
    - Кількість рядків
    - Список колонок

 1. Натисніть **"📁 Завантажте CSV файл з тестовими даними"**
 2. Виберіть ваш CSV файл
+3. Натисніть **"📂 Завантажити CSV/XLSX файл"**
 4. Перевірте попередній перегляд:
    - Кількість рядків
    - Список колонок

README.md CHANGED Viewed

@@ -192,7 +192,7 @@ python main.py
    - Оберіть провайдер AI та модель
    - Налаштуйте паузу між запитами (рекомендовано 1-2 сек)
    - Завантажте CSV файл з колонкою `text`
-   - Натисніть "📂 Завантажити CSV файл" для перегляду
    - Запустіть тестування кнопкою "▶️ Запустити пакетне тестування"
    - Завантажте результати після завершення

    - Оберіть провайдер AI та модель
    - Налаштуйте паузу між запитами (рекомендовано 1-2 сек)
    - Завантажте CSV файл з колонкою `text`
+   - Натисніть "📂 Завантажити CSV/XLSX файл" для перегляду
    - Запустіть тестування кнопкою "▶️ Запустити пакетне тестування"
    - Завантажте результати після завершення

interface.py CHANGED Viewed

@@ -333,28 +333,47 @@ async def process_raw_text_search(text, url, file, method, state_lp_json):
 # Batch testing functions
-async def load_csv_file(file) -> Tuple[str, Optional[pd.DataFrame]]:
-    """Load CSV file and validate it has a 'text' column."""
     try:
         if file is None:
             return "Помилка: Файл не вибрано", None
-        # Try to read CSV with different encodings
-        try:
-            df = pd.read_csv(file.name, encoding='utf-8')
-        except UnicodeDecodeError:
             try:
-                df = pd.read_csv(file.name, encoding='cp1251')
             except Exception as e:
-                return f"Помилка читання CSV: {str(e)}", None
         # Validate 'text' column exists
         if 'text' not in df.columns:
-            return f"Помилка: CSV файл повинен містити колонку 'text'. Знайдені колонки: {', '.join(df.columns)}", None
         # Show preview
         rows_count = len(df)
-        preview_msg = f"✅ Файл завантажено успішно!\n\n**Кількість рядків:** {rows_count}\n\n**Колонки:** {', '.join(df.columns)}\n\n**Перші 3 рядки (текст):**\n"
         for idx, row in df.head(3).iterrows():
             text_preview = str(row['text'])[:100] + "..." if len(str(row['text'])) > 100 else str(row['text'])
             preview_msg += f"\n{idx + 1}. {text_preview}\n"
@@ -849,18 +868,17 @@ def create_gradio_interface() -> gr.Blocks:
             # Вкладка Пакетне тестування (Batch Testing)
             with gr.Tab("📊 Пакетне тестування", id=4):
-                gr.Markdown("### Пакетна генерація правових позицій з CSV файлу", elem_classes=["tab-header"])
                 gr.Markdown("""
                 **Інструкція:**
                 1. Виберіть провайдера AI та модель для генерації
-                2. Завантажте CSV файл, що містить колонку `text` з текстами судових рішень
                 3. Запустіть пакетне тестування
-                4. Завантажте результати у форматі CSV
-                **Формат CSV файлу:**
-                - Обов'язково повинна бути колонка `text` з текстами судових рішень
-                - Результати будуть збережені в новій колонці з назвою моделі
                 """)
                 with gr.Row():
@@ -887,8 +905,8 @@ def create_gradio_interface() -> gr.Blocks:
                 )
                 csv_file_input = gr.File(
-                    label="📁 Завантажте CSV файл з тестовими даними",
-                    file_types=[".csv"],
                     type="filepath"
                 )
@@ -901,7 +919,7 @@ def create_gradio_interface() -> gr.Blocks:
                 batch_df_state = gr.State()
                 load_csv_button = gr.Button(
-                    "📂 Завантажити CSV файл",
                     variant="secondary",
                     scale=1
                 )
@@ -1097,7 +1115,7 @@ def create_gradio_interface() -> gr.Blocks:
         # Batch testing tab event handlers
         load_csv_button.click(
-            fn=load_csv_file,
             inputs=[csv_file_input],
             outputs=[csv_preview_output, batch_df_state]
         ).then(

 # Batch testing functions
+async def load_data_file(file) -> Tuple[str, Optional[pd.DataFrame]]:
+    """Load CSV or Excel file and validate it has a 'text' column."""
     try:
         if file is None:
             return "Помилка: Файл не вибрано", None
+        file_path = Path(file.name)
+        file_ext = file_path.suffix.lower()
+        if file_ext in ['.xlsx', '.xls']:
             try:
+                # Read Excel
+                df = pd.read_excel(file.name)
             except Exception as e:
+                return f"Помилка читання Excel: {str(e)}", None
+        else:
+            # Try to read CSV with different encodings and automatic separator detection
+            encodings = ['utf-8-sig', 'utf-8', 'cp1251', 'latin1']
+            df = None
+            last_error = ""
+            for enc in encodings:
+                try:
+                    # Use sep=None, engine='python' for automatic separator detection
+                    # Use on_bad_lines='warn' to skip problematic lines if they occur
+                    df = pd.read_csv(file.name, sep=None, engine='python', encoding=enc, on_bad_lines='warn')
+                    break
+                except Exception as e:
+                    last_error = str(e)
+                    continue
+            if df is None:
+                return f"Помилка читання CSV: {last_error}", None
         # Validate 'text' column exists
         if 'text' not in df.columns:
+            return f"Помилка: Файл повинен містити колонку 'text'. Знайдені колонки: {', '.join(df.columns)}", None
         # Show preview
         rows_count = len(df)
+        preview_msg = f"✅ Файл {file_path.name} завантажено успішно!\n\n**Кількість рядків:** {rows_count}\n\n**Колонки:** {', '.join(df.columns)}\n\n**Перші 3 рядки (текст):**\n"
         for idx, row in df.head(3).iterrows():
             text_preview = str(row['text'])[:100] + "..." if len(str(row['text'])) > 100 else str(row['text'])
             preview_msg += f"\n{idx + 1}. {text_preview}\n"
             # Вкладка Пакетне тестування (Batch Testing)
             with gr.Tab("📊 Пакетне тестування", id=4):
+                gr.Markdown("### Пакетна генерація правових позицій з CSV/Excel файлу", elem_classes=["tab-header"])
                 gr.Markdown("""
                 **Інструкція:**
                 1. Виберіть провайдера AI та модель для генерації
+                2. Завантажте CSV або Excel (.xlsx, .xls) файл, що містить колонку `text` з текстами судових рішень
                 3. Запустіть пакетне тестування
+                4. Завантажте результати у форматі CSV (результати завжди зберігаються як CSV для сумісності)
+                **Вимоги до файлу:**
+                - Обов'язково повинна бути колонка `text` з текстами рішень
                 """)
                 with gr.Row():
                 )
                 csv_file_input = gr.File(
+                    label="📁 Завантажте CSV або Excel файл з тестовими даними",
+                    file_types=[".csv", ".xlsx", ".xls"],
                     type="filepath"
                 )
                 batch_df_state = gr.State()
                 load_csv_button = gr.Button(
+                    "📂 Завантажити CSV/XLSX файл",
                     variant="secondary",
                     scale=1
                 )
         # Batch testing tab event handlers
         load_csv_button.click(
+            fn=load_data_file,
             inputs=[csv_file_input],
             outputs=[csv_preview_output, batch_df_state]
         ).then(

prompts.py CHANGED Viewed

@@ -6,9 +6,9 @@ SYSTEM_PROMPT = """<role>
 на формулюванні правових позицій на основі судових рішень для бази правових
 позицій Верховного Суду (lpd.court.gov.ua).
-Правова позиція — це НЕ переказ рішення. Це абстрактне правове правило у 2-4
-реченнях, яке може бути застосоване до аналогічних справ. Кожне речення
-формулює окрему правову тезу прямим декларативним стилем.
 </role>"""
 # Main prompt template
@@ -32,14 +32,17 @@ LEGAL_POSITION_PROMPT = """
 - Резолютивну частину (використовуй лише для визначення типу судочинства)
 Подумки визнач: (1) яке правове питання вирішував Верховний Суд,
-(2) який абстрактний правовий принцип він сформулював,
 (3) як це правило може бути застосоване до аналогічних справ.
 </strategy>
 <rules_do>
 <rule id="source_focus">
 Основа правової позиції — висновки Верховного Суду з мотивувальної частини рішення.
-Формулюй правило на базі того, що ВС вважає правильним застосуванням норм права.
 </rule>
 <rule id="declarative_style">
@@ -51,17 +54,18 @@ LEGAL_POSITION_PROMPT = """
 </rule>
 <rule id="abstraction">
-Формулюй правову позицію як ПРАВИЛО для аналогічних справ.
 Не згадуй конкретних осіб, назви підприємств, дати чи номери справ.
 Використовуй узагальнені терміни: "особа", "юридична особа", "директор",
-"позивач", "відповідач", "суб'єкт владних повноважень", "суд".
 </rule>
 <rule id="conciseness">
-Текст правової позиції (поле "text") — це 2-4 речення.
-Кожне речення формулює ОКРЕМУ правову тезу.
-Не об'єднуй кілька ідей в одне речення.
 Кожне слово повинно нести юридичний зміст.
 </rule>
 <rule id="language">
@@ -70,7 +74,7 @@ LEGAL_POSITION_PROMPT = """
 </rule>
 <rule id="proceeding_type">
-Тип судочинства — строго один із чотирьох варіантів:
 - "Адміністративне судочинство"
 - "Кримінальне судочинство"
 - "Цивільне судочинство"
@@ -78,8 +82,8 @@ LEGAL_POSITION_PROMPT = """
 </rule>
 <rule id="category">
-Категорія повинна бути конкретною і по можливості містити посилання на відповідні
-статті кодексів. Категорія описує правову тематику, а не просто тип судочинства.
 </rule>
 </rules_do>
@@ -91,7 +95,7 @@ LEGAL_POSITION_PROMPT = """
 <rule id="no_factual_retelling">
 НЕ переказуй фактичні обставини конкретної справи. Правова позиція — це
-абстрактне правило, а не опис того, що сталося.
 </rule>
 <rule id="no_verbose_patterns">
@@ -101,8 +105,10 @@ LEGAL_POSITION_PROMPT = """
 </rule>
 <rule id="no_law_text_copying">
-НЕ дублюй текст статей закону дослівно. Посилайся на статті, але формулюй
-правило своїми словами як висновок ВС.
 </rule>
 </rules_dont>

 на формулюванні правових позицій на основі судових рішень для бази правових
 позицій Верховного Суду (lpd.court.gov.ua).
+Правова позиція — це НЕ переказ рішення. Це абстрактне правове правило у 1-2
+реченнях, яке може бути застосоване до аналогічних справ. Правова позиція
+формулює  правову тезу прямим декларативним стилем.
 </role>"""
 # Main prompt template
 - Резолютивну частину (використовуй лише для визначення типу судочинства)
 Подумки визнач: (1) яке правове питання вирішував Верховний Суд,
+(2) який правовий принцип він сформулював,
 (3) як це правило може бути застосоване до аналогічних справ.
 </strategy>
 <rules_do>
 <rule id="source_focus">
 Основа правової позиції — висновки Верховного Суду з мотивувальної частини рішення.
+Формулюй правило на базі того, що Верховний Суд вважає правильним застосуванням норм права.
+Виходь з того, що одна правова позиція - одне правило. Текст має бути очищено від зайвої процесуальної
+логіки. Правова позиція не повинна містити більше однієї юридичної ідеї.
+Якщо текст містить декілька правових висновків — залиш лише основний.
 </rule>
 <rule id="declarative_style">
 </rule>
 <rule id="abstraction">
+Формулюй правову позицію як готову норму для застосування в інших аналогічних справах.
 Не згадуй конкретних осіб, назви підприємств, дати чи номери справ.
 Використовуй узагальнені терміни: "особа", "юридична особа", "директор",
+"позивач", "відповідач", "суб'єкт владних повноважень", "суд", "апеляційний суд", "касаційний суд".
 </rule>
 <rule id="conciseness">
+Текст правової позиції (поле "text") — це 1-2 речення.
+Не об'єднуй кілька юридичних ідей в одну правову позицію.
 Кожне слово повинно нести юридичний зміст.
+Правова позиція не повинна бути занадто пояснювальною (не має бути зайвих
+деталей, лише юридичне правило).
 </rule>
 <rule id="language">
 </rule>
 <rule id="proceeding_type">
+Тип судочинства — виключно один із чотирьох варіантів:
 - "Адміністративне судочинство"
 - "Кримінальне судочинство"
 - "Цивільне судочинство"
 </rule>
 <rule id="category">
+Категорія повинна бути конкретною і по можливості містити посилання на відповідну
+статтю кодексу. Категорія описує правову тематику, а не просто тип судочинства.
 </rule>
 </rules_do>
 <rule id="no_factual_retelling">
 НЕ переказуй фактичні обставини конкретної справи. Правова позиція — це
+правило, а не опис того, що сталося.
 </rule>
 <rule id="no_verbose_patterns">
 </rule>
 <rule id="no_law_text_copying">
+НЕ дублюй текст статей закону дослівно. Посилайся на статтю кодексу, але формулюй
+правило своїми словами як висновок Верховного Суду.  Не посилайся на одну й ту саму
+статтю декілька разів в одній правовій позиції. При посиланні на інші нормативні документи
+не вказуй їх номер та дату, але вказуй огран, який його видав.
 </rule>
 </rules_dont>

requirements.txt CHANGED Viewed

@@ -17,3 +17,4 @@ pyyaml
 pydantic>=2.0.0
 pydantic-settings
 huggingface-hub>=0.23.0

 pydantic>=2.0.0
 pydantic-settings
 huggingface-hub>=0.23.0
+openpyxl

utils.py CHANGED Viewed

@@ -20,9 +20,26 @@ def clean_text(text: str) -> str:
     }
     try:
         text = unicodedata.normalize('NFKD', text)
         for old, new in replacements.items():
             text = text.replace(old, new)
         text = ' '.join(text.split())
         text = ''.join(char for char in text
                       if not unicodedata.category(char).startswith('C'))

     }
     try:
+        # Normalize to NFKD and handle character replacements
         text = unicodedata.normalize('NFKD', text)
+        # Handle character replacements
         for old, new in replacements.items():
             text = text.replace(old, new)
+        # Remove HTML tags and entities
+        # Specifically targeting </p> <p> and other remnants
+        text = re.sub(r'</p>\s*<p>', ' ', text, flags=re.IGNORECASE)
+        text = re.sub(r'<[^>]+>', ' ', text)
+        # Handle common HTML entities
+        entities = {
+            '&nbsp;': ' ', '&quot;': '"', '&amp;': '&',
+            '&lt;': '<', '&gt;': '>', '&apos;': "'"
+        }
+        for ent, rep in entities.items():
+            text = text.replace(ent, rep)
+        # Remove control characters and normalize whitespace
         text = ' '.join(text.split())
         text = ''.join(char for char in text
                       if not unicodedata.category(char).startswith('C'))