Spaces:

ai-helpers
/

README

Running

App Files Files

xet

Community

README / README.md

afwull

Update README.md

d4a5975 verified 28 days ago

preview code

raw

history blame contribute delete

6.2 kB

	---
	title: README
	emoji: ⚡
	colorFrom: purple
	colorTo: red
	sdk: static
	pinned: false
	---

	### 1. Экстракция и Распознавание Структуры Таблиц

	---

	#### 1.1. Проблема: Обработка фрагментированных таблиц

	- Формальное описание: Реконструкция единой логической таблицы из физических фрагментов, распределенных по нескольким страницам в PDF-документах или требующих прокрутки в HTML.

	- Ключевые вызовы:

	- Идентификация заголовков и футеров: Необходимо отличать строки заголовка, которые могут повторяться на каждой странице, от уникальных строк данных.

	- Сопоставление колонок: Алгоритм должен корректно сопоставлять колонки между разными страницами, даже если их ширина или выравнивание незначительно меняются.

	- Обеспечение целостности данных: Важно гарантировать, что строки, перенесенные на следующую страницу, будут правильно объединены, а последовательность данных не нарушится.

	- Обнаружение границ: Автоматическое определение того, где заканчивается одна большая таблица и начинается другая, или где она просто прерывается разрывом страницы.
	#### 1.2. Проблема: Парсинг сложных и плотных табличных структур

	- Формальное описание: Корректное распознавание и представление иерархической и реляционной структуры в таблицах со сложной компоновкой, такой как объединенные ячейки, вложенные заголовки или высокая плотность данных.

	- Ключевые вызовы:

	- Объединенные ячейки (`colspan` и `rowspan`): Необходимо точно определять, на какое количество строк или столбцов простирается объединенная ячейка, и правильно ассоциировать ее содержимое со всеми соответствующими данными.

	- Многоуровневые заголовки: Таблицы часто имеют иерархические заголовки (например, "Продажи" -> "Онлайн" / "Офлайн"). Требуется сохранить эту иерархию для правильной интерпретации данных.

	- Отсутствие четких границ: В некоторых документах (особенно сканированных) линии сетки могут отсутствовать или быть слабо выраженными, что усложняет сегментацию ячеек.

	- Плотные таблицы: Таблицы с большим количеством мелких ячеек требуют высокой точности от алгоритмов распознавания, чтобы избежать слияния или неверного разделения ячеек.


	---

	### 2. Выравнивание и Нормализация Схемы Таблиц

	- Формальное описание: Унификация и нормализация схемы таблиц, которые могут содержать внутренние подсекции, необязательные колонки или различные варианты представления одних и тех же данных.

	- Ключевые вызовы:

	- Семантическое разделение: Идентификация и разделение таблицы на логические под-таблицы на основе семантических разделителей (например, пустая строка, заголовок подраздела внутри таблицы).
	- Корректное представление

	---

	### 3. Индексация и Поиск Таблиц (Table Retrieval)

	Этот этап направлен на создание эффективной системы поиска, позволяющей находить релевантные таблицы по запросам на естественном языке.

	- Формальное описание: Адаптация и оптимизация моделей класса RAG (Retrieval-Augmented Generation) для выполнения семантического поиска и ответов на вопросы на основе корпуса неструктурированных и структурированных табличных данных.

	- Ключевые вызовы:

	- Векторное представление (Embedding) таблиц

	- Row-based/Cell-based embedding: Векторизация отдельных строк или ячеек.

	- Structural embedding: Кодирование структуры таблицы (названия колонок, их взаимосвязи).

	- Hybrid embedding: Комбинирование текстового содержания таблицы с ее структурной информацией.

	---
	title: README
	emoji: ⚡
	colorFrom: purple
	colorTo: red
	sdk: static
	pinned: false
	---

	### 1. Экстракция и Распознавание Структуры Таблиц

	---

	#### 1.1. Проблема: Обработка фрагментированных таблиц

	- Формальное описание: Реконструкция единой логической таблицы из физических фрагментов, распределенных по нескольким страницам в PDF-документах или требующих прокрутки в HTML.

	- Ключевые вызовы:

	- Идентификация заголовков и футеров: Необходимо отличать строки заголовка, которые могут повторяться на каждой странице, от уникальных строк данных.

	- Сопоставление колонок: Алгоритм должен корректно сопоставлять колонки между разными страницами, даже если их ширина или выравнивание незначительно меняются.

	- Обеспечение целостности данных: Важно гарантировать, что строки, перенесенные на следующую страницу, будут правильно объединены, а последовательность данных не нарушится.

	- Обнаружение границ: Автоматическое определение того, где заканчивается одна большая таблица и начинается другая, или где она просто прерывается разрывом страницы.
	#### 1.2. Проблема: Парсинг сложных и плотных табличных структур

	- Формальное описание: Корректное распознавание и представление иерархической и реляционной структуры в таблицах со сложной компоновкой, такой как объединенные ячейки, вложенные заголовки или высокая плотность данных.

	- Ключевые вызовы:

	- Объединенные ячейки (`colspan` и `rowspan`): Необходимо точно определять, на какое количество строк или столбцов простирается объединенная ячейка, и правильно ассоциировать ее содержимое со всеми соответствующими данными.

	- Многоуровневые заголовки: Таблицы часто имеют иерархические заголовки (например, "Продажи" -> "Онлайн" / "Офлайн"). Требуется сохранить эту иерархию для правильной интерпретации данных.

	- Отсутствие четких границ: В некоторых документах (особенно сканированных) линии сетки могут отсутствовать или быть слабо выраженными, что усложняет сегментацию ячеек.

	- Плотные таблицы: Таблицы с большим количеством мелких ячеек требуют высокой точности от алгоритмов распознавания, чтобы избежать слияния или неверного разделения ячеек.


	---

	### 2. Выравнивание и Нормализация Схемы Таблиц

	- Формальное описание: Унификация и нормализация схемы таблиц, которые могут содержать внутренние подсекции, необязательные колонки или различные варианты представления одних и тех же данных.

	- Ключевые вызовы:

	- Семантическое разделение: Идентификация и разделение таблицы на логические под-таблицы на основе семантических разделителей (например, пустая строка, заголовок подраздела внутри таблицы).
	- Корректное представление

	---

	### 3. Индексация и Поиск Таблиц (Table Retrieval)

	Этот этап направлен на создание эффективной системы поиска, позволяющей находить релевантные таблицы по запросам на естественном языке.

	- Формальное описание: Адаптация и оптимизация моделей класса RAG (Retrieval-Augmented Generation) для выполнения семантического поиска и ответов на вопросы на основе корпуса неструктурированных и структурированных табличных данных.

	- Ключевые вызовы:

	- Векторное представление (Embedding) таблиц

	- Row-based/Cell-based embedding: Векторизация отдельных строк или ячеек.

	- Structural embedding: Кодирование структуры таблицы (названия колонок, их взаимосвязи).

	- Hybrid embedding: Комбинирование текстового содержания таблицы с ее структурной информацией.