MarkItDownTestingPlatform / INSTRUCTION.md
DocUA's picture
Оновлено моделі Gemini до версії 2.0 у всіх відповідних файлах, включаючи AGENTS.md, INSTRUCTION.md, app.py, requirements.txt та інші. Змінено залежність на google-genai для інтеграції з новим клієнтом. Поліпшено обробку запитів та візуалізацію аналізу.
1d8fcf4
|
raw
history blame
26 kB

Керівництво Користувача: MarkItDown Testing Platform

Стратегічне Керівництво з Експлуатації Enterprise-системи

"Перетворюйте документи у структуровані дані з впевненістю підприємства"


Основна Філософія Платформи

Ключові Принципи Проектування

  • Людиноорієнтований Інтерфейс: Мінімізація когнітивного навантаження користувача
  • Адаптивна Архітектура: Система еволюціонує разом з вашими потребами
  • Прозорість Процесу: Кожен крок конвертації зрозумілий і контрольований
  • Надійність Підприємства: Промислова стабільність з елегантним дизайном

Розділ 1: Стратегічний Огляд Можливостей

🎯 Основні Сценарії Використання

Корпоративна Міграція Документів

  • Завдання: Перетворення застарілих форматів у сучасні стандарти
  • Підхід: Автоматизована обробка з контролем якості
  • Результат: Стандартизована документообіг з AI-аналітикою

Підготовка Даних для AI-систем

  • Завдання: Оптимізація документів для RAG (Retrieval-Augmented Generation)
  • Підхід: Структурований аналіз з оцінкою якості
  • Результат: AI-ready контент з метриками ефективності

Контроль Якості Конвертації

  • Завдання: Валідація точності автоматичного перетворення
  • Підхož: Комплексна аналітика з детальними метриками
  • Результат: Довіра до процесу з аудиторським слідом

Розділ 2: Покрокова Інструкція з Експлуатації

🚀 Етап 1: Початкова Конфігурація

Доступ до Платформи

  1. Перейдіть на Hugging Face Space: MarkItDown Testing Platform
  2. Перевірте Системні Вимоги:
    • Сучасний браузер (Chrome, Firefox, Safari, Edge)
    • Стабільне інтернет-з'єднання
    • JavaScript увімкнений

Отримання API-ключа Gemini (Опціонально)

Стратегічна Рекомендація:
API-ключ Gemini розблоковує потужні AI-можливості аналізу,
але базова конвертація працює без додаткових налаштувань

Крок-за-кроком налаштування Gemini:

  1. Відвідайте Google AI Studio
  2. Створіть новий проект або оберіть існуючий
  3. Згенеруйте API-ключ з відповідними дозволами
  4. Скопіюйте ключ (зберігається локально, не передається на сервер)

🔧 Етап 2: Завантаження та Конфігурація Документа

Підтримувані Формати Файлів

Категорія Формати Особливості Обробки
Офісні документи PDF, DOCX, PPTX, XLSX Збереження структури та форматування
Веб-контент HTML, HTM Повна підтримка CSS-стилів
Структуровані дані CSV, JSON, XML Інтелектуальне парсингування
Текстові файли TXT, RTF Розширена обробка кодувань

Процес Завантаження

  1. Виберіть Вкладку "📁 Document Processing"

  2. Завантажте Файл:

    • Drag & Drop у область завантаження
    • Або натисніть "Select Document" для вибору файлу
    • Ліміт: 50MB для Hugging Face Spaces
  3. Налаштуйте Параметри Обробки:

    🔧 Стратегічні Рекомендації:
    - Quality Analysis: Комплексна оцінка якості конвертації
    - Structure Review: Фокус на збереження ієрархії документа
    - Content Summary: Тематичний аналіз та ключові інсайти
    - Extraction Quality: Оцінка збереження даних
    
  4. Виберіть AI-модель:

    • Gemini 1.5 Pro: Максимальна якість аналізу (рекомендовано)
    • Gemini 1.5 Flash: Швидша обробка для великих обсягів

Етап 3: Виконання Обробки

Процес Конвертації

  1. Натисніть "🚀 Process Document"
  2. Моніторинг Прогресу:
    • Реальний час відслідковування етапів
    • Індикатори завантаження для кожної фази
    • Автоматичні повідомлення про стан

Етапи Обробки

Архітектурний Підхід до Прозорості:
Кожен етап має чіткі межі відповідальності та точки контролю

Фаза 1: Валідація Файлу

  • Перевірка формату та цілісності
  • Аналіз безпеки та розміру
  • Метадані екстракція

Фаза 2: Конвертація в Markdown

  • MarkItDown обробка з оптимізацією
  • Збереження структури та форматування
  • Генерація якісних метрик

Фаза 3: AI-аналіз (за наявності ключа)

  • Gemini-powered інтелектуальний аналіз
  • Оцінка якості та рекомендації
  • Структурні та змістовні інсайти

Розділ 3: Інтерпретація Результатів

📊 Розуміння Метрик Якості

Композитна Оцінка (0-10 балів)

Стратегічна Інтерпретація Оцінок:
- 8.0-10.0: Відмінна якість, готово для продакшену
- 6.0-7.9: Хороша якість, мінорні оптимізації
- 4.0-5.9: Прийнятна якість, потребує покращень
- 0.0-3.9: Потребує уваги, перевірте налаштування

Детальні Компоненти Оцінки

Структурна Оцінка (Structure Score)

  • Що вимірює: Збереження заголовків, списків, таблиць
  • Високі значення: Документ зберіг логічну ієрархію
  • Низькі значення: Втрачено структурну організацію
  • Дія: Перевірте вхідний документ на чітку структуру

Повнота Контенту (Completeness Score)

  • Що вимірює: Збереження інформації з оригіналу
  • Високі значення: Мінімальна втрата даних
  • Низькі значення: Значна втрата контенту
  • Дія: Розгляньте альтернативні налаштування конвертації

Точність Форматування (Accuracy Score)

  • Що вимірює: Правильність передачі форматних елементів
  • Високі значення: Форматування відповідає оригіналу
  • Низькі значення: Спотворення або втрата форматування
  • Дія: Валідуйте критичні форматні елементи

Читабельність для AI (Readability Score)

  • Що вимірює: Оптимізація для AI-споживання
  • Високі значення: Ідеальний для LLM обробки
  • Низькі значення: Потребує додаткової обробки
  • Дія: Розгляньте пост-процесинг оптимізації

🤖 AI-аналіз Результатів

Типи Аналізу та Їх Застосування

Quality Analysis (Аналіз Якості)

Практичне Застосування:
- Валідація автоматичних процесів конвертації
- Контроль якості для корпоративних пайплайнів
- Оцінка готовності для downstream обробки

Structure Review (Структурний Огляд)

Бізнес-цінність:
- Забезпечення збереження документної ієрархії
- Валідація навігаційної структури
- Оптимізація для пошукових систем

Content Summary (Змістовий Аналіз)

Стратегічні Інсайти:
- Розуміння тематичного навантаження документа
- Ідентифікація ключових концепцій
- Підготовка для content management систем

Розділ 4: Візуалізація та Аналітика

📈 Навігація Dashboard'ом

Вкладка "📊 Analysis Dashboard"

Quality Overview (Загальний Огляд Якості)

  • Gauge Chart: Композитна оцінка з візуальними індикаторами
  • Інтерпретація: Швидка оцінка успішності конвертації
  • Використання: Executive summary для стейкхолдерів

Detailed Breakdown (Детальна Аналітика)

  • Radar Chart: Багатомірний аналіз якісних показників
  • Застосування: Ідентифікація сильних та слабких сторін
  • Оптимізація: Фокус на найнижчих показниках

Document Structure (Структура Документа)

  • Treemap: Ієрархічна візуалізація елементів
  • Bar Charts: Розподіл структурних компонентів
  • Insights: Розуміння організаційної логіки

Інтерактивні Можливості

Архітектурний Підхід до UX:
Кожен візуальний елемент забезпечує actionable insights
з можливістю drill-down до деталей
  • Hover Effects: Детальна інформація при наведенні
  • Zoom Functionality: Масштабування для деталізації
  • Export Options: Збереження візуалізацій у різних форматах

Розділ 5: Експорт та Інтеграція

💾 Стратегії Збереження Результатів

Формати Експорту та Їх Застосування

Markdown (.md)

Стратегічне Застосування:
- Інтеграція з Git-based workflows
- Подача в LLM для подальшої обробки
- Documentation-as-Code процеси

HTML Report (.html)

Бізнес-цінність:
- Презентація для non-technical стейкхолдерів
- Архівування з візуальним контекстом
- Web-based sharing та collaboration

JSON Data (.json)

Технічна Інтеграція:
- API-based інтеграція з downstream системами
- Метадані для автоматизованих пайплайнів
- Structured data для аналітичних платформ

Complete Package (.zip)

Enterprise Approach:
- Comprehensive backup з усіма артефактами
- Audit trail для compliance процесів
- Self-contained delivery package

Процес Експорту

  1. Перейдіть на "💾 Export & History"

  2. Оберіть Формат: Базуючись на downstream requirements

  3. Налаштуйте Опції:

    • Original Document Preview
    • AI Analysis Results
    • Quality Metrics
    • Visualizations
    • Processing Logs
  4. Генерація та Завантаження:

    • Натисніть "📥 Generate Export"
    • Дочекайтесь completion notification
    • Завантажте через browser download

Розділ 6: Розширене Використання

🔍 Advanced Analytics (Розширена Аналітика)

Порівняльний Аналіз

Стратегічний Підхід до Batch Processing:
Можливість порівняння ефективності конвертації
для різних типів документів та налаштувань

Workflow для Comparative Analysis:

  1. Завантажте кілька документів через "🔍 Advanced Analytics"

  2. Оберіть аналітичні опції:

    • Performance Timeline
    • Quality Trends
    • Batch Statistics
    • Resource Usage
  3. Генеруйте порівняльні звіти з actionable insights

Performance Monitoring

  • Processing Speed Trends: Моніторинг швидкості обробки
  • Quality Consistency: Стабільність якісних показників
  • Resource Utilization: Ефективність використання ресурсів
  • Error Pattern Analysis: Ідентифікація проблемних сценаріїв

⚙️ System Status та Моніторинг

Health Check Dashboard

Operational Excellence Metrics:
{
  "system_health": "Healthy/Degraded/Unhealthy",
  "processing_capacity": "Available/Limited/Exhausted", 
  "api_connectivity": "Connected/Intermittent/Offline",
  "cache_efficiency": "Percentage hit rate"
}

Інтерпретація Статусів:

  • Healthy: Система функціонує оптимально
  • Degraded: Зниження продуктивності, але функціональна
  • Unhealthy: Потребує втручання або troubleshooting

Розділ 7: Troubleshooting та Оптимізація

🔧 Поширені Сценарії та Рішення

Проблеми з Конвертацією

Симптом: Низька якість конвертації PDF

Діагностичний Підхід:
1. Перевірте, чи PDF містить текстовий шар (не тільки зображення)
2. Розгляньте Azure Document Intelligence інтеграцію
3. Тестуйте з різними density настройками

Рішення:

  • Використайте OCR preprocessing для scan-based PDF
  • Налаштуйте Azure endpoint для складних документів
  • Розбийте великі PDF на секції

Симптом: Тайм-аут обробки

Resource Management Strategy:
- HF Spaces має 5-хвилинний ліміт обробки
- Файли >20MB потребують особливої уваги
- Concurrent processing може створювати bottlenecks

Рішення:

  • Розбийте великі документи на менші частини
  • Оптимізуйте час обробки, відключивши AI-аналіз для тестування
  • Використайте локальне розгортання для великих workloads

API та Конфігурація

Симптом: Gemini API помилки

Authentication та Rate Limiting:
- Перевірте валідність API ключа
- Моніторьте usage limits у Google Console
- Налаштуйте retry logic для intermittent failures

Рішення:

  • Регенерація API ключа в Google AI Studio
  • Перевірка квот та billing status
  • Використання різних моделей для балансування навантаження

📈 Оптимізація Продуктивності

Стратегії для Великих Обсягів

Batch Processing Approach:

# Псевдо-код для оптимальної batch стратегії
documents = preprocess_and_prioritize(document_list)
for batch in chunk_documents(documents, optimal_size=5):
    results = process_batch_with_monitoring(batch)
    validate_and_store_results(results)

Resource Optimization:

  • Використовуйте Gemini Flash для швидкої обробки
  • Кешуйте результати для repeated processing
  • Моніторьте system health між batch операціями

Розділ 8: Інтеграція та Автоматизація

🔗 Enterprise Integration Patterns

API-based Integration

# Приклад інтеграції через programmatic access
def integrate_with_existing_pipeline(document_path):
    # Використання core components напряму
    from markitdown_platform import DocumentProcessingOrchestrator
    
    orchestrator = DocumentProcessingOrchestrator(...)
    request = ProcessingRequest.from_file(document_path)
    result = await orchestrator.process_document(request)
    
    return standardize_output_format(result)

Workflow Automation

Strategic Automation Framework:
1. Document Ingestion (Watch folders, S3 triggers, API endpoints)
2. Quality Gates (Automated validation based on metrics)
3. Routing Logic (Different pipelines based on document type)
4. Notification Systems (Slack, email, webhooks for completion)

CI/CD Integration

  • Quality Checks: Automated validation у deployment pipelines
  • Regression Testing: Consistency перевірка across versions
  • Performance Benchmarks: SLA enforcement через automated tests

Розділ 9: Безпека та Compliance

🔒 Data Security Framework

Privacy Protection Strategy

GDPR-Compliant Architecture:
- No persistent storage of user documents
- API keys stored locally, never transmitted
- Automatic cleanup of temporary processing files
- Audit trails without sensitive data exposure

Security Best Practices

  1. API Key Management:

    • Rotate ключі регулярно
    • Не зберігайте ключі у коді
    • Використовуйте environment variables
  2. Document Handling:

    • Валідація file signatures
    • Size та format restrictions
    • Automatic sanitization suspicious content
  3. Network Security:

    • HTTPS-only communications
    • Certificate pinning where applicable
    • Rate limiting та DDoS protection

📋 Compliance Considerations

Audit Trail Management

  • Processing Logs: Comprehensive logging без sensitive data
  • Quality Metrics: Historical tracking for compliance reporting
  • System Health: Operational metrics для SLA validation
  • User Actions: Anonymized usage analytics

Розділ 10: Майбутній Розвиток та Roadmap

🔮 Стратегічні Напрямки Розвитку

Короткострокові Покращення (3-6 місяців)

  • Enhanced Batch Processing: Більш ефективна multi-document обробка
  • Advanced Comparison Tools: Side-by-side analysis capabilities
  • Custom Template Support: User-defined output formatting
  • Performance Dashboards: Real-time operational metrics

Довгострокова Візія (6-18 місяців)

Architectural Evolution Path:
- Multi-LLM Support: Claude, OpenAI, local models
- Plugin Ecosystem: Third-party extensions framework  
- Advanced Analytics: ML-powered quality prediction
- Enterprise SSO: Active Directory, OAuth integration

Community та Ecosystem

  • Open Source Contributions: Community-driven improvements
  • Integration Partners: Partnerships з document management vendors
  • Training Programs: Certification для enterprise users
  • Support Tiers: SLA-backed support для enterprise deployments

Додаток A: Технічні Специфікації

📋 Системні Вимоги

Browser Compatibility

Browser Minimum Version Recommended
Chrome 90+ Latest
Firefox 88+ Latest
Safari 14+ Latest
Edge 90+ Latest

File Format Support Matrix

Format Max Size Special Notes
PDF 50MB Text-based preferred, OCR available
DOCX 50MB Full formatting preservation
PPTX 50MB Slide structure maintained
XLSX 50MB Table structure optimized
HTML 20MB CSS styling preserved
TXT 10MB Encoding auto-detection

🔧 Advanced Configuration Options

Environment Variables (for Local Deployment)

# Core Configuration
MAX_FILE_SIZE_MB=50
PROCESSING_TIMEOUT_SECONDS=300
ENABLE_DEBUG_LOGGING=false

# AI Integration  
GEMINI_DEFAULT_MODEL=gemini-2.0-pro-exp
AZURE_DOCUMENT_INTELLIGENCE_ENDPOINT=your-endpoint

# Performance Tuning
CACHE_TTL_HOURS=24
MAX_CONCURRENT_PROCESSES=3
MEMORY_LIMIT_GB=12

Додаток B: Часті Питання (FAQ)

Загальні Питання

Q: Чи потрібен Gemini API ключ для роботи? A: Ні, базова конвертація документів працює без API ключа. Gemini потрібен тільки для AI-powered аналізу та рекомендацій.

Q: Які обмеження розміру файлів? A: HF Spaces free tier обмежує файли до 50MB. Для більших файлів використовуйте локальне розгортання або розбийте документ на частини.

Q: Чи зберігаються мої документи на сервері?
A: Ні, усі документи обробляються в пам'яті і автоматично видаляються після завершення. Платформа designed для privacy-first обробки.

Q: Як інтерпретувати оцінки якості? A: Оцінки 0-10: 8+ відмінно, 6-8 добре, 4-6 прийнятно, <4 потребує уваги. Фокусуйтеся на найнижчих компонентах для покращення.

🔧 Технічні Питання

Q: Чи можна інтегрувати з існуючими системами? A: Так, платформа побудована з modular architecture що дозволяє integration через API або direct component usage.

Q: Які формати експорту доступні? A: Markdown, HTML, JSON, PDF звіти, та ZIP packages з усіма артефактами.

Q: Чи підтримується batch processing? A: Так, через Advanced Analytics tab можна обробляти кілька документів одночасно з порівняльним аналізом.


Контакти та Підтримка

📞 Канали Підтримки

Документація та Ресурси:

Зворотний Зв'язок:

Community:


Версія документа: 2.0.0 | Остання редакція: Вересень 2025

Це керівництво відображає current state платформи та буде оновлюватися з новими features та improvements.